Extracción de conocimiento latente
La extracción de conocimiento latente (en inglés, eliciting latent knowledge) es un problema de la seguridad de la inteligencia artificial identificado por Paul Christiano, Ajeya Cotra y Mark Xu en un informe homónimo. Los autores lo caracterizan de la siguiente manera:1
Supongamos que entrenamos un modelo para predecir cómo será el futuro según las cámaras y otros sensores. A continuación, utilizamos algoritmos de planificación para encontrar una secuencia de acciones que conduzcan a futuros predichos que nos parezcan buenos.
Pero algunas secuencias de acción podrían manipular las cámaras para que muestren a humanos felices independientemente de lo que realmente esté ocurriendo. En general, algunos futuros se ven muy bien en la cámara, pero en realidad son catastróficamente malos.
En estos casos, el modelo de predicción “conoce” hechos (como “la cámara fue manipulada”) que no son visibles en la cámara, pero que cambiarían nuestra evaluación del futuro predicho si los conociéramos. ¿Cómo podemos entrenar a este modelo para que comunique su conocimiento latente de hechos no visibles en la pantalla?
Paul Christiano, Ajeya Cotra & Mark Xu (2021) Eliciting Latent Knowledge, Alignment Research Center.
Marius Hobbhahn (2022) Eliciting Latent Knowledge (ELK) - Distillation/summary, AI Alignment Forum, 8 de junio.
interpretabilidad de la inteligencia artificial • seguridad de la inteligencia artificial