Interpretabilidad de la inteligencia artificial

La interpretabilidad de la inteligencia artificial es la propiedad que poseen los sistemas de inteligencia artificial (IA) y aprendizaje automático cuando sus procesos de decisión y su funcionamiento interno son comprensibles para los seres humanos u otros observadores externos.⁠1

Los sistemas actuales de aprendizaje automático no suelen ser muy transparentes o interpretables: aunque son capaces de generar respuestas, no pueden explicar cómo las han obtenido. Esto hace que sea difícil determinar la causa de los sesgos en este tipo de modelos.⁠2

La interpretabilidad es uno de los puntos centrales del trabajo de Chris Olah y Anthropic, aunque muchas organizaciones que se dedican a la alineación de la inteligencia artificial trabajan en la interpretabilidad hasta cierto punto.⁠3

Entradas relacionadas

extracción de conocimiento latenteinteligencia artificialriesgo asociado a la inteligencia artificialseguridad de la inteligencia artificial