Modos de fallo de la inteligencia artificial

Los modos de fallo de la inteligencia artificial (en inglés, AI failure modes) son las múltiples maneras en las que un proyecto para desarrollar una inteligencia artificial (IA) avanzada podría fracasar. Los modos de fallo de la IA malignos son específicamente aquellos modos de fallo de la IA que provocan una catástrofe existencial.

Nick Bostrom clasifica los modos de fallo de la IA malignos en tres tipos básicos: instanciación perversa, que implica la satisfacción de los objetivos de una IA de forma contraria a las intenciones de quienes la programaron; profusión de infraestructura, que implica la transformación de grandes partes del universo accesible en infraestructura al servicio de algún objetivo que impide la realización del potencial de la humanidad a largo plazo; y crimen mental, que implica el maltrato de procesos computacionales moralmente relevantes.

Más información

Nick Bostrom (2016) Superinteligencia: caminos, peligros, estrategias, Madrid: Teell, chap. 8.

Entradas relacionadas

crimen mental • instanciación perversa • profusión de infraestructura • riesgo existencial • superinteligencia