La interpretabilidad no detectará la IA engañosa de forma fiable
Aclaración: Artículo escrito a título personal. Son opiniones personales y no representan en modo alguno los puntos de vista de mi empleador.
EN BREVE:
REVISIÓN: Este artículo estaba pensado originalmente para refutar la afirmación de que “la interpretabilidad es el único camino fiable para detectar el engaño en la IA avanzada”, pero si se lee con más detenimiento, se trata de una afirmación más fuerte que la que hace explícitamente la entrada de Dario. Mantengo el contenido de la entrada en sí, pero he modificado un poco el enfoque, y también he destacado que antes sostenía la postura que ahora critico. Disculpas por el error.
Hay un argumento habitual en los debates sobre la seguridad de la IA: es importante trabajar en la investigación de la interpretabilidad porque es un camino realista hacia salvaguardas de alta fiabilidad en sistemas potentes - por ejemplo, como se argumenta en el reciente The urgency of interpretabilitya de Dario Amodei. Incluso se llega a argumentar que la interpretabilidad es el único camino realista hacia salvaguardas de alta fiabilidad; yo mismo solía creer en ambos argumentos. **Ahora no estoy de acuerdo con ellos.
El razonamiento conceptual es sencillo y convincente: una IA engañosa suficientemente sofisticada puede decir lo que queramos oír, imitando perfectamente un comportamiento alineado externamente. Pero fingir sus procesos cognitivos internos —sus “pensamientos”— parece mucho más difícil. Por lo tanto, según este argumento, debemos confiar en la interpretabilidad para saber realmente si una IA está alineada.
Me preocupa que esta línea de razonamiento represente una exigencia aislada de rigor. Identifica correctamente los profundos defectos de confiar únicamente en el comportamiento externo (métodos de caja negra), pero asume implícitamente que la interpretabilidad no adolece de problemas igualmente fundamentales. Hay muchos problemas profundos en la interpretabilidad que impiden extraer conclusiones muy fiables, incluso si suponemos que los modelos no pueden ofuscar deliberadamente sus pensamientos, por ejemplo, la superposición y el error inherente a nuestras mejores herramientas y técnicas. Los retos de la interpretabilidad no parecen cualitativamente más fáciles de resolver que los grandes problemas de las pruebas de caja negra, especialmente con herramientas de caja negra más creativas, como la supervisión o la edición de la cadena de pensamiento del sistema.b
¿Debemos renunciar a la interpretabilidad? No. Sigo pensando que tiene el potencial de añadir mucho valor, y tendremos mejores salvaguardas con la interpretabilidad como parte de nuestra estrategia. Aunque no añada ningún valor para aumentar la seguridad de la superinteligencia,c si puede añadir valor para los sistemas transformadores previos a la superinteligencia, eso bastaría para justificar la inversión. Simplemente creo que deberíamos ser más pragmáticos respecto al impacto probable de la interpretabilidad, y aceptar que, aunque en general podemos mejorar nuestras salvaguardas, probablemente no alcanzaremos una alta fiabilidad.
Basándome en el estado actual y en la trayectoria previsible del campo sin grandes cambios de paradigma, creo que ni la interpretabilidad ni los métodos de caja negra ofrecen una vía fiabled hacia las salvaguardas de la superinteligencia, en términos de evaluación o supervisión. Esto se debe a limitaciones bastante fundamentales de ambos métodos, a menos que se produzcan avances sustanciales, por ejemplo, mediante el uso de sistemas previos a la superinteligencia. También se debe a la premisa general de que es bastante inverosímil confiar plenamente en cualquier propiedad compleja de un sistema complejo en diversas situaciones impredecibles.
Sin embargo, soy bastante pesimista en general sobre las salvaguardas fiables contra la superinteligencia con cualquier método, dado lo excepcionalmente difícil que es determinar cómo un sistema mucho más inteligente que yo podría eludir mis planes. Tal y como yo lo veo, debemos o bien no crear superinteligencia o confiar en que los investigadores automatizados previos a la superinteligencia encuentren métodos mejores o desplegar los sistemas sin salvaguardas plenamente fiables y correr el riesgo, haciendo todo lo que podamos ahora para aumentar nuestras probabilidades.
Esto no significa que debamos rendirnos. Significa que necesitamos una perspectiva pragmática. Debemos aspirar a construir el mejor conjunto posible de herramientas de supervisión y evaluación que podamos, utilizando todas las herramientas disponibles, al tiempo que aceptamos que una alta fiabilidad puede estar fuera de nuestro alcance. La interpretabilidad puede añadir una valiosa fuente de señal descorrelacionada o complementar los métodos de caja negra. El objetivo ya no es conseguir una certeza casi absoluta, sino maximizar las posibilidades de detectar desalineaciones, haciendo que el engaño sea más difícil y más arriesgado para la IA, aunque no podamos garantizar la detección.
Además, los métodos que añaden una seguridad significativa a los sistemas transformadores previos a la superinteligencia siguen añadiendo un valor significativo aunque no escalen a la superinteligencia, una de las ideas clave que fundamentan la agenda de control de la IA. Parece probable que los primeros sistemas transformadores sean mucho más fáciles de evaluar y controlar, pero pueden seguir siendo muy peligrosos si operan sin supervisión, y extremadamente útiles si están bajo control. Y cuando se evalúan los métodos en función de cuánto contribuyen a los sistemas transformadores tempranos, la interpretabilidad es solo uno entre varios métodos razonables (y probablemente no sea mi primera opción: herramientas como la supervisión de la cadena de pensamiento parecen una oportunidad al alcance de la mano)**.
Advertencia: Lo que sigue es mi visión interna sobre las razones profundas por las que la interpretabilidad nunca será verdaderamente fiable para la ciencia humana, por mucho que avance el campo. Esta es una afirmación muy fuerte, así que no tengo una certeza absoluta al respecto. Aunque es evidente que las técnicas actuales no son fiables, se trata de una cuestión de pronosticación del progreso futuro de la investigación, una empresa muy incierta. Es muy difícil decir lo que podría ser posible con un cambio de paradigma en la forma en que se entrena a los modelos de lenguaje a gran escala, o en cómo abordamos la interpretabilidad.
Y lo que es más importante, no me siento capaz de evaluar las consecuencias de que numerosas IAG se dediquen a la investigación en IA. “Miles de años de genios de la interpretabilidad mecanicista en un centro de datos” es una anomalía disparatada sobre la que no puedo razonar bien, y parece razonablemente probable que ocurra antes de la superinteligencia, por lo que quiero ser cauto. La investigación no solo podría conducir a avances inesperados, sino que abre la puerta a todo tipo de estrategias singulares que aprovechan la existencia de las IAG, como inspeccionar detalladamente cada autocodificador disperso latente, aunque me imagino que los esquemas de supervisión/control extensibles que utilizan las IAG deberían ser más prioritarios que la interpretabilidad. También creo que deberíamos tener bastantes dudas sobre qué direcciones de investigación sobre seguridad encontrarán más prometedoras los investigadores automatizados.
Dejando esto a un lado, estas son las razones por las que no me sentiré cómodo confiando en la interpretabilidad:
Los métodos de caja negra, es decir, aquellos que interactúan con los datos de entrada y salida del modelo, tienen problemas claros: los modelos ya saben cuándo están siendo evaluados o se dan cuenta de cuándo tienen que fingir instrumentalmente su obediencia. Pero creo que también hay muchos trucos inteligentes que se pueden aplicar para reforzarlos, y que pueden ser muy efectivos. Esto es más una cuestión relativa al control de la IA que a mis áreas de especialización, pero estas son algunas ideas sobre direcciones que me parecen prometedoras:
Leer la cadena de pensamiento (con otro modelo de lenguaje) y buscar intenciones sospechosase
Editar la cadena de pensamiento del modelo para que, por ejemplo, piense que ha llegado a la conclusión de que no está en una evaluación
Hacer preguntas a muchas copias del mismo modelo y buscar incoherencias mientras no puedan coordinarse
Afinar el modelo para que, por ejemplo, sea más veraz o comunicativo o para insertar creencias engañosas y engañarlo.
Crear honeypots que intenten engañar al modelo para que revele su intención.
Entonces ¿dónde encaja la interpretabilidad en este enfoque pragmático? Veo varios roles clave, y no la considero una solución independiente, sino un componente valioso.
En primer lugar, las salvaguardas pueden clasificarse como sigue:
¿Cómo puede ayudar la interpretabilidad?
No está garantizado que estas aplicaciones funcionen o sean no manipulables, pero representan formas concretas en que la comprensión interna podría complementar la validación externa, creando un sistema global más sólido que cualquiera de las dos por separado.
Dejemos de presentar la interpretabilidad como la panacea para detectar con fiabilidad el engaño de la IA, una visión que a menudo nace de una demanda aislada de rigor en contraposición a métodos de caja negra defectuosos. Ningún enfoque ofrece un alto grado de fiabilidad contra la superinteligencia sin avances fundamentales, pero los métodos defectuosos pueden seguir siendo útiles. Para los potentes sistemas previos a la superinteligencia que nos ocupan ahora, centrémonos en construir el conjunto más pragmático de defensas imperfectas que podamos. La interpretabilidad es una parte útil de ese conjunto —ofrece perspectivas de análisis únicas y sinergias potenciales con otros métodos—, pero es una herramienta entre muchas otras, no un sustituto de una estrategia integral de defensa en profundidad. Tenemos que aprovechar todas las señales imperfectas que podamos obtener, tanto del interior del modelo como de su comportamiento externo.
Gracias a mi coautor Gemini 2.5 Pro.