• Ingresar con


  • Preferencias de usuario


  • ¿Está seguro de que desea eliminar su cuenta?

  • Se perderán todas sus preferencias almacenadas. Esta acción es irreversible.

La interpretabilidad no detectará la IA engañosa de forma fiable

por Neel Nanda
Alineación de la IAPronosticación de la IASeguridad de la IA

Aclaración: Artículo escrito a título personal. Son opiniones personales y no representan en modo alguno los puntos de vista de mi empleador.

EN BREVE:

  • No creo que lleguemos a producir métodos de alta fiabilidad para evaluar o supervisar la seguridad de los sistemas de superinteligencia mediante los paradigmas de investigación actuales, ya sea mediante la interpretabilidad o por otras vías.
  • La interpretabilidad sigue pareciendo una herramienta valiosa y sigue valiendo la pena invertir en ella, ya que es de esperar que aumente la fiabilidad que podemos alcanzar.
  • Sin embargo, la interpretabilidad debe considerarse parte de un conjunto global de defensas: una capa de una estrategia de defensa en profundidad.
  • No es lo único que nos salvará, y seguirá sin ser suficiente para lograr una alta fiabilidad.

REVISIÓN: Este artículo estaba pensado originalmente para refutar la afirmación de que “la interpretabilidad es el único camino fiable para detectar el engaño en la IA avanzada”, pero si se lee con más detenimiento, se trata de una afirmación más fuerte que la que hace explícitamente la entrada de Dario. Mantengo el contenido de la entrada en sí, pero he modificado un poco el enfoque, y también he destacado que antes sostenía la postura que ahora critico. Disculpas por el error.

Introducción

Hay un argumento habitual en los debates sobre la seguridad de la IA: es importante trabajar en la investigación de la interpretabilidad porque es un camino realista hacia salvaguardas de alta fiabilidad en sistemas potentes - por ejemplo, como se argumenta en el reciente The urgency of interpretability⁠a de Dario Amodei. Incluso se llega a argumentar que la interpretabilidad es el único camino realista hacia salvaguardas de alta fiabilidad; yo mismo solía creer en ambos argumentos. **Ahora no estoy de acuerdo con ellos.

El razonamiento conceptual es sencillo y convincente: una IA engañosa suficientemente sofisticada puede decir lo que queramos oír, imitando perfectamente un comportamiento alineado externamente. Pero fingir sus procesos cognitivos internos —sus “pensamientos”— parece mucho más difícil. Por lo tanto, según este argumento, debemos confiar en la interpretabilidad para saber realmente si una IA está alineada.

Me preocupa que esta línea de razonamiento represente una exigencia aislada de rigor. Identifica correctamente los profundos defectos de confiar únicamente en el comportamiento externo (métodos de caja negra), pero asume implícitamente que la interpretabilidad no adolece de problemas igualmente fundamentales. Hay muchos problemas profundos en la interpretabilidad que impiden extraer conclusiones muy fiables, incluso si suponemos que los modelos no pueden ofuscar deliberadamente sus pensamientos, por ejemplo, la superposición y el error inherente a nuestras mejores herramientas y técnicas. Los retos de la interpretabilidad no parecen cualitativamente más fáciles de resolver que los grandes problemas de las pruebas de caja negra, especialmente con herramientas de caja negra más creativas, como la supervisión o la edición de la cadena de pensamiento del sistema.⁠b

¿Debemos renunciar a la interpretabilidad? No. Sigo pensando que tiene el potencial de añadir mucho valor, y tendremos mejores salvaguardas con la interpretabilidad como parte de nuestra estrategia. Aunque no añada ningún valor para aumentar la seguridad de la superinteligencia,⁠c si puede añadir valor para los sistemas transformadores previos a la superinteligencia, eso bastaría para justificar la inversión. Simplemente creo que deberíamos ser más pragmáticos respecto al impacto probable de la interpretabilidad, y aceptar que, aunque en general podemos mejorar nuestras salvaguardas, probablemente no alcanzaremos una alta fiabilidad.

La alta fiabilidad parece inalcanzable

Basándome en el estado actual y en la trayectoria previsible del campo sin grandes cambios de paradigma, creo que ni la interpretabilidad ni los métodos de caja negra ofrecen una vía fiable⁠d hacia las salvaguardas de la superinteligencia, en términos de evaluación o supervisión. Esto se debe a limitaciones bastante fundamentales de ambos métodos, a menos que se produzcan avances sustanciales, por ejemplo, mediante el uso de sistemas previos a la superinteligencia. También se debe a la premisa general de que es bastante inverosímil confiar plenamente en cualquier propiedad compleja de un sistema complejo en diversas situaciones impredecibles.

Sin embargo, soy bastante pesimista en general sobre las salvaguardas fiables contra la superinteligencia con cualquier método, dado lo excepcionalmente difícil que es determinar cómo un sistema mucho más inteligente que yo podría eludir mis planes. Tal y como yo lo veo, debemos o bien no crear superinteligencia o confiar en que los investigadores automatizados previos a la superinteligencia encuentren métodos mejores o desplegar los sistemas sin salvaguardas plenamente fiables y correr el riesgo, haciendo todo lo que podamos ahora para aumentar nuestras probabilidades.

Esto no significa que debamos rendirnos. Significa que necesitamos una perspectiva pragmática. Debemos aspirar a construir el mejor conjunto posible de herramientas de supervisión y evaluación que podamos, utilizando todas las herramientas disponibles, al tiempo que aceptamos que una alta fiabilidad puede estar fuera de nuestro alcance. La interpretabilidad puede añadir una valiosa fuente de señal descorrelacionada o complementar los métodos de caja negra. El objetivo ya no es conseguir una certeza casi absoluta, sino maximizar las posibilidades de detectar desalineaciones, haciendo que el engaño sea más difícil y más arriesgado para la IA, aunque no podamos garantizar la detección.

Además, los métodos que añaden una seguridad significativa a los sistemas transformadores previos a la superinteligencia siguen añadiendo un valor significativo aunque no escalen a la superinteligencia, una de las ideas clave que fundamentan la agenda de control de la IA. Parece probable que los primeros sistemas transformadores sean mucho más fáciles de evaluar y controlar, pero pueden seguir siendo muy peligrosos si operan sin supervisión, y extremadamente útiles si están bajo control. Y cuando se evalúan los métodos en función de cuánto contribuyen a los sistemas transformadores tempranos, la interpretabilidad es solo uno entre varios métodos razonables (y probablemente no sea mi primera opción: herramientas como la supervisión de la cadena de pensamiento parecen una oportunidad al alcance de la mano)**.

¿Por qué la interpretabilidad no es fiable?

Advertencia: Lo que sigue es mi visión interna sobre las razones profundas por las que la interpretabilidad nunca será verdaderamente fiable para la ciencia humana, por mucho que avance el campo. Esta es una afirmación muy fuerte, así que no tengo una certeza absoluta al respecto. Aunque es evidente que las técnicas actuales no son fiables, se trata de una cuestión de pronosticación del progreso futuro de la investigación, una empresa muy incierta. Es muy difícil decir lo que podría ser posible con un cambio de paradigma en la forma en que se entrena a los modelos de lenguaje a gran escala, o en cómo abordamos la interpretabilidad.

Y lo que es más importante, no me siento capaz de evaluar las consecuencias de que numerosas IAG se dediquen a la investigación en IA. “Miles de años de genios de la interpretabilidad mecanicista en un centro de datos” es una anomalía disparatada sobre la que no puedo razonar bien, y parece razonablemente probable que ocurra antes de la superinteligencia, por lo que quiero ser cauto. La investigación no solo podría conducir a avances inesperados, sino que abre la puerta a todo tipo de estrategias singulares que aprovechan la existencia de las IAG, como inspeccionar detalladamente cada autocodificador disperso latente, aunque me imagino que los esquemas de supervisión/control extensibles que utilizan las IAG deberían ser más prioritarios que la interpretabilidad. También creo que deberíamos tener bastantes dudas sobre qué direcciones de investigación sobre seguridad encontrarán más prometedoras los investigadores automatizados.

Dejando esto a un lado, estas son las razones por las que no me sentiré cómodo confiando en la interpretabilidad:

  • Se nos escapan cosas: Todavía estamos aprendiendo los fundamentos. Conceptos como la superposición significan que las características importantes pueden estar repartidas por muchas neuronas de formas no evidentes. Nuestras herramientas, como los autocodificadores dispersos o los transcodificadores, tienen errores y a menudo omiten ciertos aspectos. Podemos malinterpretar las características encontradas, o explicar solo una fracción del comportamiento del modelo.
  • Es difícil medir el progreso: No tenemos una referencia fiable de lo que ocurre en realidad, e inevitablemente debemos utilizar una serie de indicadores de calidad variable. Esto significa que es difícil tener la certeza de que se comprende realmente lo que está ocurriendo.
  • El problema de la larga cola: Los modelos parecen tener tanto una estructura limpia e interpretable como una enorme y desordenada “larga cola” de heurísticos extraños, gestores de casos especiales y comportamientos ruidosos y parcialmente aprendidos. Personalmente, supongo que las capacidades importantes, incluido el engaño, están en la parte limpia, ¡pero no puedo asegurarlo!
  • La dificultad de probar la inexistencia: Podemos encontrar evidencia a favor o en contra de una hipótesis, pero probar rigurosamente la ausencia de circuitos de engaño parece increíblemente difícil. ¿Cómo sabes que no se te ha pasado por alto? ¿Qué parte del modelo necesitas comprender? ¿El 90 %? ¿El 99 %? ¿El 99,99 %? El nivel de certeza necesario para un despliegue de alto riesgo parece estar muy por encima de nuestras capacidades actuales.
    • Soy más optimista respecto a la interpretabilidad como forma de demostrar potencialmente la desalineación, pero su incapacidad para hacerlo nos dice poco.
  • Cuestiones de escalabilidad: La mayoría de nuestros mejores resultados se dan en modelos simplificados o en los modelos de lenguaje a gran escala de generaciones anteriores. Creo que la escalabilidad es un problema tratable, pero quizás implique la asistencia de numerosos modelos de lenguaje, lo que supone otra fuente de error e incertidumbre.
  • Potencial de ofuscación: Aunque tal vez sea más difícil que falsificar los datos de salida, una IA astuta podría aprender a estructurar sus cálculos internos de manera que resulte opaca para nuestras herramientas específicas de interpretabilidad.

El potencial de los métodos de caja negra

Los métodos de caja negra, es decir, aquellos que interactúan con los datos de entrada y salida del modelo, tienen problemas claros: los modelos ya saben cuándo están siendo evaluados o se dan cuenta de cuándo tienen que fingir instrumentalmente su obediencia. Pero creo que también hay muchos trucos inteligentes que se pueden aplicar para reforzarlos, y que pueden ser muy efectivos. Esto es más una cuestión relativa al control de la IA que a mis áreas de especialización, pero estas son algunas ideas sobre direcciones que me parecen prometedoras:

  • Leer la cadena de pensamiento (con otro modelo de lenguaje) y buscar intenciones sospechosas⁠e

  • Editar la cadena de pensamiento del modelo para que, por ejemplo, piense que ha llegado a la conclusión de que no está en una evaluación

  • Hacer preguntas a muchas copias del mismo modelo y buscar incoherencias mientras no puedan coordinarse

  • Afinar el modelo para que, por ejemplo, sea más veraz o comunicativo o para insertar creencias engañosas y engañarlo.

  • Crear honeypots que intenten engañar al modelo para que revele su intención.

El papel de la interpretabilidad

Entonces ¿dónde encaja la interpretabilidad en este enfoque pragmático? Veo varios roles clave, y no la considero una solución independiente, sino un componente valioso.

En primer lugar, las salvaguardas pueden clasificarse como sigue:

  1. Evaluación: Tomamos un sistema y lo sometemos a pruebas exhaustivas para detectar propiedades no deseadas, como una tendencia a la desalineación o al “sandbagging” (ocultación de capacidades).
  2. Supervisión: Cuando desplegamos un sistema, siempre realizamos algunas comprobaciones en la inferencia, que intentan detectar y mitigar los malos comportamientos. a. Es importante que esto se pueda ejecutar a bajo costo a nivel producción, mientras que las evaluaciones pueden ser más caras y lentas.

¿Cómo puede ayudar la interpretabilidad?

  1. Una capa de queso suizo: Creo que los esquemas de supervisión adecuados tienen varias capas de defensa (como el modelo del queso suizo), con diferentes equilibrios entre costo y precisión.
    • Las técnicas de interpretabilidad como las sondas para características peligrosas conocidas son extremadamente baratas, y sorprendentemente eficaces, y pueden servir como una buena primera capa de defensa, que active pruebas más costosas (por ejemplo, un modelo de lenguaje que lea la cadena de pensamiento) si detectan algo.
    • Las técnicas de interpretabilidad como los autocodificadores dispersos o los transcodificadores entre capas pueden tener el potencial de ser formas más caras pero precisas de auditar los procesos internos y buscar cualquier cosa inesperada.
    • Aunque la interpretabilidad no sea más precisa, siempre que aporte alguna señal y esta no esté correlacionada con otras, entonces añade valor, incluso si pasa por alto muchos aspectos.
  2. Mejorar las evaluaciones de caja negra: La interpretabilidad puede hacer que nuestras comprobaciones externas sean más eficaces. Por ejemplo:
    • ¿Podríamos utilizar los vectores de dirección identificados mediante la interpretabilidad para manipular si el modelo cree que está en una evaluación? Quizá podamos probarlo más eficazmente si podemos hacerle creer que no está en un honeypot o en un entorno de evaluación.
    • ¿Podemos utilizar la interpretabilidad para obtener mejor información de tokens que hayan sido forzados? Podemos hacer que el modelo diga “mi plan secreto es”, e incluso si intenta suprimir internamente la conciencia u ofuscar los datos de salida, quizá la interpretabilidad podría impedirlo.
    • La interpretabilidad puede proporcionar un control de sensatez para asegurar que nuestros métodos de caja negra no están pasando algo por alto, por ejemplo, si un modelo está pasando una evaluación solo porque sabe que se encuentra en ella y está rindiendo deliberadamente por debajo de sus capacidades.
  3. Análisis de comportamientos anómalos: Una forma especialmente interesante de evaluación (o supervisión fuera de línea) es tomar ejemplos especialmente extraños o inesperados del comportamiento de un modelo, por ejemplo, que parezca introducir vulnerabilidades en código crítico, e intentar analizar lo que ocurre y ver si se trata de una alineación real o no. Creo que los métodos de interpretabilidad pueden resultar muy buenos para plantear hipótesis inesperadas y reconstruir lo que está ocurriendo (por ejemplo, esta prueba de concepto).
    • Espero que se produzcan este tipo de posibles disparos de advertencia, y cualquier herramienta o método que aporte más señales al respecto sería de gran utilidad.
    • Aunque no confiemos plenamente en el método de interpretabilidad, las hipótesis generadas pueden verificarse por otros medios.

No está garantizado que estas aplicaciones funcionen o sean no manipulables, pero representan formas concretas en que la comprensión interna podría complementar la validación externa, creando un sistema global más sólido que cualquiera de las dos por separado.

Conclusión

Dejemos de presentar la interpretabilidad como la panacea para detectar con fiabilidad el engaño de la IA, una visión que a menudo nace de una demanda aislada de rigor en contraposición a métodos de caja negra defectuosos. Ningún enfoque ofrece un alto grado de fiabilidad contra la superinteligencia sin avances fundamentales, pero los métodos defectuosos pueden seguir siendo útiles. Para los potentes sistemas previos a la superinteligencia que nos ocupan ahora, centrémonos en construir el conjunto más pragmático de defensas imperfectas que podamos. La interpretabilidad es una parte útil de ese conjunto —ofrece perspectivas de análisis únicas y sinergias potenciales con otros métodos—, pero es una herramienta entre muchas otras, no un sustituto de una estrategia integral de defensa en profundidad. Tenemos que aprovechar todas las señales imperfectas que podamos obtener, tanto del interior del modelo como de su comportamiento externo.

Gracias a mi coautor Gemini 2.5 Pro.