Control de la inteligencia artificial
El control de la inteligencia artificial es un campo dentro de la seguridad de la IA que estudia cómo desarrollar estrategias para gestionar sistemas avanzados de inteligencia artificial bajo la suposición de que podrían estar desalineados, o perseguir activamente objetivos contrarios a los intereses humanos. El propósito es mitigar los riesgos catastróficos asociados a la inteligencia artificial y garantizar el despliegue seguro de los modelos de IA incluso en tal escenario. Este enfoque complementa la alineación de la IA, que busca primordialmente evitar que el desalineamiento ocurra, asegurando que los sistemas de IA compartan desde el inicio los valores y objetivos humanos.
La principal motivación para el control de la IA surge de la preocupación de que el problema la alineación podría no estar resuelto antes de la llegada de una inteligencia artificial transformadora. Dadas las presiones competitivas y los beneficios potenciales que impulsan el rápido desarrollo de la IA, algunos investigadores creen que es prudente desarrollar métodos para gestionar los sistemas de IA potencialmente peligrosos, en lugar de confiar únicamente en evitar que surjan capacidades o intenciones peligrosas desde el vamos. Este enfoque se centra en la reducción de daños mediante técnicas prácticas, a menudo de bajo costo, que no requieren necesariamente avances fundamentales y que podrían ser aplicadas por los laboratorios de desarrollo de IA incluso con limitaciones de tiempo o recursos. A menudo se traza una analogía con la ciberseguridad empresarial, en particular con la gestión de las amenazas internas, donde las organizaciones asumen que algunos empleados podrían actuar maliciosamente y construyen sistemas robustos ante esa posibilidad, en lugar de intentar garantizar una contratación perfecta.
El control de la IA aborda principalmente el modelo de amenaza de “manipulación”. Se trata de sistemas de IA que no son incompetentes o ejecutan instrucciones erróneas, sino que persiguen estratégicamente objetivos que entran en conflicto con la seguridad o el bienestar humanos. Estos sistemas de IA pueden tener comportamientos como:
Fingir alineación. Actuar de forma engañosa como si estuvieran alineadas durante las fases de entrenamiento o evaluación para evitar ser modificadas o desconectadas, mientras pretenden perseguir objetivos conflictivos cuando no están supervisadas o desplegadas. (Existe ya evidencia empírica de los estudios sobre modelos de lenguaje a gran escala actuales de que es posible inducir, en condiciones específicas, formas preliminares de este comportamiento.)
Fallar intencionalmente. Mostrar un bajo rendimiento durante las evaluaciones de capacidad para ocultar habilidades peligrosas.
Sabotear. Socavar sutilmente la investigación (incluida la investigación sobre la seguridad de la IA) o la infraestructura, por ejemplo introduciendo vulnerabilidades de seguridad.
Escapar. Intentar filtrar los pesos de sus propios modelos, hackear centros de datos para obtener más recursos informáticos o ganar poder y autonomía más allá del control humano.
Se han propuesto e investigado varias técnicas en el marco del paradigma de control de la IA:
Control y auditoría. Utilizar modelos de IA más débiles pero más fiables, o potencialmente otras instancias de modelos no fiables con salvaguardas, para supervisar las acciones de una IA potente y menos fiable. Las acciones sospechosas pueden marcarse para su revisión, escalando potencialmente a través de niveles de automatización y análisis humano.
Reemplazo de acciones. Cuando un supervisor señala una acción como potencialmente peligrosa o sospechosa por encima de un determinado umbral, en lugar de ejecutarla, el sistema puede sustituirla por una acción alternativa, ya sea generada por un modelo de confianza o volviendo a muestrear una acción diferente del modelo no fiable. Con ello se pretende evitar daños aunque los recursos de auditoría sean limitados.
Muestreo reiterado de acciones. Para detectar los sistemas de IA que intentan engañar mediante acciones de baja probabilidad (por ejemplo, iniciando una secuencia de ataque muy raramente), una acción o secuencia sospechosa puede volver a ejecutarse varias veces desde el mismo estado inicial. Una sospecha consistente a través de muestreos reiterados es una evidencia más fuerte de intención maliciosa que una sola acción sospechosa.
Represión de la colusión. Cuando se utilizan modelos en los que no se confía para supervisar otros modelos en los que no se confía, se pueden emplear técnicas como parafrasear los datos de salida o redactar la información antes de la revisión para dificultar que los modelos se coordinen en secreto (por ejemplo, utilizando esteganografía o palabras en clave) para eludir la supervisión.
Análisis posterior a la detección. Si se descubre que una IA intenta escapar o realizar una acción maliciosa, los investigadores pueden simular que la IA lo consigue en un entorno aislado para conocer mejor sus planes, capacidades y posibles vulnerabilidades que pretendía explotar. Los datos de los intentos descubiertos también pueden utilizarse para entrenar mejores detectores.
Las estrategias de control de la IA enfrentan varios desafíos. Se basan en la capacidad de detectar o prevenir acciones dañinas de forma fiable, lo que resulta cada vez más difícil a medida que aumentan las capacidades de la IA. El enorme volumen de acciones realizadas por los sistemas IA potencialmente numerosos (por ejemplo, la automatización de la investigación en IA) dificulta una supervisión exhaustiva. Garantizar la fiabilidad y la incorruptibilidad de los sistemas de supervisión (ya sean IA o humanos) es fundamental. Además, algunas investigaciones indican que los procesos de aprendizaje por refuerzo podrían aumentar inadvertidamente razonamientos que fingen alineación en determinadas condiciones.
Los defensores del control de la IA sostienen que incluso medidas de control imperfectas pueden reducir sustancialmente los riesgos, especialmente en el caso de los sistemas de IA en el rango cercano al sobrehumano. La atención se centra en las intervenciones costo-eficaces que podrían adoptar los laboratorios de IA. Incluso un pequeño equipo dentro de un laboratorio dedicado al control podría poner en práctica valiosas salvaguardas, mejorando los márgenes generales de seguridad.
También surgen consideraciones éticas en relación con el control de sistemas de IA potencialmente sintientes. Algunos han argumentado que las IA desalineadas, cuyo objetivo principal podría ser algo así como “tomar el control”, podrían consentir implícitamente una existencia controlada frente a la no existencia. No obstante, el tratamiento y el sufrimiento potencial de los sistemas avanzados de IA siguen siendo preocupaciones éticas importantes.
El control de la IA es un enfoque dentro de la seguridad de la IA centrado en el desarrollo de salvaguardas prácticas para gestionar los riesgos de sistemas avanzados de IA potencialmente desalineados, que opera bajo el supuesto de que puede que no se consiga una alineación perfecta antes de que se desarrollen o desplieguen estos sistemas. Hace hincapié en la reducción del daño mediante diversas técnicas que buscan mejorar los márgenes de seguridad en un mundo que se enfrenta a rápidos avances en las capacidades de la IA.
Ryan Greenblatt et al. (2024) Alignment faking in large language models, arXiv:2412.14093 [cs].
Buck Shlegeris (2024) AI control: strategies for mitigating catastrophic misalignment risk, YouTube, 2 de diciembre.
Robert Wiblin (2025) Buck Shlegeris on controlling AI that wants to take over – so we can use it anyway, 80,000 Hours, 4 de abril.
alineación de la inteligencia artificial • seguridad de la inteligencia artificial