Los mundos en los que resolvemos deliberadamente el problema de la alineación de la IA no se parecen al mundo en el que vivimos

Alineación de la IARiesgo asociado a la IARiesgo existencialSeguridad de la IA

(O bien: Por qué no veo cómo la probabilidad de extinción podría ser inferior al 25 % en la trayectoria actual)

Publicado también en mi sitio web.

Los desarrolladores de IA están intentando crear una IA superinteligente. Si lo consiguen, existe un alto riesgo de que la IA mate a todo el mundo. Las empresas de IA lo saben, pero creen que pueden descubrir cómo alinear la IA para que no nos mate.

Quizás resolvamos el problema de la alineación antes de que la IA superinteligente mate a todo el mundo. Pero si lo hacemos, será porque tuvimos suerte, no porque nosotros, como civilización, hayamos tratado el problema con la gravedad que merece, a menos que empecemos a tomarnos el problema de la alineación muchísimo más en serio de lo que lo hacemos actualmente.

Piensa en lo que se ve cuando se resuelve un problema difícil. Piensa en el programa Apolo: ingenieros resolviendo hasta el más mínimo detalle, ejecutando simulación tras simulación, planificando para posibilidades remotas.

Piensa en lo que se ve cuando un problema difícil no se resuelve. Considera la respuesta del mundo ante la pandemia de COVID.

Cuando observo la respuesta de la civilización al problema de la alineación de la IA, no veo nada que se parezca al programa Apolo. Cuando visualizo cómo sería que la civilización se pusiera manos a la obra e hiciera un esfuerzo serio para resolver la alineación, esa imagen no se parece al mundo en el que vivimos.

Así es el mundo en el que vivimos:

AI Lab Watch cuenta con evaluaciones del comportamiento de las empresas de IA en materia de seguridad. Todas las empresas obtienen calificaciones insuficientes en casi todas las categorías.
Las capacidades de la IA reciben una inversión más de 100 veces mayor que la seguridad de la IA.
La gente sigue diciendo “nadie sería tan estúpido como para hacer X”, y luego los responsables proceden a hacer X. (Donde X = “darle a la IA acceso directo a Internet”, “ceder el control autónomo de sistemas importantes”, etc.)
Existe un desacuerdo generalizado sobre lo difícil que será resolver la alineación de la IA y sobre la dificultad de diversos subproblemas. Los investigadores de seguridad de la IA y las empresas de vanguardia se comportan como si los problemas no fueran difíciles, con una confianza de casi el 100 %, y se esfuerzan poco por justificar públicamente esta postura o por resolver los desacuerdos con las partes más pesimistas. Cuando llega a producirse un debate público, este tiene lugar entre escépticos y empleados aleatorios, no entre escépticos y representantes oficiales de las empresas.
Todas las empresas de IA de vanguardia (entre las que tienen un plan de alineación) quieren utilizar la IA para resolver el problema de la alineación. Este es un plan pésimo: admiten que el problema es tan difícil que no creen que los humanos puedan resolverlo a tiempo y luego proponen utilizar un método desconocido con una fiabilidad desconocida para resolver el problema. Mientras tanto, algunos investigadores principales de alineación en empresas de IA describen esto como “un plan muy bueno”. Mi vida está en manos de estas personas.
La gente confía en que puede resolver la alineación antes de construir la superinteligencia artificial (SIA), o confía en que es posible resolver la alineación de forma iterativa, a pesar del desacuerdo generalizado sobre si esto es posible.
- La mayoría de las personas involucradas en la IA de vanguardia no consideran que el problema tenga consecuencias existenciales. Muchas personas tienen modelos (escritos o mentales) sobre cómo hacer que la SIA sea segura; estos modelos no cumplen con los estándares de la mayoría de las industrias. Desde luego, no cumplen con los estándares de seguridad de los sectores en los que los fallos pueden provocar muertes: vuelos espaciales, ingeniería civil, cirugía, criptografía.⁠⁠a Cuando está en juego la extinción, los estándares deberían ser aún más altos: más altos que los estándares que son más altos que los estándares que los planes de seguridad de la IA todavía no logran cumplir.
Las empresas de IA son alérgicas a la filosofía técnica. Adoptan la postura de que la alineación de la IA es un problema puramente de ingeniería.
Las empresas asumen compromisos no vinculantes que imponen ciertos requisitos de seguridad a una futura generación de modelos de lenguaje. Luego, cuando llega el momento y ese compromiso resulta difícil de cumplir, eliminan el compromiso de su plan.
- Escribí el primer borrador de esta publicación antes de que Anthropic publicara su política de escalado responsable (versión 3), que eliminó todos los compromisos anteriores de pausar condicionalmente el desarrollo. Gracias a Anthropic por proporcionarme un mejor ejemplo y demostrarle a todo el mundo lo poco fiables que son; pero no les doy las gracias por desechar sus compromisos, que podrían haberles impedido matarme y destruir todo lo que me importa.
Todos los desarrolladores de IA de vanguardia dedican algún tiempo a presionar contra las regulaciones de seguridad o a intentar debilitarlas. Anthropic es el actor menos perjudicial; solo ha presionado contra regulaciones moderadas, mientras que se ha pronunciado a favor de algunas regulaciones débiles.
Los desarrolladores de IA exigen a sus empleados que firmen acuerdos de no difamación (incluidos OpenAI y Anthropic, y esos son solo los que conocemos), lo que impide a los empleados denunciar cualquier práctica insegura que pudiera estar ocurriendo.
Un desarrollador de IA de vanguardia, fundado como organización sin fines de lucro, primero despide a los miembros de su junta directiva que se preocupan por la seguridad y, a continuación, se reestructura como empresa con fines de lucro para poder seguir avanzando sin control. (AI Lab Watch ha documentado muchas otras faltas de integridad). Hay muchas posibilidades de que esta sea la empresa que desarrolle la SIA.
La gente da por sentado que vivimos en un mundo justo. Un argumento es el siguiente: resolver problemas en un solo intento es demasiado difícil; por lo tanto, necesitamos resolver la alineación de forma iterativa mediante la experimentación. Entonces, habiendo decidido que se necesita una alineación iterativa, la gente decide que es posible resolverla de esta manera. No hay ninguna ley del universo que diga que podemos hacer las cosas por el camino fácil si el difícil resulta demasiado duro. A veces no hoy más remedio que hacer las cosas por el camino difícil. Pero, en lugar de afrontar este hecho, la gente actúa como si el universo fuera a tratarnos de manera justa.
- Me recuerda a la escena de Apolo 13 en la que el controlador de vuelo John Aaron dice que tienen que reducir el consumo de energía de la nave a 12 amperios o, de lo contrario, los astronautas morirán. Un ingeniero protesta: “¡No se puede hacer funcionar una aspiradora con 12 amperios, John!”. No importa cuánto protestes; si no bajas a 12 amperios, los astronautas mueren. Afortunadamente, el director de la misión, Gene Kranz, era más competente que los líderes de las empresas de IA: en lugar de fingir que el problema no existía, tomó la firme determinación de que encontrarían la forma de bajar a 12 amperios, costara lo que costara.
Los investigadores de alineación cometen de forma rutinaria errores básicos de razonamiento que indican que no se están tomando en serio el problema de la alineación.
Ejemplo: Los investigadores a veces asumen implícitamente que si un modelo de lenguaje no revela ningún engaño en su cadena de pensamiento, entonces no está siendo engañoso. No sabemos qué ocurre dentro de las redes neuronales profundas. La cadena de pensamiento no nos dice qué sucede en las capas internas de una red neuronal.
En términos más generales: “no encontramos evidencia de X, por lo tanto, X es falso”. Otra suposición común que encaja en este patrón es “no encontramos ninguna forma de hacerle un jailbreak a nuestro modelo, por lo tanto, es imposible hacerle un jailbreak”. La gente rara vez dice esto de forma explícita, pero se comporta como si fuera un razonamiento válido.
Una falacia relacionada es “No se me ocurre ninguna forma en que esto pueda salir mal, por lo tanto, no puede salir mal”. En los mundos donde la SIA sale bien, existen procesos establecidos para evitar que los desarrolladores de IA caigan en esta falacia.⁠⁠b Nosotros no contamos con esos procesos.
Las personas pesimistas respecto a resolver la alineación son excluidas de los puestos de poder en las empresas de IA. (No conozco a nadie en una empresa líder de IA con una P(catástrofe) > 50 %, aunque estoy seguro de que tiene que haber alguien). Por lo tanto, quienes harían más por establecer controles para que la IA sea segura son los que menos probabilidades tienen de estar en posición de hacerlo. Las empresas de IA otorgan sistemáticamente el poder a optimistas imprudentes.

¿Es esto lo que significa tomarse en serio el problema de la alineación? ¿Es esto lo que significa tomarse en serio el riesgo de extinción?

Hay personas preocupadas por el riesgo existencial de la IA que tienen una P(catástrofe) de entre el 5 y el 25 %. No lo entiendo. No puedo superar una prueba de Turing ideológica con alguien que ve todos estos problemas, pero aun así espera que evitemos la extinción con una probabilidad superior al 75 %. No entiendo qué llevaría a alguien a creer que así es como son las cosas cuando vamos por buen camino para resolver un problema.

Hay un argumento que a veces se plantea en el sentido de que “los buenos tienen que hacer un trabajo descuidado con la seguridad de la IA, porque de lo contrario los malos nos ganarán la carrera hacia la SIA y serán aún peores”. Entiendo ese punto de vista.⁠⁠c Pero eso no significa que la P(catástrofe) sea baja. Se podría creer algo así: si Anthropic construye la SIA, hay un 50 % de probabilidades de que muramos; si xAI o Meta construyen la SIA, hay un 75 % de probabilidades de que muramos; por lo tanto, Anthropic tiene que construir la SIA primero. No conozco a nadie que crea esto; todos los que quieren competir por construir una SIA parecen tener una P(catástrofe) del orden del 25 % o menos.

Puedo imaginar un mundo en el que las empresas de IA sigan compitiendo por construir una SIA, pero se tomen los retos con la debida seriedad e inviertan en seguridad teniéndolos en cuenta. En ese mundo, me imagino que la P(catástrofe) sería inferior al 25 %. Pero ese no es el mundo en el que vivimos.

Publicación original: Michael Dickens (2026) Worlds where we solve AI alignment on purpose don’t look like the world we live in, Effective Altruism Forum, 19 de marzo.