Planes A, B, C y D para el riesgo de desalineación

Alineación de la IADespegue de la IAGobernanza de la IASeguridad de la IA

A veces pienso en planes para gestionar el riesgo de desalineación. Según el nivel de voluntad política que exista para gestionarlo, algunos planes serán mejor opción que otros. A menudo los denomino A, B, C y D (ordenados de mayor a menor voluntad política requerida). Véase también la opinión de Buck sobre los diferentes regímenes de niveles de riesgo.

En este artículo, explicaré la abstracción de los planes A, B, C y D, así como las probabilidades y los niveles de riesgo asociados a cada uno.

A continuación presento un resumen del nivel de voluntad política requerida para cada uno de estos planes y de la correspondiente trayectoria de despegue:

Plan A: Existe suficiente voluntad para alcanzar algún tipo de acuerdo internacional sólido que elimine en gran medida las dinámicas de carrera y permita una ralentización (al menos durante un periodo razonablemente largo, por ejemplo, 10 años), junto con una inversión masiva en el trabajo de seguridad.
Plan B: El gobierno de EE. UU. considera que ganar tiempo de ventaja para las empresas de IA estadounidenses es una de las máximas prioridades de seguridad nacional (no necesariamente por preocupaciones sobre la desalineación) y que podemos dedicar de uno a tres años a mitigar el riesgo de desalineación.
Plan C: La empresa líder en IA está dispuesta a dedicar (gran parte de) su ventaja a las preocupaciones sobre la desalineación, pero no hay suficiente apoyo gubernamental para que una participación seria por su parte cambie significativamente el panorama estratégico. La empresa líder en IA tiene una ventaja de 2 a 9 meses (en relación con las empresas de IA que no están dispuestas a dedicar tanto a las preocupaciones sobre la desalineación) y es lo suficientemente funcional desde el punto de vista institucional como para sacrificar esta ventaja de una manera razonable (quizás sujeta a algunas restricciones de inversores externos), por lo que una parte considerable de este sacrificio se dedicará a la seguridad.
Plan D: En la práctica, la empresa líder en IA no se toma muy en serio las preocupaciones sobre la desalineación (por ejemplo, no está dispuesta a emplear toda su ventaja para reducir los riesgos de desalineación, al menos por defecto) y el despegue de la IA no se va a ralentizar de forma exógena. Sin embargo, en la empresa hay entre 10 y 30 personas que sí se toman en serio estos riesgos, que están trabajando en ellos y que cuentan con el respaldo suficiente para obtener alrededor de un 3 % del poder de cómputo y dedicarlo a iniciativas razonablemente bien orientadas a abordar los riesgos de desalineación. .

Implementar un acuerdo internacional para eliminar en gran medida las dinámicas de carrera y permitir que se inviertan muchos años en seguridad, al tiempo que nos adaptamos en general a una IA más potente. La trayectoria ideal de las capacidades dependería de la rapidez con la que avance la investigación en seguridad y de la solidez del acuerdo internacional, pero imagino algo así como extender el despegue a lo largo de unos 10 años. A grandes rasgos, esto podría equivaler a garantizar que un despegue que de otro modo habría sido rápido sea, en cambio, tan lento como esperan las personas más optimistas. Probablemente, convendría empezar a ralentizar las capacidades en el momento en que las IA puedan automatizar por completo la ingeniería en las empresas de IA y hacer una pausa completa, consumiendo la mayor parte del tiempo de ventaja disponible, cuando las capacidades empiecen a superar el nivel necesario para automatizar por completo la I+D en IA.

Tendríamos tiempo para centrar gran parte de nuestros esfuerzos en proyectos ambiciosos que permitieran alcanzar un alto grado de seguridad y que pudieran extenderse a IA sumamente sobrehumanas. Por defecto —es decir, a menos que el éxito de algunos proyectos ambiciosos cambie en gran medida el panorama estratégico—, el plan consistiría básicamente en mantener las capacidades por debajo del nivel máximo controlable durante un tiempo, hasta que podamos utilizar el trabajo humano (y el trabajo de la IA) para resolver en su mayor parte los problemas de alineación relevantes. Una vez que se resuelvan los problemas de alineación, o se nos acabe el tiempo, traspasaríamos casi todo el trabajo de seguridad a IA apenas sobrehumanas (básicamente, solo un poco por encima del nivel de capacidad necesario para que el traspaso sea viable en principio, lo que es probable que supere ligeramente el nivel de capacidad necesario para la automatización completa de la I+D en IA). En el momento del traspaso, puede que tengamos o no soluciones extensibles para la alineación, pero no necesitaremos soluciones arbitrariamente extensibles para tener éxito. Obviamente, estoy omitiendo muchos, muchos detalles aquí. (Tengo borradores de documentos que desarrollan buena parte de estos detalles.)

La situación es similar a la del Plan A, excepto que tenemos menos tiempo (entre 1 y 3 años adicionales en lugar de 10). El plan es similar al Plan A, pero nos centramos mucho menos en los objetivos ambiciosos y más en enfoques sencillos y prosaicos. Además, no podemos permitirnos desacelerar mucho antes de alcanzar un nivel de capacidad cercano a la automatización total de la I+D en IA. En este respecto, es fundamental intentar traspasar el trabajo en seguridad a los sistemas de IA utilizando únicamente iteración empírica y métodos prosaicos, aunque podemos llevar a cabo una versión de esto con un esfuerzo bastante considerable. Aun así, debemos garantizar el control hasta el traspaso (o un poco antes, o quizá solo una vez que hayamos descartado con seguridad que la IA sea manipuladora). La empresa de IA debe esforzarse mucho (valiéndose del trabajo de la IA) para intentar ganar tiempo aumentando el nivel de voluntad política (por ejemplo, demostrando capacidades y riesgos) y ayudando al gobierno de EE. UU. a garantizar la no proliferación y la ventaja temporal. Si esto tuviera éxito, podríamos pasar al Plan A.

Muchas cosas se harán de forma totalmente temeraria. El equipo de seguridad debería centrarse en poder extraer de la IA investigaciones sobre seguridad no saboteadas, reunir pruebas sólidas del riesgo y crear una IA que sea razonablemente segura como para traspasarle el trabajo en seguridad. La idea de garantizar el control a nivel de la organización debería abandonarse en gran medida, pero podría valer la pena tomar medidas que ayuden a evitar que las IA obtengan permisos o accesos hasta un punto en el que puedan sabotear directamente el trabajo de seguridad pertinente o interferir con procesos arbitrarios que se ejecuten a expensas del poder de cómputo de la empresa. Las empresas de IA que van a la zaga, pero que son más responsables, deberían centrarse en exportar el trabajo en materia de seguridad (además del trabajo en políticas y coordinación).

También podemos considerar un escenario de “Plan E” en el que el nivel de voluntad y el número de empleados que trabajan para mitigar los riesgos de desalineación relevantes sean sustancialmente menores que en el escenario de “las diez personas infiltradas”. Es decir, que solo unas pocas personas (o quizás ninguna) se preocupen por estos riesgos, aspiren a mitigarlos y tengan acceso a los sistemas de IA de vanguardia de los principales desarrolladores. Un escenario extremo sería que todo el proyecto se desarrollara ocultamente y en secreto, con pocas personas (o ninguna) trabajando para mitigar el riesgo de una toma de poder por parte de la IA, y que, de hecho, el debate sobre los problemas de desalineación fuera tabú dentro del proyecto. En realidad, no se puede tener un “Plan E” técnico porque no hay prácticamente nadie que lo implemente; en situaciones de Plan E, la atención debe centrarse en pasar a un nivel superior de voluntad política y de esfuerzo por mitigar los riesgos.

¿Cuál creo que es la probabilidad de acabar en el mundo del Plan A, B, C o D? Es decir, ¿tenemos la voluntad (y la competencia) para hacer algo que no sea mucho peor que el plan dado (presumiblemente con muchas modificaciones basadas en la situación exacta), aunque siga siendo peor que el plan inmediatamente superior? (Obviamente, los detalles serán menos específicos que los detalles exactos que he dado anteriormente). Depende de los plazos de la IA, pero si consideramos una trayectoria en la que, por defecto (en ausencia de una intervención activa), alcanzáramos una IA que supere a los mejores expertos en casi todo antes de 2035, estas son mis conjeturas, no demasiado bien calibradas:

¿Qué nivel de riesgo de toma de poder espero en cada una de estas situaciones?⁠a Esto depende en gran medida de la calidad de la ejecución, que está algo correlacionada con el nivel de voluntad política. No daré por sentado que se utilizará mi estrategia preferida (dado ese nivel de voluntad política). Para los planes C y superiores, supondré que son, como dije antes, “lo suficientemente funcionales desde el punto de vista institucional como para sacrificar esta ventaja de una manera razonable” y que el tiempo de ventaja disponible se dedica realmente a la seguridad. Por lo tanto, las cifras que doy a continuación son algo más optimistas que las que se obtendrían solo teniendo en cuenta el nivel de voluntad política correspondiente a cada uno de estos escenarios (ya que esta voluntad podría emplearse de manera incompetente).

Nótese que estoy ignorando la posibilidad de cambiar entre estos regímenes durante el despegue de la IA mientras los humanos tienen el control directo; por ejemplo, ignoro la posibilidad de empezar en un escenario de Plan D y que luego se pase al Plan C debido a la evidencia del riesgo de desalineación.⁠b Sin embargo, sí incluyo la posibilidad de que las IA (esperemos que alineadas) gestionen la situación de forma muy diferente después de que los humanos les traspasen voluntariamente la toma de decisiones estratégicas (en la medida en que esto ocurra). También estoy postulando una trayectoria en la que, por defecto (en ausencia de una intervención activa), desarrollaríamos inteligencias artificiales que superen a los mejores expertos en casi todo antes de 2035, como en las probabilidades que he presentado anteriormente.⁠c

¿Cuáles son las principales fuentes de voluntad política en cada uno de estos escenarios? En general, los planes A y B están impulsados principalmente por los gobiernos (sobre todo el gobierno de EE. UU.), mientras que los planes C y D están impulsados principalmente por los directivos y empleados de las empresas de IA. En el plan A y el plan B, es necesario un alto nivel de voluntad por parte del gobierno de EE. UU. (y podría ser suficiente incluso para el plan B, aunque la implicación de los directivos de las empresas de IA es útil). Es probable que el plan C requiera un gran apoyo de los directivos de las empresas de IA, aunque una presión suficientemente fuerte por parte de los empleados podría bastar en la mayoría de los casos. La voluntad política adicional en el plan D podría provenir (en orden descendente de importancia, según mi opinión) de los esfuerzos de los empleados (tanto presión como trabajo directo), de los directivos de las empresas de IA, de la presión de algo parecido a las campañas corporativas (presión externa que opera principalmente sobre los clientes, proveedores o quizás inversores) y una regulación relativamente débil.

Dadas estas probabilidades y niveles de riesgo, me inclino por centrarme sustancialmente en ayudar con los planes C y D. Esto se aplica tanto a la investigación como a la generación de voluntad política adicional. En consecuencia, creo que lo que los empleados y directivos de las empresas de IA piensan sobre la seguridad (existencial) de la IA es muy importante y que las estrategias políticas que hacen que los empleados y directivos de las empresas de IA le resten importancia a la seguridad (por ejemplo, debido a la polarización negativa o a parecer ridículos) parecen menos convincentes.

Preferencias de usuario

Preferencias de usuario

Planes A, B, C y D para el riesgo de desalineación

Plan A

Plan B

Plan C

Plan D

Plan E

Consideraciones sobre estos planes