Seis ideas sobre la seguridad de la IA
Las siguientes afirmaciones parecen ser importantes para la seguridad de la IA, pero no gozan de un amplio consenso. Son mis opiniones, no las de mi empleador ni de mis colegas. Como ocurre con todo lo relacionado con la IA, existe una gran incertidumbre sobre todo lo que expondré a continuación. Sin embargo, para facilitar la lectura, presento estos puntos en su forma más contundente, sin rodeos ni salvedades. Dicho esto, es esencial no ser dogmático, y estoy abierto a cambiar de opinión en función de la evidencia. No hay nada nuevo en estos argumentos; otros ya han planteado ideas similares. Seguramente habrá quien considere evidente cada una de las siguientes afirmaciones y quien las considere evidentemente falsas.
Antes de profundizar en estos puntos, debemos definir a qué nos referimos con “seguridad de la IA”, más allá del sentido amplio de “asegurarse de que no ocurra nada malo como resultado del entrenamiento o despliegue de un modelo de IA”. Mi enfoque se centra en los medios técnicos para prevenir daños a gran escala (a veces llamados “catastróficos”) como resultado del despliegue de la IA. La seguridad técnica no agota la seguridad de la IA. En particular, muchos daños potenciales, como la vigilancia masiva con IA y el fortalecimiento de gobiernos autoritarios, no pueden afrontarse únicamente con medios técnicos.
Mis opiniones sobre la seguridad de la IA están influidas por mis expectativas sobre cómo progresará la IA en los próximos años. Creo que avanzaremos rápidamente: en términos de capacidades técnicas, alcanzaremos el “nivel de IA general (IAG)” en un plazo de dos a cuatro años, y, en un plazo similar, las IA adquirirán capacidades sobrehumanas en un número creciente de dimensiones. (Aunque sospecho que traducir estas capacidades técnicas al impacto económico y social que asociamos con la IAG llevará mucho más tiempo). Esto supone que nuestras futuras IAG y superinteligencias artificiales (SIA) serán, en gran medida, versiones ampliadas de nuestros modelos actuales. Por un lado, esto es una buena noticia, ya que significa que lo que hemos aprendido de los modelos actuales es relevante para otros más potentes, y podemos desarrollar y evaluar técnicas de seguridad utilizándolos. Por otro lado, esto me hace dudar de que los enfoques de seguridad que no parecen funcionar para nuestros modelos actuales tengan éxito para las futuras IA.
La seguridad y la alineación son capacidades de la IA, ya sea que se entiendan como la prevención de daños, la consecución de la intención humana o la promoción del bienestar humano. Cuanto mayor es el calibre de las aplicaciones de la IA, tanto más importantes se vuelven estas capacidades. Por consiguiente, se podría pensar que la seguridad de la IA “se resolverá por sí sola”: al igual que ocurre con otras capacidades de la IA, la seguridad mejorará cuando aumentemos la escala de los recursos, y a medida que los sistemas de IA se desplieguen en aplicaciones más importantes, la gente estará dispuesta a gastar recursos para alcanzar el nivel de seguridad necesario.
Hay algo de verdad en esta opinión. A medida que avancemos hacia modelos más agénticos, la seguridad será fundamental para la utilidad. Sin embargo, los mercados y otros sistemas humanos tardan en adaptarse (como dijo Keynes: “Los mercados pueden mantener su irracionalidad más tiempo del que tú puedes mantener tu solvencia”), y el trabajo técnico para mejorar la seguridad también lleva tiempo. El desajuste de los tiempos entre el progreso técnico de la IA —junto a la velocidad a la que los sistemas de IA pueden comunicarse y tomar decisiones— y el ritmo más lento de las instituciones humanas que necesitan adaptarse implica que no podemos depender exclusivamente de los sistemas existentes para garantizar que la IA resulte segura por defecto.
Pensemos en la seguridad aérea: se trata literalmente de una cuestión de vida o muerte, por lo que existe un enorme interés en que los vuelos comerciales sean tan seguros como sea posible.
De hecho, la tasa de accidentes mortales en la aviación comercial moderna es extremadamente baja: aproximadamente un accidente mortal por cada 16 millones de vuelos (es decir, alrededor del 99,99999 % —siete “nueves”— de los vuelos no sufren un accidente mortal). Pero tuvieron que transcurrir décadas para llegar a este punto. En concreto, se necesitaron 50 años para que la tasa de muertes por billón de pasajeros-kilómetro disminuyera en aproximadamente dos órdenes de magnitud.
La seguridad de la IA es más difícil que la seguridad aérea de muchas maneras.
No cabe duda de que tenemos sobrada experiencia en las formas en que la inteligencia humana puede salir mal. Sin embargo, aunque hemos adquirido esta experiencia a lo largo de miles de años, aún no hemos descubierto cómo llevarnos bien. Los diferentes perfiles de habilidades de la IA, las formas en que puede integrarse con otros sistemas y la velocidad a la que evoluciona plantean retos únicos.
Un enfoque para la seguridad de la IA es seguir el siguiente plan:
Dado que investigar la IA es una tarea más acotada que investigar la IAG y que tiene menos superficie potencial de ataque, se espera que esto sea más fácil que resolver el problema general de la alineación de la IA.
Es imprescindible que utilicemos la IA para ayudar a la investigación sobre su seguridad y, con el tiempo, las IA desempeñarán un papel cada vez más importante en ella. Dicho esto, dada la trayectoria actual del progreso de la IA, no creo que el plan anterior funcione del modo indicado, y no podemos limitarnos a esperar que el científico de la IA venga y resuelva todos nuestros problemas como un “deus ex machina”.
Esto se debe a dos razones:
No hay una brecha temporal. Los sistemas de IA de vanguardia presentan una mezcla desigual de capacidades. Dependiendo del dominio y de la distancia de su distribución de entrenamiento, pueden abarcar desde conocimientos de secundaria hasta de posgrado. La integración económica de la IA también será desigual. Los requisitos de habilidades, la tolerancia a los errores, las barreras regulatorias y otros factores varían ampliamente entre las industrias.
Además, nuestro panorama competitivo actual implica que la IA está siendo desarrollada y desplegada por múltiples actores en muchos países, lo que acelera tanto las capacidades como la integración. Teniendo en cuenta estos factores, sospecho que no veremos un “momento de la IAG” discreto. En cambio, la IAG solo podrá reconocerse en retrospectiva, al igual que las declaraciones oficiales de recesión.
Todo esto significa que no tendremos un “amortiguador” entre el momento en que contemos con un científico experto en IA (Paso 1 del plan anterior) y el momento en que las IA agénticas se desplieguen ampliamente en entornos de alto riesgo (Paso 3). Es probable que no tengamos “pasos” discretos en absoluto, sino más bien una mejora continua de una frontera irregular tanto de capacidades como de impacto económico. Espero que los sistemas de IA proporcionarán importantes aumentos de productividad para los investigadores de seguridad de la IA, como lo harán para muchas otras profesiones, incluidos los investigadores de capacidades de la IA (en la medida en que puedan distinguirse). Sin embargo, dada la larga cola de tareas y el despliegue incremental, para cuando tengamos un verdadero investigador de seguridad sobrehumano, la IA ya estará profundamente integrada en nuestra sociedad, incluyendo aplicaciones con un enorme potencial de causar daño.
No hay una solución “mágica”. Al igual que sucede con la seguridad informática, la seguridad de la IA no se resolverá con una solución mágica, sino que requerirá una defensa en profundidad. Parte de este trabajo no puede esperar hasta la IAG: debe realizarse ya e integrarse en nuestra infraestructura de IA para poder utilizarlo más adelante. Si no trabajamos desde ya en la seguridad, incluyendo la recopilación de datos y la evaluación, y no incorporamos la seguridad en todas las etapas, incluyendo la formación, la inferencia y la supervisión, no podremos aprovechar ninguna de las ideas descubiertas por los científicos de la IA. Por ejemplo, los avances en el descubrimiento de vulnerabilidades de software no nos ayudarían si no contáramos con la infraestructura para parches inalámbricos firmados digitalmente. La adopción de las mejores prácticas también lleva tiempo. Por ejemplo, aunque las debilidades de MD5 se conocían en 1996 y los ataques prácticos surgieron en 2004, muchos sistemas todavía lo utilizaban en 2020.
Tampoco está claro cuán “estrecho” es el problema de la alineación de la IA. La gobernanza de la inteligencia, ya sea natural o artificial, no es solo un problema técnico. Está claro que hay obstáculos técnicos que debemos superar, pero no son los únicos. Además, al igual que los investigadores de IA humanos, un científico de IA automatizado tendrá que navegar por la web, utilizar datos de entrenamiento de diversas fuentes, importar paquetes externos y mucho más, todo lo cual abre la puerta a ataques antagónicos. No podemos ignorar la robustez antagónica con la esperanza de que un científico de la IA lo resuelva por nosotros.
Asignación constante en lugar de temporal. Estoy de acuerdo en que, a medida que aumentan las capacidades, deberíamos destinar recursos a la seguridad. Pero en lugar de una asignación temporal (es decir, utilizar la IA para la seguridad antes que para la productividad), creo que necesitamos una asignación constante de poder de cómputo: garantizar que una fracción fija y suficientemente alta de poder de cómputo se dedique siempre a la investigación y la supervisión de la seguridad, así como a la mitigación de riesgos. Véanse los puntos 4 (supervisión) y 6 (tratamiento de la SIA no alineada) más abajo.
Una forma de plantear la tarea de alineación de la IA es conseguir que las IA “amen a la humanidad” o que tengan el bienestar humano como objetivo principal (lo que a veces se llama “alineación de valores”). Uno podría esperar que esto se codifique a través de principios simples como las tres leyes de Asimov o los tres principios de Stuart Russel, con todas las demás reglas derivadas de estos.
Hay algo muy claro y atractivo en derivar todas las decisiones de uno o unos cuantos “axiomas”, ya sea el imperativo categórico de Kant o el principio de utilidad de Bentham. Pero cuando intentamos alinear sistemas humanos complejos, ya sean países, instituciones o grandes empresas, adoptamos un enfoque muy diferente. La Constitución, las leyes y las regulaciones de EE. UU. abarcan cientos de miles de páginas, y hemos establecido mecanismos (es decir, tribunales) para arbitrar contradicciones reales o potenciales entre ellos. Un conjunto de normas de 100 000 páginas sería una historia de ciencia ficción muy aburrida, pero es necesario para el funcionamiento de sistemas complejos. Del mismo modo, garantizar la seguridad de programas informáticos complejos requiere escribir especificaciones o contratos detallados que cada componente debe satisfacer para que otras piezas puedan depender de él.
No queremos una IA que filosofe sobre principios abstractos y decida que una dictadura benevolente de la propia IA (o bien, una reversión a los tiempos preindustriales) es lo mejor para la humanidad. Queremos una IA que cumpla con una especificación determinada que le indique con precisión qué restricciones debe satisfacer mientras optimiza cualquier objetivo que se le dé. Para aplicaciones de alto riesgo, deberíamos ser capaces de garantizar este cumplimiento con un número arbitrario de “nueves”, posiblemente dedicando recursos a la seguridad a escala proporcional al nivel de fiabilidad requerido. (Hoy en día no sabemos cómo hacerlo. Tampoco tenemos formas de descubrir y arbitrar automáticamente casos límite o contradicciones en las especificaciones. Lograr ambas cosas es un esfuerzo de investigación que me entusiasma mucho).
Cumplimiento perfecto no significa cumplimiento literal. No queremos sistemas que, como los genios de las fábulas (o algunos de los robots de las historias de Asimov), sigan al pie de la letra las especificaciones mientras infringen su espíritu. Tanto en los sistemas de derecho consuetudinario como en los de derecho civil, existe un margen significativo de interpretación a la hora de aplicar una especificación en una nueva situación no prevista por sus autores. Charles Marshall dijo: “La integridad es hacer lo correcto, incluso cuando nadie está mirando”. En el caso de las IA, podríamos decir que “la alineación es hacer lo correcto, incluso estando fuera de la distribución de entrenamiento”.
Lo que queremos es un cumplimiento razonable en el sentido de:
Una forma de definir “razonable” es pensar en lo que un “jurado de pares” o “jueces legos” —humanos aleatorios del grupo que sean relevantes para la situación— considerarían en tal caso. Al igual que en los juicios con jurado, nos basamos en el sentido común y la intuición moral del miembro típico de la comunidad. Los modelos de lenguaje a gran escala actuales son bastante buenos simulando a los humanos; con más datos e investigación, pueden mejorar todavía más.
Se podría argumentar que, cuando la especificación no está bien definida, las IA deberían recurrir a los principios éticos generales y analizarlos, por lo que deberíamos entrenar a las IA para que sean expertas en ética. Pero yo prefiero la interpretación humana típica de lo que es “razonable”. William Buckley afirmó alguna vez que preferiría ser gobernado por las primeras 2 000 personas de la guía telefónica de Boston que por la facultad de la Universidad de Harvard. Como miembro de dicha facultad, entiendo lo que quiso decir. De hecho, desde que estoy en Harvard, no he visto ninguna evidencia de que los expertos en filosofía o ética tengan alguna ventaja sobre, por ejemplo, los informáticos en materia de gobernanza o moralidad. Preferiría que las IA simularan a personas normales y no a expertos en ética.
Otro ejemplo: el lógico Kurt Gödel aseguró haber encontrado una contradicción interna en la Constitución de EE. UU. que podría dar lugar a una dictadura. Queremos que nuestras IA sean lo suficientemente inteligentes como para reconocer tales interpretaciones, pero lo suficientemente razonables como para no seguirlas.
Si bien abogo por especificaciones detalladas antes que por valores abstractos, los principios morales obviamente nos guían al redactar especificaciones. Además, las especificaciones pueden incluir y probablemente incluirán principios rectores (por ejemplo, el principio de precaución) para tratar casos con especificaciones insuficientes.
Especificaciones como código de conducta de los expertos. Otra razón por la que el cumplimiento de las especificaciones es un mejor objetivo de alineación que seguir algunos objetivos de nivel superior es que las IA sobrehumanas pueden considerarse análogas a los expertos humanos. A lo largo de la historia, las personas han confiado en diversos expertos, incluidos sacerdotes, abogados, médicos y científicos, en parte porque estos expertos seguían códigos de conducta explícitos o implícitos.
Esperamos que estos profesionales sigan estos códigos de conducta incluso cuando contradigan su percepción del “bien común”. Por ejemplo, durante las protestas de junio de 2020 tras el asesinato de George Floyd, más de 1 000 profesionales sanitarios firmaron una carta en la que decían que, dado que “la supremacía blanca es un problema letal de salud pública”, había que apoyar las protestas contra el racismo sistémico. También dijeron que su postura no debía “confundirse con una postura permisiva en todas las manifestaciones, especialmente en las protestas contra las órdenes de confinamiento”. En otras palabras, estos profesionales sanitarios argumentaban que las normas de la pandemia de COVID-19 debían aplicarse a una protesta en función de su mensaje. Seguramente creían que estaban promoviendo el bien común, y tal vez tenían razón. Sin embargo, también abusaron de su condición de profesionales sanitarios e introdujeron consideraciones políticas en sus recomendaciones. No es de extrañar que la confianza en los médicos y los hospitales disminuyera sustancialmente en los últimos cuatro años.
La confianza en los sistemas de IA requerirá legibilidad en sus decisiones y garantizar que cumplan con nuestras políticas y especificaciones en lugar de hacer cálculos éticos de ajedrez en cuatro dimensiones. De hecho, algunos de los ejemplos actuales más atroces de desalineación son los modelos que fingen alineación para perseguir valores superiores.
Cumplimiento robusto. La seguridad de la IA requerirá un cumplimiento robusto, lo que significa que las IA deben cumplir con sus especificaciones incluso si partes antagónicas suministran algunos de sus datos de entrada. Los modelos de chat actuales son una interacción entre dos partes —el modelo y el usuario—, e incluso si el usuario es antagónico, en el peor de los casos, obtendrá algo de información (por ejemplo, cómo cocinar metanfetamina) que también se puede encontrar en línea. Pero nos estamos alejando rápidamente de este modelo. Los sistemas agénticos interactuarán con diversos actores con objetivos e incentivos contradictorios e incorporarán datos de entrada de múltiples fuentes. Los ataques antagónicos dejarán de ser un campo de artículos académicos y tweets humorísticos para convertirse en ataques reales con consecuencias negativas significativas para el mundo. (Una vez más, hoy en día no sabemos cómo obtener un cumplimiento robusto, y este es un esfuerzo de investigación que me entusiasma mucho).
¿Pero qué pasa con los valores superiores? Wojciech Zaremba considera la alineación como un “cumplimiento robusto amorosamente razonable” en el sentido de que la IA debe tener un sesgo hacia el bienestar humano y no, por ejemplo, ayudar sin más a un usuario si se está haciendo daño a sí mismo. Dado que los seres humanos tenemos empatía y consideración básicas, creo que tal vez no haga falta “amorosamente”, ya que con “razonable” se engloban algunas intuiciones humanas básicas. Hay una razón por la que los tribunales y los jurados están integrados por seres humanos. Los tribunales también recurren en ocasiones a los principios morales o a la “ley natural” en sus interpretaciones y decisiones (aunque eso es controvertido). La principal diferencia que veo entre el enfoque de cumplimiento y la “alineación de valores” es el orden de prioridades. En la “alineación de valores”, los principios de orden superior determinan las reglas de nivel inferior. En el enfoque basado en el cumplimiento, como en el sistema judicial, una IA debería apelar a valores superiores solo en los casos en que haya lagunas o ambigüedades en las especificaciones. Esto no siempre es algo bueno. Este enfoque descarta una IA Stanislav Petrov que anularía su cadena de mando en nombre de principios morales de orden superior. El enfoque de utilizar a un “humano típico” como patrón de medición de la moralidad también descarta a una IA John Brown y otros abolicionistas que hoy en día se reconocen como moralmente correctos, pero que en su momento eran una minoría. Creo que es una concesión que vale la pena hacer: dejar que las IA sigan las reglas y dejar que los humanos las escriban y decidan cuándo actualizarlas o romperlas.
Todo lo anterior deja abierta la pregunta de quién escribe la especificación y si alguien podría escribir una especificación para “hacer el máximo daño”. La respuesta a esta última pregunta es sí, pero creo que la existencia de una superinteligencia de maldad máxima no tiene por qué significar la perdición; véase el punto 6 más adelante.
Cuando trabajaba en Microsoft Research, mi colega Butler Lampson solía decir: “La razón por la que nadie entra a tu casa a robar no es porque tengas una cerradura, sino porque tienes una alarma”. Gran parte de la seguridad actual de la IA se centra en la prevención: conseguir que el modelo rechace las solicitudes nocivas. La prevención es esencial, pero la detección es aún más crítica en entornos que presentan un verdadero peligro.
Si alguien se toma en serio la creación de una amenaza química, biológica, radiológica o nuclear y la IA se niega a ayudar, esa persona no se rendirá sin más. Puede recurrir a una combinación de información de código abierto, ayuda humana o ayuda parcial de la IA para lograr su objetivo. No basta con rechazar a esa persona; queremos asegurarnos de detenerla antes de que cause daños masivos.
Otra razón por la que el rechazo es problemático es que muchas consultas a los sistemas de IA tienen doble uso. Por ejemplo, puede ser que el 90 % de las personas que hacen una pregunta concreta sobre biología lo haga con un propósito beneficioso, mientras que el 10 % podría hacerlo con uno pernicioso. En función de la consulta, es posible que el modelo no tenga el contexto para determinar cuál es su uso previsto.
Por esta razón, la simple negativa no es suficiente. Serían cruciales medidas como “conocer a tu cliente” y la capacidad de detectar e investigar usos potencialmente peligrosos. La detección también cambia el equilibrio del atacante al defensor. En el “juego de la negativa”, el atacante solo necesita ganar una vez y obtener una respuesta a su pregunta. En el “juego de la detección”, debe evitar ser detectado en cada consulta.
En general, la detección nos permite establecer umbrales más bajos para generar una alerta (dado que no hay degradación del desempeño, es solo una cuestión de la cantidad de recursos asignados para la investigación) y nos permite aprender de la implementación en el mundo real y potencialmente detectar nuevos riesgos y vulnerabilidades antes de que causen daños a gran escala.
La detección no significa que el trabajo basado en modelos sobre el cumplimiento y la robustez sea irrelevante. Tendremos que redactar especificaciones sobre las condiciones para las alertas y construir modelos de supervisión (o capacidades de supervisión para modelos generativos/agénticos) que sean robustos ante ataques antagónicos y puedan interpretar razonablemente las especificaciones. Puede resultar que la seguridad requiera gastar más recursos (por ejemplo, poder de cómputo en tiempo de inferencia) para la supervisión que para la generación/acción.
Por último, existe una tensión inherente entre la supervisión y la preservación de la privacidad. Uno de los riesgos potenciales de las IA es que, en un mundo en el que las IA están profundamente integradas en todas las interacciones humanas, será mucho más fácil para los gobiernos vigilar y controlar a la población. Descubrir cómo proteger tanto la privacidad como la seguridad, lo cual puede requerir herramientas como modelos en los dispositivos, es un desafío de investigación urgente.
La interpretabilidad mecanicista es un campo fascinante. Me gusta leer artículos sobre interpretabilidad y aprendo mucho de ellos. Creo que puede ser útil para la seguridad de la IA, pero no es una solución mágica y no creo que se encuentre en el camino decisivo para la seguridad de la IA.
El argumento habitual es que no podemos alinear o garantizar la seguridad de sistemas que no comprendemos. Pero en realidad ya alineamos sistemas complejos, ya sean grandes empresas o aplicaciones de software, sin “comprenderlos” por completo, y lo hacemos asegurándonos de que cumplen ciertas especificaciones técnicas, normativas u obligaciones contractuales.
En concreto, la interpretabilidad consiste en descubrir los algoritmos subyacentes y las representaciones internas de los sistemas de IA. Esto puede permitir tanto la supervisión como la dirección. Sin embargo, sospecho que los algoritmos y conceptos reales de los sistemas de IA son intrínsecamente “desordenados”. Por lo tanto, creo que habría una compensación inherente entre la fiabilidad (tener un concepto o algoritmo que describa el sistema en el 99,999 % de los casos) y la interpretabilidad. Para la seguridad y el control, la fiabilidad es más importante que la interpretabilidad.
¡Pero esto no quiere decir que la interpretabilidad sea inútil! Aunque creo que cabe la posibilidad de que no podamos conseguir el nivel de fiabilidad necesario para dirigir o supervisar, la interpretabilidad puede ser útil como herramienta de diagnóstico. Por ejemplo, comprobar si el método de entrenamiento A o el método de entrenamiento B da lugar a más engaños. Además, aunque no la usemos directamente, la interpretabilidad puede proporcionar muchos conocimientos para acelerar la investigación sobre seguridad y el descubrimiento de otros métodos. (¡Y sin duda necesitamos toda la aceleración de la seguridad que podamos conseguir!). La interpretabilidad también puede servir como control de sensatez y como forma de aumentar la confianza del público en los modelos de IA. Las consideraciones anteriores se refieren a la interpretabilidad “clásica” de pesos/activaciones; la interpretación de cadena de pensamiento puede ser significativamente más robusta. Por último, como he dicho anteriormente, es esencial no ser dogmático. Tal vez esté equivocado y la interpretabilidad sea necesaria para la alineación.
Kim Jong Un es probablemente uno de los individuos más “desalineados” que jamás haya existido. Se estima que el arsenal nuclear de Corea del Norte incluye más de 50 bombas al menos tan potentes como la bomba de Hiroshima. También se cree que Corea del Norte tiene armas biológicas y químicas. Dada su fuerza tecnológica y militar, si Corea del Norte hubiera existido hace 200 años, podría haber dominado el mundo. Pero en el mundo actual, es un Estado paria, situado en el puesto 178 global respecto al PIB per cápita.
La lección es que el daño que puede causar un agente no alineado depende de su poder relativo, no de su poder absoluto. Si solo hubiera una superinteligencia y quisiera destruir a la humanidad, estaríamos condenados. Pero en un mundo en el que muchos actores tienen SIA, el equilibrio entre la inteligencia alineada y la no alineada es importante.
Para concretar más las cosas (y simplificando un poco), imaginemos que la “inteligencia” se mide en una primera aproximación en unidades de poder de cómputo. Del mismo modo en que se gastan actualmente los recursos materiales, el poder de cómputo puede utilizarse para:
En la actualidad, el orden mundial se mantiene al garantizar que (2) —los recursos destinados a la defensa, la policía, la seguridad y otras formas de promover la paz y el bienestar— sean superiores a (1) —los recursos gastados por delincuentes, grupos terroristas y Estados inescrupulosos—.
Si bien la inteligencia puede amplificar la utilidad de una cantidad determinada de recursos, puede hacerlo tanto para los “atacantes” como para los “defensores”. Por lo tanto, mientras la inteligencia de los defensores domine la de los atacantes, deberíamos poder mantener el mismo equilibrio que tenemos actualmente.
Naturalmente, las “proporciones seguras” precisas podrían cambiar, ya que no se garantiza que la inteligencia tenga el mismo factor de amplificación para atacantes y defensores. Sin embargo, el factor de amplificación no es infinito. Además, para ataques de gran escala, los costos del atacante pueden ser superlineales. Por ejemplo, matar a mil personas en un solo ataque terrorista es mucho más difícil que matar al mismo número en muchos ataques más pequeños.
Además, no está claro que la inteligencia sea el factor limitante para los atacantes. Teniendo en cuenta ejemplos de ataques exitosos a gran escala, a menudo es el defensor quien podría haberse beneficiado más de una mayor inteligencia, tanto en el sentido militar como en el estándar. (De hecho, paradójicamente, parece que muchos de esos ataques —desde Pearl Harbor hasta el 11-S y el 7 de octubre— se habrían evitado si los atacantes hubieran calculado mejor el resultado, que la mayoría de las veces no consiguió sus objetivos).
Espero que, en general, el esfuerzo requerido para que un atacante cause daño se parezca un poco al gráfico sigmoideo anterior. El equilibrio entre las ventajas del atacante y del defensor reajusta el eje X del esfuerzo necesario para causar daño, pero aun así sería extremadamente difícil extinguir a la humanidad por completo.
Otra forma de decirlo es que no acepto la hipótesis del mundo vulnerable de Bostrom, que afirma que, en algún nivel de desarrollo tecnológico, la civilización será devastada por defecto. Creo que mientras las IA superinteligentes alineadas dominen a las SIA no alineadas, cualquier desarrollo tecnológico peligroso (por ejemplo, técnicas más baratas como la separación de isótopos por excitación láser para crear armas nucleares) sería descubierto primero por las SIA alineadas, lo que daría tiempo para prepararse. Una suposición clave del artículo de Bostrom de 2019 es la capacidad limitada de los gobiernos para tomar medidas preventivas. Sin embargo, con la pandemia de COVID-19 constatamos la capacidad de los gobiernos para movilizarse rápidamente y aplicar duras medidas restrictivas a sus ciudadanos.
La conclusión no es que tengamos garantizada la seguridad, ni que la superinteligencia no alineada o desalineada no pueda causar daños masivos, sino todo lo contrario: no existe un nivel absoluto de inteligencia por encima del cual la existencia de una inteligencia desalineada con este nivel signifique la perdición. Sin embargo, todo depende del mundo en el que opere esta superinteligencia, de los objetivos a los que se apliquen otros sistemas superinteligentes y de nuestros mecanismos para garantizar que realmente estén trabajando para alcanzar sus objetivos específicos.
Agradecimientos. Agradezco a Sam Altman, Alec Radford y Wojciech Zaremba sus comentarios a esta entrada de blog, aunque no necesariamente respaldan los puntos de vista expresados y no son responsables de los errores u omisiones que pueda contener.