Prevenir una catástrofe relacionada con la inteligencia artificial

¿Por qué los humanos, y no los chimpancés, controlan el destino del mundo?

Los humanos han transformado cada rincón de nuestro planeta. Los chimpancés, a pesar de ser bastante inteligentes en comparación con otros animales no humanos, no han hecho nada parecido.

Esto se debe (a grandes rasgos) a la inteligencia de los humanos.⁠a

Las empresas y los gobiernos están gastando miles de millones de dólares al año en el desarrollo de sistemas de IA; y a medida que estos sistemas se vuelvan más avanzados, podrían (con el correr del tiempo) desplazar a los humanos de la posición de seres más inteligentes del planeta. Como veremos, están realizando progresos. Muy rápido.

Cuánto tardaremos exactamente en crear una inteligencia artificial que sea mejor que los humanos en la mayoría de las cosas es un tema de intenso debate. Pero parece probable que sea posible, y nuestra conjetura es que ocurrirá este siglo.

La observación de que es posible que la inteligencia humana sea superada este siglo no es un argumento riguroso o concluyente de que la inteligencia artificial vaya a ser un acontecimiento muy significativo, o de que sea una amenaza para la humanidad. Más adelante profundizaremos en esos argumentos.

Pero parece razonable afirmar que el potencial desarrollo de una inteligencia rival en la Tierra en un futuro cercano debería ser, al menos, motivo de preocupación.

¿Tendrán objetivos los sistemas que desarrollemos? Si es así, ¿qué objetivos tendrán?

¿Apoyarán los intentos de la humanidad por hacer el bien? ¿O podríamos perder el control sobre nuestro futuro y poner fin a la historia humana?

La respuesta honesta a estas preguntas es que no lo sabemos.

Pero no deberíamos quedarnos esperando sin hacer nada, con los dedos cruzados, contemplando estos desarrollos a la distancia. La inteligencia artificial podría cambiarlo todo radicalmente, por lo que contribuir a encaminar su progreso de forma adecuada podría ser lo más importante que podamos hacer.

Resumen

Mi expectativa es que se producirán avances sustanciales en IA en las próximas décadas, incluso hasta alcanzar el punto de que las máquinas lleguen a superar a los humanos en muchas o en todas las tareas. Esto podría tener enormes beneficios, ayudando a resolver problemas globales actualmente insolubles, pero también podría plantear graves riesgos. Estos riesgos podrían surgir accidentalmente (por ejemplo, si no encontramos soluciones técnicas a los problemas de seguridad de los sistemas de IA) o deliberadamente (por ejemplo, si los sistemas de IA empeoran los conflictos geopolíticos). Creo que hay que seguir trabajando para reducir estos riesgos.

Algunos de estos riesgos asociados a la IA avanzada podrían ser existenciales, es decir, podrían causar la extinción humana o una pérdida de poder igual de permanente y grave para la humanidad.⁠b Aún no se ha dado ninguna respuesta satisfactoria a las preocupaciones —analizadas más adelante— sobre cómo desarrollar e integrar en nuestra sociedad de forma segura esta tecnología transformadora que se aproxima rápidamente. Encontrar respuestas a estas preocupaciones es algo muy desatendido, y puede que sea tratable. Estimo que hay unas 400 personas en todo el mundo trabajando directamente en ello.⁠c En consecuencia, la posibilidad de que se produzca una catástrofe relacionada con la IA puede ser el problema más apremiante del mundo y la mejor opción a la que podrían dedicarse quienes están en condiciones de contribuir a resolverlo.

Entre las opciones más prometedoras para contribuir a resolver este problema se encuentran la investigación técnica sobre cómo crear sistemas de IA seguros, la investigación estratégica sobre los riesgos concretos que podría plantear la IA y la investigación política sobre las formas en que las empresas y los gobiernos podrían mitigar estos riesgos. Si se desarrollan políticas valiosas, necesitaremos personas que las pongan en vigor y las apliquen. También hay muchas oportunidades de tener un gran impacto en una serie de roles complementarios, como la gestión de operaciones, el periodismo, ganar para donar, etc. Enumeramos algunos de estos roles más adelante.

Nuestra opinión general

Escala

Si resolviéramos este problema, ¿en qué medida mejoraría el mundo? Más información.

La IA tendrá un impacto múltiple y tiene el potencial de hacer mucho bien. Pero nos preocupa especialmente la posibilidad de que se produzcan resultados extremadamente malos, sobre todo una catástrofe existencial. Algunos expertos en el riesgo asociado a la IA creen que las probabilidades son tan bajas como el 0,5 %, mientras que otros piensan que son superiores al 50 %. Estamos abiertos a que cualquiera de los dos esté en lo cierto, y puedes ver más discusiones al respecto aquí. Mi estimación general es que el riesgo de una catástrofe existencial causada por la inteligencia artificial en 2100 se sitúa en torno al 1 %, aunque tal vez sea un poco mayor. Esto me ubica en el extremo menos preocupado del personal de 80 000 Horas: como organización, nuestra opinión es que el riesgo oscila entre el 3 % y el 50 %.

Desatención

¿Cuántos recursos se dedican actualmente a tratar de resolver este problema? Más información.

En 2020 se gastaron alrededor de 50 millones de dólares en reducir los riesgos catastróficos asociados a la IA, mientras que se gastaron miles de millones en mejorar las capacidades de la IA.⁠d Aunque estamos viendo una creciente preocupación por parte de los expertos en IA, estimo que todavía hay solo unas 400 personas que trabajan de forma directa en reducir las probabilidades de una catástrofe existencial relacionada con la IA (con un intervalo de confianza del 90 % que oscila entre 200 y 1 000).⁠e De ellas, parece que alrededor de tres cuartas partes trabajan en la investigación de la seguridad técnica de la IA, mientras que el resto se divide entre la investigación sobre estrategia (y otras formas de gobernanza) y la promoción.⁠f

Solucionabilidad

Si duplicáramos el esfuerzo directo en este problema, ¿qué fracción del problema restante esperaríamos resolver? Más información.

Parece difícil avanzar en la prevención de una catástrofe relacionada con la IA, pero hay muchas vías para seguir investigando y el campo es muy joven. Así que creo que es moderadamente tratable, aunque no estoy muy seguro; de nuevo, las valoraciones sobre la tratabilidad de la seguridad de la IA varían enormemente.

Profundidad del perfil

En profundidad.⁠g

Este es uno de los muchos perfiles que hemos escrito para ayudar a la gente a encontrar los problemas más apremiantes que puedan resolver con sus carreras profesionales. Obtén más información sobre cómo comparamos diferentes problemas, sobre cómo intentamos asignarles un puntaje numérico, y sobre cómo se compara este problema con los otros que hemos considerado hasta ahora.

Nota del autor: En esencia, este perfil de problema trata de predecir el futuro de la tecnología. Esta es una tarea notoriamente difícil. Además, los riesgos asociados a la IA se han investigado con mucho menos rigor que otros riesgos sobre los que escribe 80 000 Horas (como las pandemias o el cambio climático.⁠h Dicho esto, existe un campo de investigación cada vez mayor sobre el tema, que he intentado reflejar. Para este artículo me he apoyado especialmente en este informe preliminar de Joseph Carlsmith de Open Philanthropy (también disponible como narración de audio), ya que es el tratamiento general del riesgo más riguroso que he podido encontrar. También he hecho revisar el artículo por más de 30 personas con diferentes conocimientos y opiniones sobre la materia. (A casi todos les preocupa el impacto potencial de la IA avanzada.)

Si tienes algún comentario sobre este artículo, ya sea un error técnico, una redacción que podríamos mejorar o simplemente que te ha gustado o no leerlo, te agradeceríamos que nos lo comunicaras mediante este formulario.

¿Por qué creemos que reducir los riesgos asociados a la IA es una de las cuestiones más apremiantes de nuestro tiempo? En resumen, nuestras razones son las siguientes:

Incluso antes de entrar en los argumentos reales, podemos ver algunos motivos de preocupación, ya que muchos expertos en IA piensan que hay una probabilidad pequeña, pero no despreciable, de que la IA conduzca a resultados tan malos como la extinción humana.
Estamos haciendo avances en IA extremadamente rápido, lo que sugiere que los sistemas de IA podrían tener pronto una influencia significativa en la sociedad.
Hay argumentos sólidos de que una IA “que busca poder” podría convertirse en una amenaza existencial para la humanidad,⁠i que analizaremos a continuación.
Incluso si encontramos una forma de evitar que la IA busque poder, sigue habiendo otros riesgos.
Nos parece que podemos reducir estos riesgos.
Este trabajo está sumamente desatendido.

Vamos a tratar cada uno de estos puntos por separado; a continuación, consideraremos algunos de los mejores argumentos en contra, explicaremos cosas concretas que puedes hacer para contribuir y, por último, presentaremos algunos de los mejores recursos para aprender más sobre el tema.

1. Muchos expertos en IA consideran que existe una probabilidad no despreciable de que la IA conduzca a resultados tan malos como la extinción humana

En mayo de 2023, cientos de destacados científicos de la IA —y otras figuras notables— firmaron una declaración en la que afirmaban que mitigar el riesgo de extinción derivado de la IA debería ser una prioridad global.

Así que está bastante claro que al menos algunos expertos están preocupados.

Pero, ¿hasta qué punto? Y, ¿se trata solo de una opinión marginal?

Analizamos tres encuestas realizadas a investigadores de IA que publicaron en NeurIPS e ICML (dos de las conferencias de aprendizaje automático más prestigiosas): una de 2016, otra de 2019 y una tercera de 2022.⁠j

Es importante señalar que podría haber un sesgo de selección considerable en encuestas como estas. Por ejemplo, se podría pensar que los investigadores que asisten a las principales conferencias sobre IA tienen más probabilidades de ser optimistas con respecto a la IA, porque han sido seleccionados para pensar que la investigación sobre IA tiene consecuencias positivas para el mundo. Por otro lado, se podría pensar que los investigadores que ya están preocupados por la IA tienen más probabilidades de responder a una encuesta en la que se les pregunte por estas preocupaciones.⁠k

Dicho esto, he aquí lo que encontramos:

En las tres encuestas, el investigador mediano pensaba que las probabilidades de que la IA fuera “extremadamente buena” eran razonablemente altas: 20 % en la encuesta de 2016, 20 % en la de 2019 y 10 % en la de 2022.⁠l

De hecho, los sistemas de IA ya están teniendo efectos positivos sustanciales: por ejemplo, en atención médica o en investigación académica.

Pero en las tres encuestas, el investigador mediano también estimó que había una probabilidad pequeña —y ciertamente no despreciable— de que la IA fuera “extremadamente mala (por ejemplo, que cause la extinción humana)”: un 5 % de probabilidad de resultados extremadamente malos en la encuesta de 2016, un 2 % en la de 2019 y un 5 % en la de 2022.⁠m

En la encuesta de 2022, se les preguntó a los participantes específicamente sobre las probabilidades de una catástrofe existencial causada por los futuros avances de la IA y, de nuevo, más de la mitad de los investigadores pensaban que las probabilidades de una catástrofe existencial eran superiores al 5 %.⁠n

Así pues, los expertos no se ponen de acuerdo sobre el grado en que la IA plantea un riesgo existencial, un tipo de amenaza a la que, según hemos argumentado, debe asignarse una enorme importancia moral.

Esto encaja con nuestra comprensión del estado de este campo de investigación. Tres de los principales laboratorios que desarrollan IA (DeepMind, Anthropic y OpenAI) también tienen equipos dedicados a resolver problemas de seguridad técnica que podrían, por las razones que exponemos más adelante, constituir una amenaza existencial para la humanidad.⁠o

También hay varios grupos de investigación académica (en el MIT, en Oxford, en Cambridge, en la Universidad Carnegie Mellon y en la Universidad de California en Berkeley, entre otras universidades) centrados en estos mismos problemas de seguridad técnica de la IA.⁠p

Es difícil saber exactamente qué conclusiones sacar de todo esto, pero estamos seguros de que no es una posición marginal en este campo pensar que existe un riesgo sustancial de resultados tan malos como una catástrofe existencial. Algunos expertos en la materia sostienen, sin embargo, que los riesgos son exagerados.

Aun así, ¿por qué adoptamos el punto de vista del grupo más preocupado? En pocas palabras, porque hay argumentos que nos parecen convincentes para afirmar que la IA podría suponer una amenaza existencial: argumentos que analizaremos paso a paso a continuación.

Es importante reconocer que el hecho de que muchos expertos reconozcan que existe un problema no significa que todo esté bien, ni que los expertos se estén ocupando de resolverlo. En general, creemos que este problema sigue estando muy desatendido, ya que solo unas 400 personas trabajan directamente en él en todo el mundo (más información al respecto más abajo).

Mientras tanto, se invierten miles de millones de dólares al año en desarrollar las capacidades de la IA.⁠q

2. Estamos haciendo avances en IA extremadamente rápido

La imagen doble muestra dos gatos en situaciones antropomórficas. La imagen de la izquierda, un tanto defectuosa, muestra un gato sentado frente a una computadora portátil, como si estuviera trabajando o jugando. La imagen de la derecha, muy realista, muestra otro gato con un atuendo que se asemeja a un traje formal o uniforme, con un sombrero y parece estar mirando de forma seria o profesional. — *Un gato vestido de programador informático* generado por Craiyon (antes DALL-E mini) (izquierda) y DALL-E 2 (derecha) de OpenAI.⁠r

Antes de intentar averiguar cómo podría ser el futuro de la IA, es útil examinar lo que la IA puede hacer actualmente.

Las técnicas modernas de IA se basan en el aprendizaje automático (AA): modelos que mejoran automáticamente a partir de los datos que reciben. La forma más común de esta técnica utilizada hoy en día se conoce como aprendizaje profundo.

¿Qué es el aprendizaje profundo?

Las técnicas de aprendizaje automático, en general, toman algunos datos de entrada y producen datos de salida de acuerdo con ciertos parámetros en el modelo, que se aprenden automáticamente en lugar de ser especificados por los programadores.

La mayoría de los avances recientes en aprendizaje automático utilizan redes neuronales. Una red neuronal transforma los datos de entrada en datos de salida haciéndolos pasar por varias “capas” ocultas de cálculos simples, donde cada capa está formada por “neuronas”. Cada neurona recibe datos de la capa anterior, realiza algún cálculo basado en sus parámetros (básicamente, algunos números específicos de esa neurona) y pasa el resultado a la siguiente capa.

Los ingenieros que desarrollan la red elegirán alguna medida de éxito para la red (conocida como ‘función de pérdida’ o ‘función objetiva’). El grado de éxito de la red (según la medida elegida) dependerá de los valores exactos de los parámetros de cada neurona de la red.

A continuación, la red se entrena utilizando una gran cantidad de datos. Mediante un algoritmo de optimización (normalmente, el descenso de gradiente estocástico), los parámetros de cada neurona se ajustan gradualmente cada vez que la red se compara con los datos empleando la función de pérdida. En general, el algoritmo de optimización hará que la red neuronal funcione ligeramente mejor cada vez que se ajusten los parámetros. Al cabo de este proceso, los ingenieros conseguirán una red que funciona bastante bien en la medida elegida.

El aprendizaje profundo es el uso de redes neuronales con muchas capas.

Para saber más, recomendamos:

La serie de 3Blue1Brown’s sobre redes neuronales, una excelente introducción en video.
A short introduction to machine learning de Richard Ngo, una breve entrada de blog que ofrece una visión general del tema.
Machine learning for humans, part 2.1 de Vishal Maini y Samer Sabri, una introducción más extensa, pero accesible, al aprendizaje automático.

En la actualidad, los sistemas de AA solo pueden realizar una fracción muy pequeña de las tareas que pueden hacer los humanos, y (con algunas excepciones) solo dentro de especialidades estrechas (como jugar a un juego específico o generar un tipo particular de imagen).

Dicho esto, desde el uso cada vez más extendido del aprendizaje profundo a mediados de la década de 2010, se han producido enormes avances respecto de lo que se puede conseguir con el AA. He aquí una breve cronología de solo algunos de los avances que vimos de 2019 a 2022:

AlphaStar, que puede vencer a los mejores jugadores profesionales en StarCraft II (enero de 2019).
MuZero, un sistema que aprendió a ganar partidas de ajedrez, shogi y go, sin que nunca se le enseñaran las reglas (noviembre de 2019)
GPT-3, un modelo de lenguaje natural capaz de producir textos de alta calidad (mayo de 2020)
GPT-f, que puede resolver algunos problemas de la Olimpiada Internacional de Matemática (septiembre de 2020)
AlphaFold 2, un gran paso adelante en la resolución del complejo problema del plegamiento de proteínas (julio de 2021).
Codex, que puede producir código para programas a partir de instrucciones en lenguaje natural (agosto de 2021)
PaLM, un modelo de lenguaje que ha demostrado impresionantes capacidades para razonar sobre cosas como causa y efecto o explicar chistes (abril de 2022).
DALL-E 2 (abril de 2022) e Imagen (mayo de 2022), capaces de generar imágenes de alta calidad a partir de descripciones por escrito.
SayCan, que toma instrucciones en lenguaje natural y las utiliza para manejar un robot (abril de 2022).
Gato, un único modelo de AA capaz de hacer un gran número de cosas diferentes (como jugar a la Atari, subtitular imágenes, chatear y apilar bloques con un brazo robótico real), que decide lo que debe hacer en función del contexto (mayo de 2022).
Minerva puede resolver problemas matemáticos complejos, bastante bien a nivel universitario, y aún mejor a nivel de competición matemática de instituto. (Minerva tuvo mucho más éxito de lo que en 2021 se pronosticó que tendría.)

Si te pareces a nosotros, te habrá sorprendido la complejidad y generalidad de las tareas que estos sistemas son capaces de llevar a cabo.

Y si la tecnología sigue avanzando a este ritmo, parece claro que tendrá importantes efectos en la sociedad. Como mínimo, la automatización de tareas hace que llevarlas a cabo sea más barato. En consecuencia, podríamos asistir a un rápido aumento del crecimiento económico (quizá incluso al nivel que vimos durante la Revolución Industrial).

Si somos capaces de automatizar parcial o totalmente el avance científico podríamos ver cambios más transformadores en la sociedad y en la tecnología.⁠s

Y tal vez esto recién empiece. Puede que consigamos que las computadoras acaben automatizando todo lo que los humanos pueden hacer. Esto parece posible, al menos en principio. Pues parece que, con suficiente potencia y complejidad, una computadora debería ser capaz de simular el cerebro humano. Esto sería en sí mismo una forma de automatizar todo lo que los humanos pueden hacer (aunque no sea el método más eficiente de lograrlo).

Como veremos en la próxima sección, hay indicios de que es posible una automatización a gran escala ampliando las técnicas existentes.

Las tendencias actuales muestran un rápido progreso en las capacidades de los sistemas de AA

Hay tres cosas que son cruciales para crear una IA con tecnologías de aprendizaje automático:

Buenos algoritmos (por ejemplo, los algoritmos más eficientes son mejores).
Datos para entrenar un algoritmo.
Suficiente poder de cómputo para realizar este entrenamiento.

Hablamos con Danny Hernández, que en aquel momento era investigador científico del equipo Foresight de OpenAI. Hernández y su equipo analizaron la evolución de dos de estos dos insumos (el poder de cómputo y la eficiencia de los algoritmos).

Descubrieron que, desde 2012, la cantidad de poder de cómputo utilizada para el entrenamiento de los mayores modelos de IA ha aumentado exponencialmente, duplicándose cada 3,4 meses.

Es decir, desde 2012, la cantidad de poder de cómputo utilizada para entrenar nuestros modelos de aprendizaje automático más grandes ha crecido más de mil millones de veces.

Hernández y su equipo también analizaron cuánto poder de cómputo ha sido necesario para entrenar una red neuronal con un rendimiento equivalente al de AlexNet (uno de los primeros algoritmos de clasificación de imágenes).

Descubrieron que la cantidad de poder de cómputo requerida para el mismo rendimiento ha ido cayendo exponencialmente, reduciéndose a la mitad cada 16 meses.

Así, desde 2012, la cantidad de poder de cómputo necesaria para el mismo nivel de rendimiento se ha reducido en más de 100 veces. Combinado con el aumento del poder de cómputo utilizado, esto representa un crecimiento considerable.⁠t

Es difícil decir si estas tendencias continuarán, pero dan muestras de increíbles avances en la última década en lo que es posible hacer con el aprendizaje automático.

De hecho, parece que el aumento del tamaño de los modelos (y de la cantidad de poder de cómputo utilizada para entrenarlos) introduce comportamientos cada vez más sofisticados. Esta es la razón por la que sistemas como GPT-3 son capaces de realizar tareas para las que no han sido entrenados específicamente.

Estas observaciones han dado lugar a la hipótesis del escalamiento: podemos construir redes neuronales cada vez más grandes y, como resultado, acabaremos teniendo una inteligencia artificial cada vez más potente, y esta tendencia de aumento de las capacidades puede llegar hasta la IA de nivel humano y más allá.

Si esto es cierto, podemos intentar predecir cómo aumentarán las capacidades de la tecnología de la IA a lo largo del tiempo simplemente observando a qué velocidad estamos aumentando la cantidad de poder de cómputo disponible para entrenar modelos.

Pero, como veremos, no es solo la hipótesis del escalamiento la que sugiere que podríamos acabar con una IA extremadamente potente relativamente pronto: otros métodos de predicción del progreso de la IA llegan a conclusiones similares.

Echemos un vistazo a lo que GPT-3 es capaz de hacer

GPT-3, lanzado por OpenAI en junio de 2020, fue ampliamente considerado en los medios como un avance sustancial en las capacidades de los sistemas de aprendizaje profundo. En el momento de su lanzamiento, ostentaba el récord de la red neuronal más grande jamás creada, con 175 000 millones de parámetros.

En esencia, GPT-3 intenta continuar un bloque de texto.

Por ejemplo, le pedimos a GPT-3 que produjera un poema de Shakespeare sobre la inteligencia artificial escribiendo “un poema de Shakespeare sobre la inteligencia artificial”:⁠u

En silicio y en datos concebida,
De algoritmos y redes engendrada,
La artificial razón, cual luz velada,
Emerge de la máquina encendida.

Entre ceros y unos, desmedida,
Crece cual flor de ciencia cultivada,
Y en su lógica fría, calculada,
Simula del pensar la honda medida.

¿Qué límites tendrá este nuevo arte
Que imita del humano la conciencia
Y aprende sin fatiga, sin sosiego?

Mas nunca alcanzará la mejor parte:
Del alma la profunda quintaesencia,
Del corazón el verdadero fuego.

Pero GPT-3 puede hacer mucho más que eso. Estas son algunas de las cosas más impresionantes basadas en GPT-3 que hemos visto:⁠v

GPT-3 puede responder correctamente a algunas preguntas de medicina.
Un software construido con GPT-3 puede tomar la descripción de un diseño sencillo de página web y escribir el código para generarlo.
Una función de hoja de cálculo basada en GPT-3 puede predecir entradas complejas en las celdas.
GPT-3 puede jugar al ajedrez (aunque no muy bien).
GPT-3 escribió una novela fantástica de 200 páginas.
Nueve filósofos escribieron ensayos sobre las implicaciones de GPT-3, a los que GPT-3 escribió esta respuesta.

Y eso es solamente GPT-3. En marzo de 2023, OpenAI lanzó GPT-4, un modelo muy superior.

¿Para cuándo podemos esperar una IA transformadora?

Es difícil predecir con exactitud cuándo desarrollaremos una IA que, en términos esperados, sea enormemente transformadora para la sociedad (para bien o para mal); por ejemplo, automatizando todo el trabajo humano o cambiando drásticamente la estructura de la sociedad.⁠w Pero aquí repasaremos algunos enfoques.

Una opción es encuestar a expertos. Los datos de la encuesta de 2019 a 300 expertos en IA implican que hay un 20 % de probabilidad de inteligencia artificial de nivel humano (que sería seguramente transformadora en este sentido) para 2036, un 50 % de probabilidad para 2060 y un 85 % para 2100.⁠x Hay muchas razones para desconfiar de estas estimaciones,⁠y pero lo tomamos como un dato a tener en cuenta.

Ajeya Cotra (investigadora de Open Philanthropy) intentó pronosticar cuándo surgiría una IA transformadora comparando el aprendizaje profundo moderno con el cerebro humano. El aprendizaje profundo implica el uso de una enorme cantidad de poder de cómputo para entrenar un modelo, antes de que ese modelo sea capaz de realizar alguna tarea. También existe una relación entre la cantidad de poder de cómputo utilizada para entrenar un modelo y la cantidad que el modelo utiliza cuando se ejecuta. Y, si la hipótesis del escalamiento es correcta, deberíamos esperar que el rendimiento de un modelo mejore previsiblemente a medida que aumenta el poder de cómputo utilizado. Así que Cotra utilizó diversos métodos (por ejemplo, estimar el poder de cómputo que utiliza el cerebro humano en diversas tareas) para calcular la cantidad de poder de cómputo necesaria para entrenar un modelo que, una vez ejecutado, pudiera realizar las tareas de mayor dificultad para el ser humano. A continuación, calculó cuándo la humanidad estaría en condiciones de pagar por ese poder de cómputo.

En la actualización de 2022 de las conclusiones de su informe, Cotra calcula que hay un 35 % de probabilidades de que la IA transformadora llegue en 2036, un 50 % en 2040 y un 60 % en 2050, y señala que estas estimaciones no son estables.⁠z

Tom Davidson (también investigador de Open Philanthropy) escribió un informe para complementar el trabajo de Cotra. Intentó averiguar cuándo podríamos esperar ver una IA transformadora basándose únicamente en varios tipos de investigación que podrían ser propios de la IA transformadora (por ejemplo, desarrollar una tecnología que sea el objetivo final de un campo CTIM o demostrar conjeturas matemáticas difíciles) y cuánto tiempo ha tardado cada uno de estos tipos de investigación en completarse en el pasado, dada una cierta cantidad de financiación y esfuerzo para la investigación.

El informe de Davidson estima que, sobre la base de esta información solamente, se podría pensar que existe un 8 % de probabilidades de que se desarrolle una IA transformadora en 2036, un 13 % en 2060 y un 20 % en 2100. Sin embargo, Davidson no tiene en cuenta los avances reales de la IA desde que comenzó la investigación en la década de 1950, y señala que parece probable que la cantidad de esfuerzo que dedicamos a la investigación de la IA aumente a medida que la IA sea cada vez más relevante para nuestra economía. Por ello, Davidson considera que la IA transformadora se desarrollará antes de lo que cabría esperar a partir de sus estimaciones.

Holden Karnofsky, actual director de estrategia de la IA de Open Philanthropy, intentó resumir los resultados de todos estos enfoques. En su opinión, hay más de un 10 % de probabilidades de que veamos una IA transformadora en 2036, un 50 % en 2060 y un 66 % en 2100. Y estas suposiciones podrían ser conservadoras, ya que no tienen en cuenta que, en nuestra opinión, el progreso ha ido más rápido de lo previsto desde que se hicieron las estimaciones.

Método	Probabilidad de una IA transformadora para 2036	Probabilidad de una IA transformadora para 2060	Probabilidad de una IA transformadora para 2100
Encuesta a expertos (Zhang et al., 2022)	20 %	50 %	85 %
Anclajes biológicos (Cotra, 2022)	35 %	60 % (para 2050)	80 % (según el informe de 2020)
Probabilidades a priori semiinformativas (Davidson, 2021)	8 %	13 %	20 %
Estimación general (Karnofsky, 2021)	10 %	50 %	66 %

En general, parece que la IA avanza rápidamente. Cada año se invierte más dinero y talento en este campo, y los modelos son cada vez más grandes y eficientes.

Incluso si la IA avanzara más despacio, nos preocuparía: la mayoría de los argumentos sobre los riesgos asociados a la IA (a los que nos referiremos más adelante) no dependen de este progreso acelerado. Sin embargo, la velocidad de estos avances recientes aumenta la urgencia de la cuestión.

(Es muy posible que estas estimaciones sean erróneas: más adelante veremos que la posibilidad de que tengamos mucho tiempo para trabajar en este problema es uno de los mejores argumentos en contra de que este problema sea apremiante.)

3. Los sistemas de IA que buscan poder podrían convertirse en una amenaza existencial para la humanidad

Hasta ahora hemos argumentado que esperamos que la IA sea una nueva tecnología importante y potencialmente transformadora.

También hemos visto algunas razones para pensar que estos sistemas de IA transformadores podrían desarrollarse este siglo.

Ahora abordaremos la cuestión principal: ¿por qué creemos que esto es tan importante?

Podría haber muchas razones. Si la IA avanzada será tan transformadora como lo parece, habrá muchas consecuencias importantes. Pero aquí vamos a explicar la cuestión que nos parece más preocupante: los sistemas de IA podrían plantear riesgos al buscar y obtener poder.

Argumentaremos que:

Es probable que construyamos sistemas de IA que puedan elaborar y ejecutar planes para alcanzar objetivos.
Los sistemas de planificación avanzada podrían fácilmente estar ‘desalineados’, y esta desalineación podría llevarlos a elaborar planes que impliquen arrebatarle el poder a la humanidad.
Esta pérdida de poder a manos de los sistemas de IA sería una catástrofe existencial.
A pesar de este riesgo, es posible que se desplieguen sistemas de IA desalineados.

Pensando en cada paso, creo que hay algo así como un 1 % de probabilidades de que se produzca una catástrofe existencial en este siglo a causa de sistemas de IA que buscan el poder. Esta es mi estimación general del riesgo, que incorpora consideraciones del argumento a favor del riesgo (que es en sí mismo probabilístico), así como razones por las que este argumento podría ser incorrecto (algunas de las cuales discuto más abajo). Esto me sitúa en el extremo menos preocupado del personal de 80 000 Horas, cuyas opiniones en nuestra última encuesta oscilaron entre el 1 y el 55 %, con una mediana del 15 %.

Es probable que construyamos sistemas planificadores avanzados

Vamos a argumentar que los sistemas futuros con las siguientes tres propiedades podrían constituir una amenaza especialmente seria para la humanidad:⁠1

Tienen objetivos y son buenos haciendo planes.

No todos los sistemas de IA tienen objetivos o hacen planes para alcanzarlos. Pero algunos sistemas (como algunas IA que juegan al ajedrez) pueden concebirse de este modo. Cuando hablamos de una IA que busca el poder, estamos considerando sistemas capaces de planificar relativamente avanzados, que tienen planes orientados a objetivos y que son capaces de llevarlos a cabo.
Tienen una excelente percepción estratégica.

Un sistema planificador particularmente bueno tendría una comprensión del mundo lo suficientemente buena como para darse cuenta de los obstáculos y oportunidades que pueden facilitar o dificultar sus planes, y responder a ellos en consecuencia. Siguiendo a Carlsmith, llamaremos a esta propiedad percepción estratégica, ya que permite a los sistemas elaborar estrategias de un modo más sofisticado.
Tienen capacidades muy avanzadas en relación con los sistemas actuales.

Para que estos sistemas tengan un efecto real en el mundo, necesitamos no solo que hagan planes, sino también que sean buenos en todas las tareas específicas necesarias para ejecutar esos planes.

Dado que nos preocupan los sistemas que intentan arrebatarle el poder a la humanidad, nos preocupan especialmente los sistemas de IA que podrían ser mejores que los humanos en una o más tareas que otorgan a las personas un poder significativo cuando se llevan a cabo con éxito en el mundo actual.

Por ejemplo, las personas que son muy buenas en persuasión y/o manipulación a menudo son capaces de obtener poder, por lo que una IA que sea buena en estas cosas también podría ser capaz de obtener poder. Otros ejemplos podrían incluir el acceso no autorizado a otros sistemas, las tareas dentro de la investigación científica y de ingeniería, así como la estrategia empresarial, militar o política.

Estos sistemas parecen técnicamente posibles y tendremos fuertes incentivos para crearlos

Como hemos visto más arriba, ya hemos desarrollado sistemas que son muy buenos llevando a cabo tareas específicas.

También hemos creado sistemas planificadores rudimentarios, como AlphaStar, que juega hábilmente al juego de estrategia Starcraft, y MuZero, que juega al ajedrez, al shogi y al go.⁠aa

No estamos seguros de que estos sistemas elaboren planes en busca de objetivos per se, porque no estamos seguros de qué significa exactamente “tener objetivos”. Sin embargo, dado que sistemáticamente planifican de formas que alcanzan objetivos, parece que tienen objetivos en algún sentido.

Además, algunos sistemas existentes parecen representar objetivos como parte de sus redes neuronales.⁠ab

Dicho esto, la planificación en el mundo real (en contraposición con la planificación en los juegos) es mucho más compleja, y hasta la fecha no conocemos ningún ejemplo inequívoco de un sistema planificador orientado a objetivos o que muestre un alto grado de percepción estratégica.

Pero, como ya hemos dicho, esperamos ver nuevos avances en este siglo. Y creemos que es probable que estos avances produzcan sistemas con las tres propiedades anteriores.

Esto se debe a que creemos que existen incentivos especialmente fuertes (como el lucro) para desarrollar este tipo de sistemas. En resumen: porque ser capaz de planificar la consecución de un objetivo y ejecutar ese plan parece una forma especialmente poderosa y general de influir en el mundo.

Lograr que las cosas se hagan —ya sea que una empresa venda productos, una persona compre una casa o un gobierno desarrolle una política— casi siempre parece requerir estas habilidades. Un ejemplo sería asignar un objetivo a un sistema poderoso y esperar que lo consiga, en lugar de tener que guiarlo a cada paso. Así pues, parece probable que los sistemas planificadores sean extremadamente útiles (tanto económica como políticamente).⁠ac

Y si los sistemas son extremadamente útiles, es probable que haya incentivos considerables para desarrollarlos. Por ejemplo, una IA que pudiera planificar las acciones de una empresa con el objetivo de aumentar sus beneficios (es decir, una IA encargada de la dirección general de una empresa) probablemente proporcionaría una riqueza significativa a las personas implicadas: un incentivo directo para desarrollar una IA de este tipo.

En consecuencia, si podemos desarrollar sistemas con estas propiedades (y todo indica que podremos hacerlo), parece probable que los desarrollemos.⁠ae

Es fácil que los sistemas planificadores avanzados estén peligrosamente “desalineados”

Hay razones para pensar que este tipo de sistemas planificadores avanzados estarán desalineados. Es decir, intentarán hacer cosas que no queremos que hagan.⁠af

Hay muchas razones por las que los sistemas podrían no tener el objetivo de hacer exactamente lo que queremos que hagan. Por un lado, no sabemos cómo dar a los sistemas los objetivos precisos que queremos utilizando técnicas modernas de AA (más detalles [aquí](#podría-ser-dificil-encontrar-formas-de prevenir-este-tipo-de-desalineacion)).⁠ag

Vamos a centrarnos específicamente en algunas razones por las que, por defecto, los sistemas podrían estar desalineados hasta el punto de desarrollar planes que pongan en peligro la capacidad de la humanidad para influir en el mundo, aun cuando no queremos que esa influencia se pierda.⁠ah

¿Qué queremos decir con “por defecto”? Esencialmente, que a menos que tengamos éxito en una búsqueda activa de soluciones a algunos problemas (que podrían ser bastante difíciles de resolver), parece que crearemos una IA peligrosamente desalineada. (Hay razones por las que esta afirmación podría ser errónea, que discutimos más adelante.)

Tres ejemplos de “desalineación” en diversos tipos de sistemas

Vale la pena señalar que la desalineación no es una posibilidad meramente teórica (o específica de la IA): observamos objetivos desalineados en humanos e instituciones todo el tiempo, y también hemos visto ejemplos de desalineación en sistemas de IA.⁠ai

Ejemplo 1: ganar las elecciones

El marco político democrático busca garantizar que los políticos tomen decisiones que beneficien a la sociedad. Pero lo que los sistemas políticos realmente recompensan es ganar las elecciones, así que eso es lo que muchos políticos acaban persiguiendo.

Se trata de un objetivo indirecto razonable: si tienes un plan para mejorar la vida de la gente, es más probable que te voten; pero no es un objetivo perfecto. Como resultado, los políticos hacen cosas que no son claramente la mejor manera de dirigir un país, como subir los impuestos al principio de su mandato y bajarlos justo antes de las elecciones.

Es decir, lo que el sistema hace es al menos un poco diferente de lo que, en un mundo perfecto, querríamos que hiciera: el sistema está desalineado.

Ejemplo 2: el incentivo del lucro

Las empresas tienen incentivos de lucro. Al producir más y, por tanto, ayudar a la gente a obtener bienes y servicios a precios más baratos, las empresas ganan más dinero.

A veces es una buena forma de mejorar el mundo, pero el lucro no es lo mismo que el bien de toda la humanidad (una afirmación atrevida, lo sabemos). Como resultado, se producen externalidades negativas: por ejemplo, las empresas contaminarán para ganar dinero a pesar de que esto sea peor para la sociedad en general.

De nuevo, tenemos un sistema desalineado, en el que las cosas que hace el sistema son al menos un poco diferentes de lo que querríamos que hiciera.

Ejemplo 3: manipulación de especificaciones en sistemas de IA existentes

DeepMind ha documentado ejemplos de manipulación de especificaciones: una IA que funciona bien según la función de recompensa especificada (que codifica nuestras intenciones para el sistema), pero que no hace lo que los investigadores pretendían.

En un ejemplo, se pidió a un brazo robótico que agarrara una pelota. Pero la recompensa se especificaba en función de si los humanos pensaban que el robot había tenido éxito. Como resultado, el brazo aprendió a permanecer entre la pelota y la cámara, haciendo creer a los humanos que había agarrado la pelota.⁠aj

Fuente: Dario Amodei, Paul Christiano & Alex Ray (2017) Learning from human preferences, OpenAI.

Así que sabemos que es posible crear un sistema de IA desalineado.

Por qué estos sistemas podrían (por defecto) estar peligrosamente desalineados

He aquí el argumento central de este artículo. Utilizaremos las tres propiedades mencionadas anteriormente: capacidad de planificación, percepción estratégica y capacidades avanzadas.

Para empezar, debemos darnos cuenta de que un sistema planificador que tiene un objetivo también desarrollará “objetivos instrumentales”: cosas que, de ocurrir, facilitarán la consecución de un objetivo general.

En nuestros planes utilizamos objetivos instrumentales todo el tiempo. Por ejemplo, un estudiante de bachillerato que planifica su carrera profesional puede pensar que ser admitido en la universidad le ayudará a conseguir un trabajo en el futuro. En este caso, “ser admitido en la universidad” sería un objetivo instrumental.

Un sistema de IA planificador lo suficientemente avanzado también incluiría objetivos instrumentales en sus planes generales.

Si un sistema de IA planificador también tiene suficiente percepción estratégica, será capaz de identificar hechos sobre el mundo real (incluyendo cosas que serían potencialmente un obstáculo para cualquier plan), y planificar en función de ellos. De manera crucial, estos hechos incluirían que el acceso a recursos (por ejemplo, dinero, poder de cómputo, influencia) y a mayores capacidades —es decir, formas de poder— abren nuevas maneras más eficaces de alcanzar objetivos.

Esto significa que, por defecto, los sistemas de IA de planificación avanzada tendrían algunos objetivos instrumentales preocupantes:

Autoconservación, porque es más probable que un sistema consiga sus objetivos si se mantiene vivo (en la memorable frase de Stuart Russell, “no puedes traer el café si estás muerto”).
Impedir cualquier cambio en los objetivos del sistema de IA, ya que cambiar sus objetivos llevaría a resultados diferentes de los que conseguiría con sus objetivos actuales.
Obtener poder, por ejemplo, consiguiendo más recursos y mayores capacidades.

Fundamentalmente, una forma clara en que la IA podría asegurarse de seguir existiendo (y de no ser apagada) y de que sus objetivos no cambien nunca sería ganar poder sobre los humanos que podrían afectarla (este artículo analiza cómo los sistemas de IA serían de hecho potencialmente capaces de hacerlo).

Es más, los sistemas de IA que estamos considerando tienen capacidades avanzadas, lo que significa que pueden realizar una o más tareas que otorgan a las personas un poder significativo cuando se realizan bien en el mundo actual. Con tales capacidades avanzadas, estos objetivos instrumentales no estarán fuera de su alcance y, como resultado, parece que el sistema de IA utilizaría sus capacidades avanzadas para obtener poder como parte de la ejecución del plan. Si no queremos que los sistemas de IA que desarrollemos nos arrebaten el poder, esta sería una forma de desalineación especialmente peligrosa.

En los escenarios más extremos, un sistema de IA planificador con capacidades suficientemente avanzadas podría quitarnos todo nuestro poder.

Como comprobación intuitiva (muy poco rigurosa) de este argumento, intentemos aplicarlo a los seres humanos.

Los humanos tienen una gran variedad de objetivos. Para muchos de estos objetivos, alguna forma de búsqueda de poder es ventajosa: aunque no todo el mundo busca poder, mucha gente lo hace (en forma de riqueza o estatus social o político), porque es útil para conseguir lo que quieren. Esto no es catastrófico (¡normalmente!) porque, como seres humanos:

Por lo general, nos sentimos obligados por las normas y la moral humanas (incluso las personas que realmente desean riqueza no suelen estar dispuestas a matar para conseguirla).
No somos mucho más capaces o inteligentes que los demás. Así que incluso las personas que no se ven cohibidas por la moral son incapaces de dominar el mundo.

(Discutiremos si los humanos son verdaderamente agentes que buscan poder más adelante.)

Una IA suficientemente avanzada no tendría esas limitaciones.

Podría ser difícil encontrar formas de prevenir este tipo de desalineación

El objetivo de todo esto no es decir que cualquier sistema de IA planificador avanzado intentará necesariamente buscar poder. Más bien, se trata de señalar que, a menos que encontremos una manera de diseñar sistemas que no tengan este defecto, nos enfrentaremos a un riesgo significativo.

Parece más que plausible que podamos crear un sistema de IA que no esté desalineado de esta manera, y así evitar cualquier situación de pérdida de poder. He aquí algunas estrategias que podríamos adoptar (además de, por desgracia, algunas razones por las que podrían ser difíciles en la práctica):⁠ak

Controlar los objetivos del sistema. Podemos diseñar sistemas que simplemente no tengan objetivos a los que se aplique el argumento anterior y, por tanto, no incentiven el comportamiento de búsqueda de poder. Por ejemplo, podríamos encontrar formas de instruir explícitamente a los sistemas de IA para que no dañen a los humanos, o encontrar formas de recompensar a los sistemas de IA (en entornos de entrenamiento) por no participar en tipos específicos de comportamiento de búsqueda de poder (y también encontrar formas de garantizar que este comportamiento continúe fuera del entorno de entrenamiento).

Carlsmith da dos razones por las que hacer esto parece especialmente difícil.

En primer lugar, en el caso de los sistemas modernos de AA, no podemos establecer explícitamente los objetivos de un sistema, sino que recompensamos (o castigamos) a un sistema en un entorno de entrenamiento para que aprenda por sí mismo. Esto plantea una serie de dificultades, una de las cuales es la generalización impropia de objetivos. Los investigadores han descubierto ejemplos reales de sistemas que parecen haber aprendido a perseguir un objetivo en el entorno de entrenamiento, pero luego no consiguen generalizar ese objetivo cuando operan en un nuevo entorno. Esto plantea la posibilidad de que podamos pensar que hemos entrenado con éxito a un sistema de IA para que no busque poder, pero que, sin embargo, el sistema busque poder cuando se lo despliegue en el mundo real.⁠2

En segundo lugar, cuando especificamos un objetivo para un sistema de IA (o, en aquellos casos en que no podemos hacerlo explícitamente, cuando buscamos formas de recompensar o castigar a un sistema durante el entrenamiento), solemos hacerlo dándole al sistema un sustituto con el que medir los resultados (por ejemplo, una respuesta humana positiva cuando el programa logra un cierto resultado), pero a menudo esos sustitutos no funcionan del todo bien.⁠3 En general, cabe esperar que, aunque parezca que un sustituto tiene una buena correlación con los resultados, puede que no sea así cuando se optimiza ese sustituto. (Los ejemplos anteriores de políticos, empresas y el brazo robótico que no consigue agarrar una pelota son ilustraciones de este fenómeno.) Podemos ver un ejemplo más concreto del modo en que los problemas con los sustitutos pueden llevar a una catástrofe existencial aquí.

Para más información sobre la dificultad específica de controlar los objetivos asignados a las redes neuronales profundas entrenadas mediante aprendizaje autosupervisado y aprendizaje por refuerzo, recomendamos el análisis de Richard Ngo, investigador de gobernanza de OpenAI, sobre el modo en que los procesos de entrenamiento realistas conducen al desarrollo de objetivos desalineados.
Controlar los datos de entrada del sistema de IA. Los sistemas de IA solo desarrollarán planes para buscar poder si tienen suficiente información sobre el mundo para darse cuenta de que buscar poder es, de hecho, una forma de alcanzar sus objetivos.
Controlar las capacidades del sistema de IA. Es probable que los sistemas de IA solo puedan llevar a cabo planes para buscar poder si tienen capacidades suficientemente avanzadas en lo relativo a habilidades que otorgan a las personas un poder significativo en el mundo de hoy.

Pero para que cualquier estrategia funcione, tendrá que satisfacer estos dos criterios:

Mantener la utilidad de los sistemas de IA, y de este modo seguir siendo económicamente competitiva frente a sistemas menos seguros. Está claro que controlar los datos de entrada y las capacidades de los sistemas de IA tendrá costos, por lo que parece difícil garantizar que estos controles, aun si se desarrollan, se utilicen en la práctica. Esto también es un problema para controlar los objetivos de un sistema. Por ejemplo, podríamos evitar el comportamiento de búsqueda de poder asegurándonos de que los sistemas de IA se detengan a consultar a los humanos sobre cualquier decisión que tomen. Pero estos sistemas podrían ser mucho más lentos y menos útiles que los sistemas que no se detienen a realizar estas comprobaciones. En consecuencia, podría seguir habiendo incentivos para utilizar un sistema desalineado más rápido e inicialmente más eficaz (veremos más sobre los incentivos en la siguiente sección).
Continuar funcionando a medida que la capacidad de planificación y la percepción estratégica de los sistemas mejoran con el tiempo. Algunas soluciones aparentemente simples (por ejemplo, intentar dar a un sistema una larga lista de cosas que no tiene permitido hacer, como robar dinero o dañar físicamente a los humanos) dejan de funcionar a medida que aumenta la capacidad de planificación de los sistemas. Esto se debe a que, cuanto mayor sea la capacidad de un sistema para desarrollar planes, más probable será que identifique lagunas o fallos en la estrategia de seguridad y, en consecuencia, más probable será que el sistema desarrolle un plan que conlleve la búsqueda de poder.

Tras analizar el estado de la investigación sobre este tema y hablar con expertos en la materia, creemos que actualmente no hay formas conocidas de construir sistemas de IA alineados que probablemente satisfagan estos dos criterios.

Este es el argumento principal. Hay muchas variantes de este argumento. Algunos han argumentado que los sistemas de IA podrían moldear gradualmente nuestro futuro a través de formas más sutiles de influencia que, sin embargo, podrían equivaler a una catástrofe existencial; otros argumentan que, de hecho, la forma más probable de pérdida de poder es simplemente que estos sistemas acaben con todos los seres humanos. No estamos seguros de qué catástrofe sería la más probable, pero hemos intentado articular el núcleo del argumento, tal y como lo vemos: que la IA presenta un riesgo existencial.

Sin duda, hay razones por las que este argumento podría no ser correcto. A continuación, repasamos algunas de las razones que nos parecen más sólidas. Pero, en general, parece posible que, al menos en el caso de algunos tipos de sistemas planificadores avanzados, sea más difícil construir sistemas que no busquen el poder de esta forma peligrosa que construir sistemas que tengan estas características.

La pérdida de poder a manos de los sistemas de IA sería una catástrofe existencial

Cuando decimos que nos preocupan las catástrofes existenciales, no nos preocupan solo los riesgos de extinción. Esto se debe a que la fuente de nuestra preocupación está arraigada en el largoplacismo: la idea de que las vidas de todas las generaciones futuras importan y que, por tanto, es extremadamente importante proteger sus intereses.

Esto significa que cualquier acontecimiento que pueda impedir que las generaciones futuras vivan vidas colmadas de lo que las hace valiosas (ya sea la felicidad, la justicia, la belleza o la prosperidad general) cuenta como una catástrofe existencial.

Parece extremadamente improbable que seamos capaces de recuperar el poder frente a un sistema que ha logrado arrebatárnoslo. Y como resultado, la totalidad del futuro —todo lo que ocurra a la vida de origen terrestre, por un tiempo indefinido— estaría determinado por los objetivos de sistemas que, a pesar de haber sido construidos por nosotros, no están alineados con nuestros intereses. Quizá esos objetivos creen un futuro largo y próspero, pero vemos pocos motivos para confiar en ello.⁠al

Esto no quiere decir que no pensemos que la IA también constituye un riesgo de extinción humana. De hecho, creemos que extinguir a los humanos es una forma muy verosímil en la que un sistema de IA podría garantizar de forma completa y permanente que nunca seamos capaces de recuperar el poder.

Es posible que se desplieguen sistemas de IA desalineados a pesar del riesgo que entrañan

Ciertamente, nadie desarrollaría o utilizaría una IA desalineada si supiera que podría tener consecuencias tan terribles, ¿no?

Por desgracia, hay al menos dos razones por las que alguien podría desarrollar y desplegar una IA desalineada, que analizaremos sucesivamente:⁠4

1. Podría pensarse que la IA está alineada cuando en realidad no es así

Imagina que hay un grupo de investigadores que intentan determinar, en un entorno de prueba, si un sistema que han construido está alineado. Hemos argumentado que una IA de planificación inteligente querrá mejorar sus capacidades para efectuar cambios en pos de su objetivo, y casi siempre es más fácil hacerlo si se despliega en el mundo real, donde hay disponible una gama mucho más amplia de acciones. Como resultado, cualquier IA desalineada que sea lo suficientemente sofisticada intentará entender lo que los investigadores quieren que haga y, al menos, fingirá estar haciendo eso, haciendo creer a los investigadores que está alineada. (Por ejemplo, un sistema de aprendizaje por refuerzo podría ser recompensado por cierto comportamiento aparente durante el entrenamiento, independientemente de lo que en realidad esté haciendo.)

Con suerte, seremos conscientes de este tipo de comportamiento y podremos detectarlo. Pero descubrir el engaño de una IA suficientemente avanzada parece potencialmente más difícil que descubrir a un humano mintiendo, lo cual no siempre es fácil. Por ejemplo, un sistema de IA suficientemente inteligente podría hacernos creer que hemos resuelto el problema del engaño de la IA, aunque no hayamos hecho tal cosa.

Si los sistemas de IA son buenos en el arte de engañar y tienen capacidades suficientemente avanzadas, una estrategia razonable para un sistema de este tipo podría ser engañar completamente a los humanos hasta que el sistema tenga una forma de garantizar que puede superar cualquier resistencia a sus objetivos.

2. Existen incentivos para desplegar los sistemas cuanto antes

También podríamos esperar que algunas personas con la capacidad de desplegar una IA desalineada siguieran adelante pese a cualquier señal de advertencia de desalineación que apareciera, debido a las dinámicas de carrera, que inducen a quienes intentan desarrollar una IA a querer ser los primeros en lograrlo.

Por ejemplo, si estás desarrollando una IA para mejorar la estrategia militar o política, es mucho más útil si ninguno de tus rivales tiene una IA igual de potente.

Estos incentivos se aplican incluso a las personas que intentan construir una IA con la esperanza de utilizarla para mejorar el mundo.

Por ejemplo, supongamos que has pasado años y años investigando y desarrollando un poderoso sistema de IA, y todo lo que quieres es utilizarlo para mejorar el mundo. Simplificando mucho las cosas, digamos que hay dos posibilidades:

Esta poderosa IA se alineará con tus objetivos benéficos, y transformarás la sociedad de una manera potencialmente radical y positiva.
La IA estará lo suficientemente desalineada como para tomar el poder y acabar para siempre con el control de la humanidad sobre el futuro.

Digamos que crees que hay un 90 % de probabilidades de que hayas conseguido construir una IA alineada. Pero dado que la tecnología suele desarrollarse a velocidades similares en toda la sociedad, hay altas probabilidades de que alguien más desarrolle pronto una IA poderosa. Y como crees que los demás son menos cautelosos o menos altruistas, crees que su IA solo tendrá una probabilidad del 80 % de estar alineada con buenos objetivos y una probabilidad del 20 % de provocar una catástrofe existencial. Y solo si tú llegas primero, tu IA más beneficiosa podrá ser dominante. Como resultado, puede que decidas seguir adelante con el despliegue de tu IA, aceptando el riesgo del 10 %.

4. Incluso si encontramos una forma de evitar que la IA busque poder, siguen existiendo riesgos

Hasta ahora hemos expuesto lo que una gran parte de los investigadores del campo⁠am consideran el principal riesgo existencial asociado a los posibles avances en la IA, que depende fundamentalmente de que una IA busque poder para alcanzar sus objetivos.

Si conseguimos evitar este comportamiento, habremos reducido sustancialmente el riesgo existencial.

Pero incluso si lo conseguimos, la IA podría plantear otros riesgos existenciales.

La IA podría empeorar la guerra

Nos preocupa que el conflicto entre grandes potencias también pueda constituir una amenaza sustancial para nuestro mundo, y parece probable que los avances de la IA cambien la naturaleza de la guerra: mediante las armas autónomas letales⁠an o mediante la automatización de la toma de decisiones.⁠ao

En algunos casos, la guerra entre grandes potencias podría volverse una amenaza existencial, por ejemplo, si el conflicto es nuclear. Es posible que la IA pueda exacerbar los riesgos de escalada nuclear, aunque también hay razones para pensar que la IA podría disminuir este riesgo.⁠ap

Por último, si un único actor produce sistemas de IA especialmente poderosos, podría considerarse que esto le da una ventaja estratégica decisiva. Por ejemplo, Estados Unidos puede producir una IA de planificación lo suficientemente inteligente como para garantizar que Rusia o China nunca puedan lanzar con éxito otra arma nuclear. Esto podría incentivar un primer ataque por parte de los rivales con el fin de evitar que estos planes desarrollados por la IA se pongan en marcha.

La IA podría utilizarse para desarrollar nuevas tecnologías peligrosas

Prevemos que los sistemas de IA contribuirán a aumentar el ritmo del progreso científico.⁠aq

Aunque esta automatización tendría ventajas evidentes (por ejemplo, el rápido desarrollo de nuevas medicinas), algunas formas de desarrollo tecnológico pueden suponer amenazas, incluso existenciales, para la humanidad. Esto podría ocurrir a través de la biotecnología⁠ar (para más información, véase nuestro artículo sobre prevención de pandemias catastróficas) o a través de alguna otra forma de tecnología peligrosa actualmente desconocida.⁠as

La IA podría potenciar gobiernos totalitarios

Un gobierno autoritario en posesión de IA podría automatizar completamente el control y la represión de sus ciudadanos, así como influir significativamente en la información a la que accede la población, lo que quizá imposibilitaría la coordinación de acciones contra un régimen de este tipo.⁠at

Si esto se convirtiera en una forma de verdadero totalitarismo estable, podría empeorar mucho la vida de la gente durante periodos de tiempo extremadamente largos, lo que lo convierte en un posible escenario especialmente aterrador derivado de la IA.

Otros riesgos asociados a la IA

También nos preocupan las siguientes cuestiones, aunque sabemos menos al respecto:

Amenazas existenciales que no resultan del comportamiento de búsqueda de poder de los sistemas de IA, sino como resultado de la interacción entre sistemas de IA. (Para constituir un riesgo, sin embargo, estos sistemas tendrían que estar desalineados en cierta medida.)
Otras formas desconocidas de emplear mal los sistemas de IA, especialmente las que podrían afectar significativamente a las generaciones futuras.
Otros errores morales cometidos en el diseño y uso de los sistemas de IA, especialmente si los futuros sistemas de IA merecen por sí mismos consideración moral. Por ejemplo, quizá desarrollemos (involuntariamente) sistemas de IA conscientes, que podrían entonces sufrir en grandes cantidades. Creemos que esto podría ser extremadamente importante, así que hemos escrito sobre ello en un perfil de problema aparte.

Entonces, ¿cuán probable es una catástrofe relacionada con la IA?

Es una pregunta muy difícil de responder.

No hay ejemplos del pasado que podamos utilizar para determinar la frecuencia de las catástrofes relacionadas con la IA.

Todo lo que tenemos son argumentos (como los que hemos ofrecido previamente) y datos de menor relevancia, como la historia de los avances tecnológicos. Y, desde luego, no estamos seguros de que los argumentos que hemos presentado sean completamente correctos.

Consideremos el argumento que ofrecimos antes específicamente sobre los peligros de los sistemas de IA que buscan poder, basado en el informe de Carlsmith. Al final de su informe, Carlsmith da algunas estimaciones aproximadas de las probabilidades de que cada etapa de su argumento sea correcta (en caso de que la etapa anterior también lo sea):

En 2070 será posible y económicamente viable construir sistemas con percepción estratégica capaces de superar a los humanos en muchas tareas que involucran la delegación de poder, y que pueden elaborar y llevar a cabo planes exitosamente: Carlsmith estima que hay un 65 % de probabilidades de que esto se cumpla.
Dada esta posibilidad, habrá fuertes incentivos para construir tales sistemas: 80 %.
Si se dan tanto la posibilidad de construir estos sistemas como los incentivos para ello, será mucho más difícil desarrollar sistemas alineados que no busquen poder que desarrollar sistemas desalineados que sí lo busquen, y cuyo despliegue resulte al menos superficialmente atractivo: 40 %.
Teniendo en cuenta todo lo anterior, algunos sistemas que hayan sido desplegados buscarán poder sin estar alineados, que causará daños por valor de más de 1 billón de dólares (en dólares de 2021): 65 %.
Dadas todas las premisas anteriores, los sistemas de IA desalineados que buscan poder acabarán por quitarle el poder básicamente a toda la humanidad: 40 %.
Dadas todas las premisas anteriores, esta pérdida de poder constituirá una catástrofe existencial: 95 %.

Multiplicando estas cifras, Carlsmith calcula que hay un 5 % de probabilidades de que su argumento sea correcto y se produzca una catástrofe existencial por un sistema de IA desalineado que busca poder para 2070. Cuando hablamos con Carlsmith, nos dijo que en el año transcurrido entre la redacción de su informe y la publicación de este artículo, su estimación general de la probabilidad de una catástrofe existencial provocada por un sistema de IA que busca poder para 2070 había aumentado y ahora es mayor al 10 %.⁠au

En opinión de Carlsmith, la probabilidad global de una catástrofe existencial provocada por la IA sería mayor, porque hay otras vías hacia una posible catástrofe, como las analizadas en la sección anterior, aunque creemos que es mucho menos probable que estas otras vías conduzcan a una catástrofe existencial.

Según otra estimación, en The Precipice, Toby Ord, filósofo y asesor de 80 000 Horas, calculó que hay un riesgo de catástrofe existencial de 1 entre 6 para 2120 (por cualquier causa) y que el 60 % de este riesgo proviene de una IA desalineada, lo que da un total de un 10 % de riesgo de catástrofe existencial por una IA desalineada para 2120.

Una encuesta realizada en 2021 a 44 investigadores que trabajaban en la reducción de los riesgos existenciales asociados a la IA reveló que la estimación media del riesgo era del 32,5 %; la respuesta más alta era del 98 % y la más baja, del 2 %.⁠av Obviamente, hay mucho sesgo de selección: la gente elige trabajar en la reducción de los riesgos asociados a la IA porque cree que es inusualmente importante, así que deberíamos esperar que las estimaciones de esta encuesta sean sustancialmente más altas que las de otras fuentes. Pero es evidente que existe una gran incertidumbre sobre la magnitud de este riesgo y una enorme variación en las respuestas.

Los altos valores de todas estas estimaciones son alarmantes y perturbadores. No estamos nada seguros de que todos los argumentos sean correctos. Pero, en general, son las estimaciones más altas del nivel de riesgo existencial de cualquiera de las cuestiones que hemos examinado (como las pandemias artificiales, el conflicto entre grandes potencias, el cambio climático o la guerra nuclear).

Dicho esto, creo que hay razones por las que es más difícil hacer conjeturas sobre los riesgos derivados de la IA que sobre otros riesgos; y quizá haya razones para pensar que las estimaciones que hemos citado antes exageren sistemáticamente el riesgo.

Si me viera obligado a cuantificar el riesgo, diría que es aproximadamente de un 1 %. Esta cifra incluye consideraciones tanto a favor como en contra del argumento. Estoy menos preocupado que otros miembros del personal de 80 000 Horas: nuestra posición como organización es que el riesgo oscila entre el 3 % y el 50 %.

Dicho esto, los argumentos a favor de una estimación tan elevada del riesgo existencial que implica la IA son persuasivos, lo que convierte a los riesgos derivados la IA en uno de los principales problemas a los que se enfrenta la humanidad.

5. Podemos reducir estos riesgos

Creemos que una de las cosas más importantes que se pueden hacer es ayudar a reducir los riesgos más graves que implica la IA.

Y no solo porque pensamos que estos riesgos son elevados, sino también porque creemos que hay cosas reales que podemos hacer para reducirlos.

Conocemos dos enfoques generales:

Investigación sobre seguridad técnica de la IA.
Investigación y aplicación de la gobernanza de la IA.

En ambos casos, hay muchas formas de contribuir. Las analizaremos con más detalle más adelante, pero en esta sección queremos ilustrar el hecho de que hay cosas que podemos hacer para atender a estos riesgos.

Investigación sobre seguridad técnica de la IA

Los beneficios de la IA transformadora podrían ser enormes, y hay muchos actores diferentes implicados (que operan en distintos países), lo que significa que probablemente será realmente difícil impedir su desarrollo por completo. (También es posible que no fuera una buena idea incluso si pudiéramos lograrlo; al fin y al cabo, eso significaría renunciar a los beneficios además de prevenir los riesgos.)

En consecuencia, creemos que tiene más sentido centrarse en garantizar que este desarrollo sea seguro, es decir, que tenga una alta probabilidad de evitar todos los fallos catastróficos enumerados anteriormente.

Una forma de hacerlo es intentar desarrollar soluciones técnicas para evitar el tipo de comportamiento de búsqueda de poder que discutimos previamente, lo que generalmente se conoce como trabajar en la seguridad técnica de la IA, a veces denominada simplemente “seguridad de la IA”.

Para más información acerca de la investigación sobre seguridad técnica de la IA, véase esta sección.

Investigación y aplicación de la gobernanza de la IA

Una segunda estrategia para reducir los riesgos derivados de la IA es encaminar su desarrollo a través de la política, la creación de normas y otros mecanismos de gobernanza.

Una buena gobernanza de la IA puede contribuir a la seguridad técnica, por ejemplo mediante acuerdos de seguridad entre empresas, o ayudando a los investigadores con talento de todo el mundo a trasladarse adonde puedan ser más eficaces. La gobernanza de la IA también podría ayudar con otros problemas que generan riesgos, como las dinámicas de carrera.

Pero también, como ya hemos visto, aunque consigamos que la IA haga lo que queremos (es decir, si logramos “alinearla”), ¡podríamos acabar eligiendo que haga algo que resulte malo! Así que tenemos que preocuparnos por los incentivos, no solo de los sistemas de IA, sino también de los actores humanos que los utilizan.

Para más información acerca de la investigación y la aplicación de la gobernanza de la IA, véase esta sección.

6. Este trabajo está muy desatendido

Estimamos que hay unas 400 personas en todo el mundo que trabajan directamente en reducir las probabilidades de una catástrofe existencial relacionada con la IA (con un intervalo de confianza del 90 % que oscila entre 200 y 1000). De ellas, alrededor de tres cuartas partes trabajan en la investigación de la seguridad técnica de la IA, mientras que el resto se divide entre la investigación sobre estrategia (y otras formas de gobernanza) y la promoción.⁠aw Creemos que hay unas 800 personas que trabajan en funciones complementarias, pero tenemos una gran incertidumbre sobre esta estimación.⁠ax

En The Precipice, Ord estimó que en 2020 se invirtieron entre $10 millones y $50 millones en reducir el riesgo asociado a la IA.

Eso puede parecer mucho dinero, pero estamos destinando algo así como 1 000 veces esa cantidad⁠ay a acelerar el desarrollo de la IA transformadora en grandes laboratorios de IA, a través de la investigación y la ingeniería centradas en las capacidades comerciales.

Para comparar los $50 millones invertidos en la seguridad de la IA en 2020 con otros casos de riesgos bien conocidos, actualmente estamos invirtiendo varios cientos de miles de millones al año en hacer frente al cambio climático.

Dado que este campo está tan desatendido y hay tanto en juego, creemos que el impacto de trabajar en los riesgos derivados de la IA podría ser mucho mayor que el de hacerlo en muchas otras áreas, por lo que nuestras dos principales carreras profesionales recomendadas para tener un impacto positivo en el mundo son la seguridad técnica de la IA y la investigación y aplicación de políticas relacionadas con la IA.

¿Qué argumentos en contra de que este problema sea apremiante nos parecen más convincentes?

Como hemos dicho antes, no estamos totalmente seguros de que los argumentos que hemos presentado para afirmar que la IA constituye una amenaza existencial sean correctos. Aunque seguimos pensando que la probabilidad de que la IA provoque una catástrofe es lo bastante alta como para justificar que mucha más gente siga carreras profesionales para intentar evitarlo, también queremos ser sinceros sobre los argumentos en contra de hacerlo, para que te resulte más fácil tomar tu propia decisión al respecto.

Aquí trataremos las razones más sólidas (en nuestra opinión) para pensar que este problema no es especialmente apremiante. En la siguiente sección trataremos algunas objeciones comunes que (en nuestra opinión) no se sostienen tan bien, y explicaremos por qué.

Puede que tengamos mucho tiempo para trabajar en este problema

Cuanto más tiempo tengamos antes de que se desarrolle la IA transformadora, menos apremiante será trabajar ahora para asegurarnos de que salga bien. Esto se debe a que el trabajo que otros realicen en el futuro podría ser mucho mejor o más relevante que el que nosotros podamos realizar ahora.

Además, si tardamos mucho en crear una IA transformadora, tendremos más tiempo para averiguar cómo hacerla segura. El riesgo parece mucho mayor si los desarrolladores de IA crean una IA transformadora en las próximas décadas.

Parece probable que la primera IA transformadora no se base en los métodos actuales de aprendizaje profundo. (AI Impacts ha documentado algunos argumentos para pensar que los métodos actuales no podrán producir una IA con inteligencia de nivel humano.) Esto podría implicar que algunas de nuestras investigaciones actuales acaben siendo inútiles (y también, dependiendo de qué método termine utilizándose, podría implicar que los argumentos a favor del riesgo sean menos preocupantes.)

Por otra parte, podríamos esperar que los avances en el desarrollo de la IA se produzcan en ráfagas. Anteriormente, en este campo han ocurrido varios inviernos de la IA: periodos de tiempo en los que la inversión, el interés y la investigación en materia de IA disminuyeron considerablemente. No está claro hasta qué punto es probable que veamos otro invierno de la IA, pero esta posibilidad debería hacernos pensar que desarrollar una IA transformadora podría llevar más tiempo de lo que cabría suponer. Cotra escribe sobre la posibilidad de un invierno de la IA en la cuarta parte de un informe que intenta pronosticar el desarrollo de la IA transformadora. Nuevas limitaciones en el ritmo de crecimiento de las capacidades de la IA, como la disponibilidad de datos de entrenamiento, también podrían implicar que hay más tiempo para trabajar en ello (Cotra habla de esto aquí).

En tercer lugar, las estimaciones de Cotra, Karnofsky y Davidson sobre cuándo tendremos una IA transformadora, que hemos examinado antes, fueron elaboradas por personas que ya esperaban que trabajar en la prevención de una catástrofe relacionada con la IA fuera potencialmente uno de los problemas más apremiantes del mundo. Como resultado, aquí hay un sesgo de selección: las personas que creen que la IA transformadora llegará relativamente pronto son también las que tienen incentivos para llevar a cabo investigaciones detalladas. (Dicho esto, si las investigaciones en sí mismas parecen sólidas, este efecto podría ser bastante pequeño.)

Por último, ninguna de las estimaciones de las que hemos hablado antes intentaba predecir cuándo podría producirse una catástrofe existencial. En su lugar, analizaban cuándo los sistemas de IA podrían ser capaces de automatizar todas las tareas que los humanos pueden hacer, o cuándo los sistemas de IA podrían transformar significativamente la economía. No es en absoluto seguro que los tipos de sistemas de IA capaces de transformar la economía vayan a ser los mismos sistemas planificadores avanzados que constituyen el núcleo del argumento de que los sistemas de IA podrían buscar poder. Los sistemas planificadores avanzados parecen ser particularmente útiles, por lo que hay al menos alguna razón para pensar que podrían ser los tipos de sistemas que acaben desarrollándose. Pero incluso si los sistemas de IA transformadores que se pronostican son sistemas planificadores avanzados, no está claro cuán capaces tendrían que ser para constituir una amenaza: es más que plausible suponer que los sistemas deban ser mucho más capaces para constituir una amenaza existencial sustancial que para transformar la economía. Esto implicaría que todas las estimaciones que hemos considerado anteriormente serían subestimaciones del tiempo que tenemos para trabajar en este problema.

Dicho esto, podría ser extremadamente difícil encontrar soluciones técnicas para evitar el comportamiento de búsqueda de poder; y, de ser así, centrarse en encontrar esas soluciones ahora parece extremadamente valioso.

En general, creemos que la IA transformadora es lo suficientemente probable en los próximos 10–80 años como para que claramente valga la pena (en términos de valor esperado) trabajar en esta cuestión ahora. Quizá las generaciones futuras se ocupen de ello y todo el trabajo que hagamos ahora sea en vano: ¡ojalá así sea! Pero tal vez no sea prudente correr ese riesgo.

La IA podría mejorar gradualmente con el tiempo

Si la mejor IA que tenemos mejora gradualmente con el tiempo (en lugar de que las capacidades de la IA se mantengan en un nivel bastante bajo durante un tiempo y luego aumenten súbitamente), es probable que acabemos teniendo “disparos de advertencia”: detectaremos formas de comportamiento desalineado en sistemas bastante débiles y podremos corregirlo antes de que sea demasiado tarde.

En este escenario gradual, tendríamos una mejor idea de la forma que podría adoptar una IA poderosa (por ejemplo, si se construirá utilizando las técnicas actuales de aprendizaje profundo, o algo totalmente distinto), lo que podría ayudar significativamente a la investigación sobre seguridad. La sociedad en su conjunto también prestará más atención a esta cuestión, a medida que los riesgos asociados a la IA se hagan más evidentes.

Así que si el desarrollo gradual de la IA parece más probable, el riesgo parece menor.

Pero no es seguro que el desarrollo de la IA vaya a ser gradual o, si lo es, lo suficientemente gradual como para que el riesgo sea notablemente menor. E incluso si el desarrollo de la IA es gradual, podría ser muy beneficioso disponer de planes y soluciones técnicas con suficiente antelación. Así que, en general, seguimos pensando que es muy valioso intentar reducir el riesgo ahora.

Si quieres saber más, puedes leer el trabajo de AI Impacts sobre argumentos a favor y en contra del progreso discontinuo (es decir, no gradual) en el desarrollo de la IA, y el de Toby Ord y Owen Cotton-Barratt sobre implicaciones estratégicas de un desarrollo más lento de la IA.

Puede que tengamos que resolver el problema de la alineación para que la IA sea útil

Hacer que algo tenga metas alineadas con los objetivos últimos de los diseñadores humanos y hacer que algo sea útil parecen problemas muy relacionados. Si es así, quizá la necesidad de hacer que la IA sea útil nos lleve a desarrollar únicamente IA alineada, en cuyo caso es probable que el problema de la alineación se resuelva por defecto.

Ben Garfinkel dio algunos ejemplos de esto en nuestro pódcast:

Puedes concebir un termostato como una IA muy simple que intenta mantener una habitación a cierta temperatura. El termostato tiene una lámina de metal que se expande cuando la habitación se calienta y corta la corriente cuando se alcanza una determinada temperatura. Este trozo de metal hace que el termostato actúe como si tuviera el objetivo de mantener la habitación a una temperatura determinada, pero también hace que sea capaz de alcanzar este objetivo (y, por tanto, que sea realmente útil).
Imagina que construyes un robot de limpieza con técnicas de aprendizaje por refuerzo, es decir, que estableces una condición específica para que el robot reciba una respuesta positiva. Podrías decir algo como: “Cuanto menos polvo haya en la casa, más positiva será la realimentación”. Pero si haces esto, el robot acabará haciendo cosas que no quieres, como destrozar un cojín para encontrar polvo en su interior. En vez de eso, probablemente haya que utilizar técnicas como las que están desarrollando quienes trabajan en la seguridad de la IA (cosas como ver a un humano limpiar una casa y dejar que la IA descubra las cosas a partir de ahí). De este modo, quienes desarrollen sistemas de IA estarán naturalmente incentivados para intentar que estén alineados (y que, por tanto, sean, en cierto sentido, seguros), a fin de que puedan hacer su trabajo.

Si de todos modos tenemos que resolver el problema de la alineación para crear sistemas de IA útiles, esto reduce significativamente las probabilidades de que tengamos sistemas de IA desalineados pero superficialmente útiles. Así, el incentivo para desplegar una IA desalineada sería mucho menor, lo que reduciría el riesgo para la sociedad.

Dicho esto, sigue habiendo motivos para preocuparse. Por ejemplo, parece que todavía podríamos ser vulnerables al problema del engaño por parte de la IA.

Y, como hemos argumentado, la alineación de la IA es solo una parte del problema general. Resolver el problema de la alineación no es lo mismo que eliminar por completo el riesgo existencial asociado a la IA, ya que la IA alineada también podría ser utilizada para fines nocivos, por ejemplo, por gobiernos autoritarios.

Podría tratarse de un problema extremadamente difícil de resolver

Como ocurre con muchos proyectos de investigación en sus fases tempranas, no sabemos hasta qué punto es difícil resolver el problema de la alineación u otros problemas de la IA que constituyen riesgos. Alguien podría creer que hay importantes riesgos asociados a la inteligencia artificial, pero ser pesimista sobre lo que el trabajo adicional en las áreas de investigación o de políticas podría conseguir y, por tanto, decidir no centrarse en ello.

Esta es, sin duda, una razón para considerar la posibilidad de trabajar en otra cosa: la solucionabilidad de un problema es una parte clave de nuestro modo de comparar los diferentes problemas globales. Por ejemplo, también nos preocupan mucho los riesgos de una pandemia, y puede que sea mucho más fácil resolver esa cuestión.

Dicho esto, pensamos que la importancia de lo que está en juego podría justificar que mucha gente trabajara para reducir el riesgo asociado a la IA, incluso si se piensa que hay escasas probabilidades de éxito. Habría que pensar que es extremadamente difícil reducir los riesgos asociados a la IA para llegar a la conclusión de que es mejor dejar que los riesgos se materialicen y que se produzca la catástrofe.

Al menos en lo que respecta a 80 000 Horas, queremos seguir intentando contribuir a la seguridad de la IA (por ejemplo, escribiendo perfiles como este), incluso si las probabilidades de éxito parecen escasas (aunque, de hecho, somos bastante optimistas).

Podríamos estar sobrestimando las probabilidades de que los sistemas estratégicos de IA intenten buscar poder

Hay algunas razones para pensar que el argumento central de que cualquier sistema planificador avanzado y con percepción estratégica buscará poder por defecto (que ofrecimos aquí) no es del todo correcto.⁠5

Para empezar, el argumento de que los sistemas avanzados de IA buscarán poder se basa en la idea de que los sistemas elaborarán planes para alcanzar objetivos. No estamos muy seguros de lo que esto significa y, en consecuencia, no estamos seguros de qué propiedades son realmente necesarias para que se produzca un comportamiento de búsqueda de poder, ni estamos seguros de que los sistemas que desarrollemos vayan a tener esas propiedades.

Nos encantaría ver un análisis más profundo de qué aspectos de la planificación se incentivan económicamente, y si esos aspectos parecen suficientes para que el argumento de la búsqueda de poder funcione.

Grace ha escrito más sobre la ambigüedad en torno a “cuánta orientación a objetivos se necesita para provocar un desastre”.
Es posible que solo unos pocos objetivos que pudieran tener los sistemas de IA conduzcan a una búsqueda de poder desalineada.

En su análisis de lo que se entiende por “objetivos”, Richard Ngo señala que solo se obtendrá un comportamiento de búsqueda de poder si el sistema tiene objetivos de los que pueda beneficiarse. Ngo sugiere que estos deben ser objetivos “a gran escala”. (Algunos han argumentado que, por defecto, deberíamos esperar que los sistemas de IA tengan objetivos “a corto plazo” que no lleven a un comportamiento de búsqueda de poder.)

Pero el hecho de que un sistema de IA planee hacerse con el poder depende de lo fácil que le resulte obtenerlo, porque cuanto más fácil le resulte a un sistema hacerse con el poder, más probabilidades de éxito tendrán los planes de búsqueda de poder, por lo que un buen sistema planificador tendría más probabilidades de elegirlos. Esto sugiere que será más fácil crear accidentalmente un sistema de IA que busque poder a medida que aumenten las capacidades de los sistemas.

Así que parece que todavía hay motivos para preocuparse, porque las capacidades de los sistemas de IA parecen estar aumentando rápidamente. Aquí hay dos consideraciones: si pocos objetivos conducen realmente a la búsqueda de poder, incluso tratándose de sistemas de IA bastante capaces, se reduce significativamente el riesgo y, por tanto, la importancia del problema. Pero también podría aumentar su solucionabilidad, ya que se demostraría que las soluciones podrían ser fáciles de encontrar (por ejemplo, la solución de nunca dar a los sistemas objetivos “a gran escala”), lo que lo volvería más valioso.
Más arriba argumentamos que podemos esperar que los sistemas de IA hagan cosas que parezcan instrumentalmente útiles en términos generales para su objetivo final, y que como resultado de ello podría ser difícil evitar que los sistemas de IA hagan este tipo de cosas.

Pero podemos encontrar ejemplos en los que la utilidad instrumental en términos generales de algo no parece afectar lo difícil que es evitar que suceda. Pensemos en un coche autónomo que solamente puede moverse si tiene el motor encendido. Para muchos objetivos posibles (aparte de, por ejemplo, encender la radio), parece que sería útil que el coche pudiera moverse, por lo que deberíamos esperar que encendiera el motor. Pero, a pesar de eso, quizá podamos entrenar el coche para que mantenga el motor apagado: por ejemplo, podemos darle una respuesta negativa cada vez que encienda el motor, aunque también le hayamos dado otros objetivos. Ahora imaginemos que mejoramos el coche para que su velocidad máxima sea mayor: esto aumenta enormemente el número de posibles secuencias de acciones que implican, como primer paso, encender el motor. En cierto sentido, esto parece aumentar la utilidad instrumental de encender el motor: hay más acciones posibles que el coche puede realizar, una vez que el motor está encendido, porque la gama de velocidades posibles a las que puede viajar es mayor. (No está claro si este sentido de “utilidad instrumental” es el mismo que el del argumento del riesgo, aunque parece tener cierta relación.) Pero no parece que este aumento de la utilidad instrumental de encender el motor incremente la dificultad de impedir que el coche lo encienda. Ejemplos sencillos como este ponen en duda la idea de que no seremos capaces de encontrar formas de impedir una acción por el mero hecho de que sea útil instrumentalmente. (Para más información sobre este ejemplo, véase la página 25 de la reseña de Garfinkel sobre el informe de Carlsmith.)
Está claro que los humanos son muy inteligentes, pero no está claro que sean perfectos optimizadores de objetivos. Por ejemplo, los humanos a menudo se enfrentan a algún tipo de angustia existencial sobre cuáles son sus verdaderos objetivos. E incluso si aceptamos que los humanos son un ejemplo de agente con percepción estratégica y capacidad de planificación, lo cierto es que los humanos no siempre buscan el poder. Es obvio que nos preocupamos por cosas básicas como la comida y la vivienda, y muchas personas hacen todo lo posible por conseguir más dinero, estatus, educación o incluso poder formal. Pero algunos humanos eligen no perseguir estos objetivos, y perseguirlos no parece correlacionarse con la inteligencia.

Sin embargo, esto no significa que el argumento de que habrá un incentivo para buscar poder sea erróneo. La mayoría de la gente tiene incentivos para obtener formas de influencia a través de la riqueza, el estatus, los ascensos, etc., y actúa en consecuencia. Y podemos explicar la observación de que los humanos no suelen buscar grandes cantidades de poder observando que no solemos encontrarnos en circunstancias que hagan que el esfuerzo valga la pena.

Por ejemplo, la mayoría de la gente no intenta fundar empresas de miles de millones de dólares: probablemente no lo conseguirán y costará mucho tiempo y esfuerzo. Pero aun así cruzarían la calle para recoger un cheque de mil millones de dólares.

El hecho de que muchos humanos no busquen poder en un grado extremo, junto con las incertidumbres sobre lo que realmente significa planificar para conseguir objetivos, sugiere que el argumento que ofrecimos en favor de que los sistemas avanzados de IA buscarán poder podría no ser del todo correcto. Y también sugieren que, si realmente hay un problema que resolver aquí, la investigación de la alineación para prevenir la búsqueda de poder en las IA podría, en principio, tener éxito.

Son buenas noticias. Pero por el momento, aparte de esperar que estemos equivocados sobre la existencia del problema, no sabemos cómo prevenir este comportamiento de búsqueda de poder.

Argumentos en contra de trabajar en el riesgo asociado a la IA para los cuales pensamos que hay respuestas sólidas

Acabamos de analizar las principales objeciones a trabajar en el riesgo asociado a la IA que consideramos más persuasivas. En esta sección, veremos las objeciones que nos parecen menos persuasivas y explicaremos por qué ello es así.

¿Es posible siquiera crear una inteligencia artificial general?

Desde los años cincuenta se viene diciendo que la inteligencia artificial más inteligente que los humanos está a la vuelta de la esquina. Pero aún no ha ocurrido.

Una de las razones podría ser que nunca ocurrirá. Algunos afirman que crear una inteligencia artificial general es fundamentalmente imposible. Otros creen que es posible, pero improbable que ocurra en la práctica, sobre todo con los métodos actuales de aprendizaje profundo.

En general, creemos que la existencia de la inteligencia humana demuestra que, en principio, es posible crear inteligencia artificial. Y, en nuestra opinión, la velocidad de los avances actuales no es algo que hubieran predicho quienes pensaban que nunca desarrollaríamos una IA poderosa y general.

Pero lo más importante es que la idea de que se necesitan sistemas de IA inteligentes totalmente generales para que exista un riesgo existencial sustancial es un error muy común.

El argumento que ofrecimos anteriormente se basaba en que los sistemas de IA son tan buenos o mejores que los humanos en un subconjunto de áreas: la planificación, la percepción estratégica y las áreas relacionadas con la búsqueda y la preservación del poder. Así que mientras se piense que todas estas cosas son posibles, el riesgo persiste.

E incluso si ninguna IA tiene todas estas propiedades, aun así hay formas en las que podríamos llegar a tener sistemas de IA “estrechos” que, juntos, serían capaces de arrebatarle el poder a la humanidad. Por ejemplo, podríamos tener una IA planificadora que desarrolle planes para una empresa, otro sistema de IA que mida datos sobre la empresa, otro sistema de IA que intente evaluar los planes de la primera IA prediciendo las ganancias que resultarán de cada uno de esos planes, y otros sistemas de IA que lleven a cabo tales planes (por ejemplo, automatizando la construcción y el funcionamiento de las fábricas). Considerado globalmente, este sistema en su conjunto tiene la capacidad de elaborar y llevar a cabo planes para alcanzar algún objetivo, y potencialmente también tiene capacidades avanzadas en áreas que le ayudan a buscar poder.

Es cierto que parece más fácil impedir que estos sistemas de IA “estrechos” busquen poder. Esto podría ocurrir si las capacidades que tienen las IA, incluso combinadas, no se suman para poder planificar la consecución de objetivos, o si la estrechez reduce el riesgo de que los sistemas desarrollen planes de búsqueda de poder (por ejemplo, si se construyen sistemas que solo pueden producir planes a muy corto plazo). También parece que ofrece otro punto de vulnerabilidad que permite a los humanos intervenir en caso de ser necesario: la coordinación de los distintos sistemas.

No obstante, el riesgo sigue existiendo, incluso en sistemas integrados por muchas IA que interactúan entre sí.

¿Por qué no podemos simplemente desconectar una IA peligrosa?

Puede que sea muy, muy difícil.

Impedir que las personas y las computadoras ejecuten software ya es increíblemente difícil.

Piensa en lo difícil que sería cerrar los servicios web de Google. Los centros de datos de Google tienen millones de servidores en 34 ubicaciones diferentes, muchos de los cuales ejecutan el mismo código. Y estos centros de datos son absolutamente cruciales para el balance financiero de Google, así que aunque Google podría decidir cerrar toda la empresa, probablemente no lo haría.

O pensemos en lo difícil que es deshacerse de los virus informáticos que se propagan de forma autónoma entre computadoras de todo el mundo.

En última instancia, pensamos que cualquier sistema de IA peligroso que busque poder intentará encontrar formas de no ser apagado, lo que hace más probable que nos encontremos en una de estas situaciones, más que en un caso en el que podamos simplemente desconectar una sola máquina.

Dicho esto, deberíamos intentar configurar el futuro de la IA de forma que podamos “desconectar” sistemas de IA potentes.

Quizá podamos desarrollar sistemas que nos permitan desconectarlos. Pero por el momento, no estamos seguros de cómo hacerlo.

Garantizar que podamos apagar los sistemas de IA potencialmente peligrosos podría ser una medida de seguridad desarrollada por la investigación de la seguridad técnica de la IA, o podría ser el resultado de un trabajo cuidadoso en el área de la gobernanza de la IA, como la planificación de esfuerzos coordinados para detener el software autónomo una vez que esté en funcionamiento.

¿No podríamos simplemente “poner en cuarentena” a cualquier sistema de IA potencialmente peligroso hasta que sepamos que es seguro?

Podríamos (¡y deberíamos!) intentarlo.

Si pudiéramos “poner en cuarentena” una IA avanzada exitosamente —es decir, encerrarla en un entorno de entrenamiento sin acceso al mundo real hasta estar seguros de que no causará daño— eso ayudaría enormemente a mitigar los riesgos asociados a la IA.

Pero hay algunas cosas que podrían dificultarlo.

Para empezar, es posible que solo necesitemos un fallo —como que una persona remueva la cuarentena o una vulnerabilidad de seguridad en el entorno de aislamiento de la que no nos hayamos percatado— para que el sistema de IA empiece a afectar al mundo real.

Además, esta solución no se adapta al desarrollo de las capacidades del sistema de IA. Esto se debe a que:

Es más probable que los sistemas más capaces puedan encontrar vulnerabilidades u otras formas de salir de la cuarentena (por ejemplo, amenazando o coaccionando a los humanos).
Los sistemas que son buenos planificando podrían intentar engañarnos para que los despleguemos.

Así que cuanto más peligroso sea el sistema de IA, menos probable es que se lo pueda poner en cuarentena. Eso es lo contrario de lo que querríamos de una buena solución a estos riesgos.

Si el sistema de IA fuera verdaderamente inteligente, sabría que no debe quitarnos el poder

Según ciertas definiciones de “verdaderamente inteligente” (por ejemplo, si la verdadera inteligencia incluyera una profunda comprensión de la moral y el deseo de actuar moralmente), probablemente sería así.

Pero si esa es tu definición de verdaderamente inteligente, entonces no son los sistemas verdaderamente inteligentes los que constituyen un riesgo. Como hemos argumentado antes, son los sistemas avanzados que pueden planificar y tener percepción estratégica los que constituyen un riesgo para la humanidad.

Con una percepción estratégica suficientemente avanzada, la excelente comprensión del mundo por parte de un sistema de IA bien podría abarcar una excelente comprensión de las creencias morales de las personas. Pero eso no es una razón de peso para pensar que un sistema así actuaría moralmente.

Por ejemplo, cuando aprendemos sobre otras culturas o sistemas morales, no necesariamente sentimos el deseo de acatar su moral. Un estudioso del sur de Estados Unidos antes de la Guerra de Secesión puede entender muy bien la justificación moral de la esclavitud por parte de los propietarios de esclavos del siglo XIX, pero es muy poco probable que defienda esta práctica.

Los sistemas de IA con una excelente comprensión de la moral humana podrían ser incluso más peligrosos que aquellos que no la alcanzaran: el sistema de IA podría actuar moralmente al principio como una forma de engañarnos para que pensemos que es seguro.

¿No es la IA actual el verdadero peligro, y no una especie de superinteligencia futurista?

No cabe duda de que la inteligencia artificial actual entraña peligros.

Por ejemplo, los datos utilizados para entrenar redes neuronales suelen contener sesgos ocultos. Esto significa que los sistemas de IA pueden aprender estos prejuicios, lo que puede conducir a comportamientos racistas y sexistas.

También hay otros peligros. Nuestras anteriores observaciones sobre la guerra nuclear explican una amenaza que no requiere que los sistemas de IA tengan capacidades especialmente avanzadas.

Pero no creemos que el hecho de que también existan riesgos derivados de los sistemas actuales sea una razón para no dar prioridad a la reducción de las amenazas existenciales de la IA, si son lo suficientemente graves.

Como ya hemos dicho, parece que los sistemas futuros —no necesariamente la superinteligencia o una inteligencia completamente general, pero sí los sistemas avanzados en sus capacidades de planificación y búsqueda de poder— podrían suponer una amenaza para la existencia de la humanidad en su conjunto. Y también parece moderadamente probable que produzcamos tales sistemas este siglo.

Es más, muchas de las investigaciones sobre seguridad técnica de la IA también son relevantes para resolver los problemas de los sistemas de IA existentes. Por ejemplo, algunas investigaciones se centran en garantizar que los modelos de AA hagan lo que queremos que hagan y sigan haciéndolo a medida que aumentan su tamaño y sus capacidades; otras investigaciones intentan averiguar cómo y por qué los modelos existentes toman las decisiones y realizan las acciones que observamos.

En consecuencia, al menos en el caso de la investigación técnica, la elección entre trabajar en las amenazas actuales o en los riesgos futuros se parece más a una elección entre solo garantizar la seguridad de los modelos actuales o, por el contrario, encontrar formas de garantizar la seguridad de modelos actuales que además sigan funcionando a medida que los sistemas de IA se vuelvan más complejos e inteligentes.

En última instancia, tenemos un tiempo limitado en nuestras carreras profesionales, así que elegir en qué problema trabajar podría ser una forma de aumentar nuestro impacto enormemente. Cuando existen amenazas tan importantes, parece razonable que muchas personas se centren en los peores escenarios posibles.

¿Pero la IA no puede hacer también mucho bien?

Sí, puede.

Los sistemas de IA ya están mejorando la atención médica, poniendo coches sin conductor en las carreteras y automatizando las tareas domésticas.

Y si somos capaces de automatizar los avances en ciencia y tecnología, podríamos ver un progreso económico y científico realmente increíble. La IA podría ayudar a resolver muchos de los problemas más apremiantes del mundo.

Pero que algo pueda hacer mucho bien no significa que no pueda hacer mucho mal. La IA es un ejemplo de tecnología de doble uso, es decir, una tecnología que puede utilizarse para fines tanto peligrosos como beneficiosos. Por ejemplo, los investigadores consiguieron que un modelo de IA que había sido entrenado para desarrollar fármacos médicos generara diseños de armas biológicas.

Estamos entusiasmados y esperanzados por los enormes beneficios que la IA podría ofrecer. Pero también queremos trabajar duro para minimizar los enormes riesgos que plantean los sistemas avanzados de IA.

¿Por qué no debería descartar esto como un razonamiento motivado por un grupo de personas a las que simplemente les gusta jugar con las computadoras y quieren pensar que eso es importante?

Es indudable que a algunas personas les atrae la seguridad de la IA porque les gustan las computadoras y la ciencia ficción; como ocurre con cualquier otro tema, hay gente que trabaja en ello no porque piense que es importante, sino porque le parece atractivo.

Pero, para mucha gente, trabajar en la seguridad de la IA va acompañado de una gran reticencia.

Para mí, y para muchos de nosotros en 80 000 Horas, dedicar nuestro tiempo y recursos limitados a trabajar en cualquier causa relacionada con el futuro a largo plazo —y, por tanto, no dedicar ese tiempo a los terribles problemas del mundo actual— es algo increíblemente difícil desde el punto de vista emocional.

Pero poco a poco hemos investigado estos argumentos (al intentar averiguar cómo podemos hacer el mayor bien posible) y, con el tiempo, hemos ido adquiriendo más conocimientos sobre la IA y nos hemos preocupado más por el riesgo.

Creemos que el escepticismo es saludable y no estamos nada seguros de que estos argumentos funcionen. Así que, aunque esta sospecha es definitivamente una razón para profundizar un poco más, esperamos que, en última instancia, esta preocupación no se trate como una razón para quitar prioridad a lo que bien podría ser el problema más importante de nuestro tiempo.

Todo esto parece ciencia ficción

Que algo suene a ciencia ficción no es razón suficiente para descartarlo de plano. Hay montones de ejemplos de cosas que se mencionan por primera vez en la ciencia ficción y que luego se han hecho realidad (esta lista de inventos de la ciencia ficción incluye muchos ejemplos).

Incluso hay algunos casos en los que la tecnología es una amenaza existencial real:

En su novela de 1914 The World Set Free, H. G. Wells predijo que la energía atómica alimentaría potentes explosivos, 20 años antes de que nos diéramos cuenta de que, en teoría, podría haber reacciones nucleares de fisión en cadena, y 30 años antes de que se fabricara la primera arma nuclear. En las décadas de 1920 y 1930, físicos galardonados con el Premio Nobel como Millikan, Rutherford y Einstein predijeron que nunca podríamos utilizar la energía nuclear. Las armas nucleares fueron literalmente ciencia ficción antes de ser realidad.
En la película Dr. Insólito (1964), la Unión Soviética construye una máquina del día del juicio final que desencadenaría automáticamente un evento nuclear de nivel de extinción en respuesta a un ataque nuclear, pero la mantiene en secreto. El Dr. Insólito señala que mantenerla en secreto reduce bastante su efecto disuasorio. Pero ahora sabemos que en la década de 1980 la URSS construyó un sistema extremadamente similar… y lo mantuvo en secreto.

Además, hay académicos e investigadores de primera línea trabajando en la prevención de estos riesgos asociados a la IA: en el MIT, en Cambridge, en Oxford, en Berkeley, y en otros lugares. Dos de los laboratorios de IA más importantes del mundo (DeepMind y OpenAI) tienen equipos dedicados explícitamente a trabajar en la seguridad técnica de la IA. Investigadores de estos centros nos han ayudado con este artículo.

Es totalmente posible que todas estas personas estén cometiendo un error al preocuparse, pero el hecho de que tanta gente se tome en serio esta amenaza socava la idea de que se trata simplemente de ciencia ficción.

Es razonable que cuando uno oye algo que suena a ciencia ficción quiera investigarlo a fondo antes de actuar en consecuencia. Pero una vez investigado, si los argumentos parecen sólidos, el mero hecho de que suenen a ciencia ficción no es motivo para descartarlos.

¿Tiene sentido dedicar mi carrera profesional a resolver un problema que se basa en un relato especulativo sobre una tecnología que tal vez jamás exista?

Nunca sabemos con certeza lo que va a ocurrir en el futuro. Así que, por desgracia para nosotros, si intentamos tener un impacto positivo en el mundo, eso significa que siempre tenemos que lidiar con al menos cierto grado de incertidumbre.

También creemos que hay una distinción importante entre garantizar que se ha conseguido algo bueno y hacer lo mejor que se pueda. Para conseguir lo primero, no se puede correr ningún riesgo, lo que podría significar perder las mejores oportunidades de hacer el bien.

Ante una situación de incertidumbre, tiene sentido pensar en el valor esperado de nuestras acciones: la suma de todas las posibles consecuencias buenas y malas de nuestras acciones, ponderadas por su probabilidad.

Puesto que hay mucho en juego y que los riesgos asociados a la IA no son tan bajos, el valor esperado de ayudar a resolver este problema es alto.

Comprendemos la preocupación de que si se trabaja en la seguridad de la IA, se pueda acabar haciendo muy poco, cuando se podría haber hecho mucho bien trabajando en otra cosa, simplemente porque el problema y nuestras ideas actuales sobre qué hacer al respecto son muy inciertas.

Pero creemos que el mundo estará mejor si decidimos que algunos de nosotros trabajemos para resolver este problema, de modo que juntos tengamos la mejor oportunidad de navegar con éxito la transición a un mundo con IA avanzada en lugar de arriesgarnos a sufrir una catástrofe existencial.

Y parece que intentar esto es algo inmensamente valioso.

¿Es esto una forma de asalto de Pascal: apostar por una recompensa enorme con probabilidades minúsculas?

El asalto de Pascal es un experimento mental —una versión de la famosa apuesta de Pascal— en el que alguien que toma decisiones utilizando cálculos de valor esperado puede ser manipulado mediante propuestas para conseguir algo extraordinariamente bueno (o evitar algo extraordinariamente malo) con una probabilidad de éxito extremadamente baja.

La historia es la siguiente: un asaltante cualquiera te para por la calle y te dice: “Dame tu billetera o te lanzaré un hechizo de tortura a ti y a todos los que han vivido alguna vez”. No puedes descartar con un 100 % de probabilidad que no lo hará: después de todo, nada es 100 % seguro. Y torturar a todos los que han vivido alguna vez es tan malo que seguramente evitar siquiera una pequeñísima probabilidad de que eso ocurra vale los $40 que llevas en la billetera. Pero intuitivamente parece que no deberías darle tu cartera a alguien solamente porque te amenace con algo completamente inverosímil.

Análogamente, podría preocuparte que trabajar en la seguridad de la IA signifique donar tu valioso tiempo para evitar una pequeñísima probabilidad de catástrofe. Trabajar para reducir los riesgos asociados a la IA no es gratis: el costo de oportunidad es bastante sustancial, ya que significa renunciar a trabajar en otras cosas extremadamente importantes, como reducir los riesgos de pandemias o acabar con la cría intensiva de animales.

Sin embargo, la cuestión es la siguiente: aunque hay mucho valor en juego —quizás las vidas de todos los que viven hoy y todo el futuro de la humanidad—, no es cierto que la probabilidad de que puedas cambiar las cosas trabajando en la reducción de los riesgos asociados a la IA sea lo suficientemente pequeña como para que se aplique este argumento.

Desearíamos que la probabilidad de una catástrofe derivada de la IA fuera tan extremadamente pequeña.

En cambio, pensamos que la probabilidad de una catástrofe de este tipo (en mi opinión, en torno al 1 % este siglo) es mucho, mucho mayor que cosas que la gente intenta evitar todo el tiempo, como los accidentes de avión mortales, que ocurren en el 0,00002 % de los vuelos.

Sin embargo, lo que realmente importa es hasta qué punto tu trabajo puede reducir las probabilidades de que se produzca una catástrofe.

Veamos qué impacto tendría trabajar para reducir los riesgos asociados a la IA. Por ejemplo, si se aceptan estas premisas:

Hay un 1 % de probabilidades de que se produzca una catástrofe existencial relacionada con la IA en 2100.
Hay un 30 % de probabilidades de que podamos encontrar una manera de evitarlo mediante la investigación técnica.
El trabajo de cinco personas en la seguridad técnica de la IA aumenta las probabilidades de resolver el problema en un 1 % de ese 30 % (es decir, en 0,3 puntos porcentuales).

Entonces, cada persona involucrada tiene una participación de 0,00006 puntos porcentuales en la prevención de esta catástrofe.

Otras formas de actuar de manera altruista implican probabilidades de magnitud similar.

Las probabilidades de que un activista voluntario influya en las elecciones presidenciales de EE. UU. se sitúan entre el 0,001 % y el 0,00001 %. Pero puedes justificar el trabajo en una campaña por el gran impacto que esperas tener en el mundo si gana tu candidato preferido.

Las probabilidades de éxito son aún menores en cosas como intentar reformar las instituciones políticas o trabajar en alguna investigación científica fundamental para desarrollar conocimientos que algún día puedan ayudar a curar el cáncer.

En general, como sociedad, es posible que seamos capaces de reducir la probabilidad de una catástrofe relacionada con la IA del 10 % (o más) a casi cero, lo que claramente valdría la pena para un grupo de personas, así que también tiene que valer la pena para los individuos.

No es razonable dejar de hacer ciencia fundamental porque cada investigador tiene una probabilidad baja de hacer el próximo gran descubrimiento, o dejar de esforzarnos por mantener la paz porque cualquier persona tiene una probabilidad baja de evitar la Tercera Guerra Mundial. Como sociedad, necesitamos personas que trabajen en estos grandes problemas, y quizá tú puedas ser una de ellas.

Qué puedes hacer en concreto para colaborar

Como hemos mencionado anteriormente, conocemos dos formas principales de contribuir a reducir los riesgos existenciales derivados de la IA:

Investigación sobre seguridad técnica de la IA.
Investigación y aplicación de estrategias y políticas relacionadas con la IA.

La mejor forma de colaborar sería seguir una carrera profesional en una de estas áreas o en un área de apoyo.

El primer paso es aprender mucho más sobre las tecnologías, los problemas y las posibles soluciones. Hemos recopilado algunas listas de nuestros recursos favoritos aquí, y nuestra principal recomendación es echar un vistazo al plan de estudios de alineación técnica de la IA del curso AGI Safety Fundamentals.

Si decides seguir una carrera profesional en este campo, te recomendamos que trabajes en una organización dedicada específicamente a este problema (aunque hay otras formas de ayudar además de trabajar en organizaciones existentes, como explicamos brevemente más abajo).

Seguridad técnica de la IA

Enfoques

Hay muchos enfoques sobre la seguridad técnica de la IA, entre ellos:

Aprendizaje extensible a partir de realimentación humana. Los ejemplos incluyen la amplificación iterada, la seguridad de la IA mediante el debate, el desarrollo de asistentes de IA que no estén seguros de nuestros objetivos y los aprendan interactuando con nosotros, y otras formas de hacer que los sistemas de IA entrenados con descenso de gradiente estocástico comuniquen con veracidad lo que saben.
Modelización de amenazas. Un ejemplo de este tipo de trabajo sería demostrar la posibilidad de (permitirnos estudiar) capacidades peligrosas, como sistemas de IA engañosos o manipuladores. Se puede leer un resumen en un artículo reciente de Google DeepMind. Este trabajo se divide en actividades que evalúan si un modelo tiene capacidades peligrosas (como el trabajo de ARC Evals en la evaluación de GPT-4), y actividades que evalúan si un modelo causaría daño en la práctica (como la investigación de Anthropic sobre el comportamiento de modelos de lenguaje a gran escala y este artículo sobre la generalización impropia de objetivos).
Investigación sobre interpretabilidad. Este tipo de trabajo consiste en estudiar por qué los sistemas de IA se comportan como lo hacen e intentar explicarlo en términos comprensibles para el ser humano. Por ejemplo, este artículo examina cómo aprende ajedrez AlphaZero, y este artículo estudia cómo encontrar conocimiento latente en modelos de lenguaje sin supervisión. Esta categoría incluye también la interpretabilidad mecanística; por ejemplo, Zoom in. Para más información, véase este artículo de síntesis, así como A transparency and interpretability tech tree de Hubinger y A longlist of theories of impact for interpretability de Nanda para una perspectiva general de cómo la investigación sobre interpretabilidad podría reducir el riesgo existencial asociado a la IA.
Otras investigaciones sobre el mal uso para reducir los riesgos de catástrofe causados por el mal uso de los sistemas. Hemos escrito más sobre esto en una sección previa. Por ejemplo, este trabajo incluye entrenar a las IA para que sean difíciles de utilizar con fines peligrosos. (Hay que tener en cuenta que hay muchas coincidencias con otros trabajos de esta lista.)
Investigación para hacer más robustas las redes neuronales. Este trabajo consiste en garantizar que el tipo de comportamiento que muestran las redes neuronales cuando se exponen a un conjunto de datos de entrada continúe cuando se encuentran con datos a los que no han estado expuestas previamente, para evitar que los sistemas de IA adopten un comportamiento inseguro. Véase la sección 2 de Unsolved problems in ML safety, de Dan Hendrycks y otros, para más información.
Esfuerzos para construir una IA cooperativa. Encontrar formas de asegurar que incluso si los sistemas de IA individuales parecen seguros, no produzcan malos resultados al interactuar con otros sistemas sociotécnicos. Para más información, véase Open problems in cooperative AI de Dafoe et al. o la Cooperative AI Foundation. Esto parece especialmente relevante para la reducción de “riesgos S”.
En términos más generales, existen algunos planes de seguridad unificados. Para más información, véase An overview of 11 proposals for building safe advanced AI, de Hubinger, o How might we align transformative AI if it’s developed very soon?, de Karnofsky.⁠6

Para más información, véase My overview of the AI alignment landscape.

Organizaciones clave

Laboratorios de IA de la industria que cuentan con equipos de seguridad técnica empírica o se centran por completo en la seguridad:

Anthropic es una empresa dedicada a la seguridad de la IA que trabaja en la creación de sistemas de IA interpretables y seguros. Se centra en la investigación empírica de la seguridad de la IA. Los cofundadores de Anthropic, Daniela y Dario Amodei, concedieron una entrevista sobre la organización en el pódcast del Future of Life Institute. En nuestro pódcast hablamos con Chris Olah, que dirige la investigación de Anthropic sobre interpretabilidad, y con Nova DasSarma, que trabaja en infraestructura de sistemas en Anthropic.
ARC Evals se dedica a evaluar si los sistemas de IA de vanguardia podrían plantear riesgos catastróficos para la civilización, incluyendo la investigación temprana y experimental para desarrollar técnicas y la evaluación de los sistemas producidos por Anthropic y OpenAI.
El Center for AI Safety es una organización sin ánimo de lucro dedicada a la investigación técnica y la promoción de la seguridad en la comunidad del aprendizaje automático.
FAR AI es una organización sin ánimo de lucro dedicada a la investigación que incuba y acelera programas de investigación que requieren demasiados recursos para el mundo académico, pero que aún no están listos para su comercialización, incluida la investigación sobre robustez antagónica, la interpretabilidad y el aprendizaje de preferencias.
Google DeepMind es probablemente el grupo de investigación más grande y conocido que trabaja para desarrollar inteligencia artificial general, y es famoso por su trabajo en la creación de AlphaGo, AlphaZero y AlphaFold. No se centra principalmente en la seguridad, pero tiene dos equipos de seguridad de la IA: el Scalable Alignment Team, centrado en la alineación de los sistemas de vanguardia existentes, y el Alignment Team, centrado en las apuestas de investigación para la alineación de los sistemas futuros.
OpenAI, fundado en 2015, es un laboratorio que trata de construir inteligencia artificial general que sea segura y beneficie a toda la humanidad. OpenAI es bien conocido por sus modelos de lenguaje como GPT-4. Al igual que DeepMind, no se centra principalmente en la seguridad, pero cuenta con un equipo de seguridad y otro de gobernanza. Jan Leike (jefe del equipo de alineación) tiene algunas entradas de blog sobre su manera de concebir la alineación de la IA.
Ought es un laboratorio de aprendizaje automático que desarrolla Elicit, un asistente de investigación de IA. Su objetivo es alinear el razonamiento intuitivo mediante el aprendizaje de los pasos del razonamiento humano, y dirigir el progreso de la IA para ayudar a evaluar la evidencia y los argumentos.
Redwood Research es una organización de investigación sobre seguridad de la IA, cuyo primer gran proyecto intentó asegurar que los modelos de lenguaje (como GPT-3) produjeran resultados que siguieran ciertas reglas con una probabilidad muy alta, con el fin de detectar modos de fallo demasiado infrecuentes como para que aparezcan en el entrenamiento estándar.

Laboratorios de seguridad de la IA teóricos y conceptuales:

El Alignment Research Center (ARC) intenta generar estrategias de alineación que puedan adoptarse hoy en la industria y, al mismo tiempo, puedan extenderse a futuros sistemas. Sus investigadores se centran en el trabajo conceptual, desarrollando estrategias que podrían funcionar para la alineación y que podrían ser direcciones prometedoras para el trabajo empírico, en lugar de realizar ellos mismos trabajo empírico sobre la IA. Su primer proyecto fue la publicación de un informe sobre la extracción de conocimiento latente, el problema de conseguir que los sistemas avanzados de IA digan honestamente lo que creen (o “creen”) sobre el mundo. En nuestro pódcast, entrevistamos a Paul Christiano, fundador de ARC, sobre su investigación (antes de que fundara ARC).
El Center on Long-Term Risk trabaja para abordar los riesgos más graves de la IA avanzada. Se centra en los conflictos entre sistemas de IA.
El Machine Intelligence Research Institute fue uno de los primeros grupos en preocuparse por los riesgos asociados a la inteligencia artificial a principios del presente siglo, y su equipo ha publicado varios artículos sobre cuestiones de seguridad y cómo resolverlas.
Algunos equipos de laboratorios comerciales también realizan un trabajo más teórico y conceptual sobre la alineación, como el trabajo de Anthropic sobre condicionamiento de modelos predictivos y el Causal Incentives Working Group de Google DeepMind.

La seguridad de la IA en el mundo académico (una lista muy poco exhaustiva; aunque el número de académicos centrados explícita y públicamente en la seguridad de la IA es reducido, es posible llevar a cabo investigaciones relevantes en un conjunto mucho más amplio de instituciones):

El Algorithmic Alignment Group del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, dirigido por Dylan Hadfield-Menell.
El Center for Human-Compatible AI de la Universidad de California en Berkeley, dirigido por Stuart Russell, se centra en la investigación académica para garantizar que la IA sea segura y beneficiosa para los humanos. (Nuestro pódcast con Stuart Russell examina su enfoque sobre la IA demostrablemente benéfica.)
El grupo de investigación de Jacob Steinhardt en el Departamento de Estadística de la Universidad de California en Berkeley.
El NYU Alignment Research Group dirigido por Sam Bowman.
El grupo de investigación de David Krueger en el Laboratorio de Aprendizaje Computacional y Biológico de la Universidad de Cambridge.
El Foundations of Cooperative AI Lab de la Universidad Carnegie Mellon.
El Future of Humanity Institute de la Universidad de Oxford tiene un grupo de investigación sobre seguridad de la IA.
El grupo de investigación Alignment of Complex Systems de la Universidad Carolina de Praga.

Si estás interesado en aprender más sobre la seguridad técnica de la IA como área de trabajo —por ejemplo, cuáles son las diferentes técnicas, las escuelas de pensamiento y los modelos de amenaza—, nuestra principal recomendación es que eches un vistazo al plan de estudios sobre alineación técnica de AGI Safety Fundamentals.

Aquí hay un enlace a una página en donde analizamos esta carrera con más detalle:

Evaluación de la investigación sobre seguridad técnica de la IA como carrera profesional.

Alternativamente, si buscas algo más concreto y progresivo (con muy poca información de carácter introductorio), echa un vistazo a esta guía detallada para seguir una carrera en alineación de la IA.

Es importante señalar que no es necesario ser un académico o un experto en IA o seguridad de la IA para contribuir a la investigación sobre seguridad de la IA. Por ejemplo, se necesitan ingenieros de software en muchos lugares que realizan investigación sobre seguridad técnica, y también destacamos otros roles más abajo.

Gobernanza y estrategia de la IA

Enfoques

Aparte de los problemas técnicos, nos enfrentamos a una serie de cuestiones de gobernanza, entre las que se incluyen:

Problemas de coordinación que aumentan los riesgos asociados a la IA (por ejemplo, podría haber incentivos para utilizar la IA en beneficio propio de formas que puedan causar daño, o dinámicas de carrera que reduzcan los incentivos para un desarrollo cuidadoso y seguro de la IA).
Riesgos de accidentes o de un mal uso de la IA que serían peligrosos incluso si fuéramos capaces de evitar comportamientos de búsqueda de poder (como se ha comentado más arriba).
Falta de claridad sobre cómo y cuándo exactamente podrían materializarse los riesgos asociados a la IA (en particular, de sistemas de IA que buscan poder).
Falta de claridad sobre los objetivos intermedios que podríamos perseguir y que, de alcanzarse, reducirían el riesgo existencial derivado de la IA.

Para abordar estos problemas, necesitamos una combinación de investigación y políticas.⁠7

Estamos en las primeras fases de la definición de este problema y de las formas más eficaces de abordarlo. Por eso es crucial que investiguemos más. Esto incluye investigaciones que sirvan para elaborar pronósticos sobre lo que cabe esperar que ocurra, e investigaciones de estrategia y política sobre las mejores formas de actuar para reducir los riesgos.

Pero además, a medida que la IA vaya teniendo un impacto cada vez mayor en nuestra sociedad, será crucial que los gobiernos y las empresas cuenten con las mejores políticas para dar forma a su desarrollo. Por ejemplo, los gobiernos podrían imponer acuerdos para no escatimar en seguridad, fomentar el trabajo de los investigadores menos propensos a causar daño o hacer que los beneficios de la IA se distribuyan de forma más equitativa. Así que, con el tiempo, podría ser fundamental abogar y presionar por una política adecuada en materia de IA, aunque todavía no sabemos qué políticas sería útil poner en práctica.

Organizaciones clave

Organizaciones de estrategia y política de la IA:

AI Impacts intenta encontrar respuestas a todo tipo de preguntas relevantes para el futuro de la IA, como “¿Qué probabilidades hay de que, cuando la IA alcance un nivel de rendimiento cercano al humano, se produzca un salto repentino en sus capacidades?“.
La AI Security Initiative del Center for Long-Term Cybersecurity de la Universidad de California en Berkeley.
El Centre for the Governance of AI (GovAI) se propone crear una comunidad global de investigación, dedicada a ayudar a la humanidad a llevar a cabo la transición hacia un mundo con IA avanzada. En nuestro pódcast hemos hablado con Ben Garfinkel, director en funciones de GovAI, sobre algunos puntos débiles de los argumentos clásicos sobre el riesgo asociado a la IA, así como con Allan Dafoe, presidente de GovAI y líder del equipo de estrategia y gobernanza a largo plazo de DeepMind, sobre los efectos desestabilizadores de la IA.
El Centre for Long-Term Resilience es un centro de estudios británico especializado en amenazas existenciales, incluidas las de la IA.
El Center for Security and Emerging Technology de Georgetown investiga los fundamentos de la IA (talento, datos y poder de cómputo). Se centra en cómo puede utilizarse la IA en la seguridad nacional. Escucha nuestro pódcast con Helen Toner, su Directora de Estrategia, para saber más.
El Centre for the Study of Existential Risk de la Universidad de Cambridge tiene un grupo que estudia la gobernanza de la IA.
Tanto DeepMind como OpenAI cuentan con equipos de políticas (escucha nuestro pódcast con miembros del equipo de políticas de OpenAI y nuestro pódcast con el jefe del equipo de gobernanza de DeepMind, Allan Dafoe).
El Future of Life Insitute promueve la conciencia sobre el riesgo asociado a la IA dentro de la comunidad académica y otorga becas para proyectos centrados en la seguridad de la IA.
El Future of Humanity Institute de la Universidad de Oxford cuenta con un grupo de investigación sobre macroestrategia que estudia el futuro de la IA y su contribución al riesgo existencial.
El Leverhulme Centre for the Future of Intelligence es un centro de investigación interdisciplinar de la Universidad de Cambridge centrado en las repercusiones de la IA en la humanidad.
Open Philanthropy otorga becas a organizaciones que trabajan en cuestiones altruistas. Como resultado, cuentan con equipos de investigación que estudian las cuestiones en las que se centran, incluido un equipo que estudia los riesgos potenciales de la IA avanzada. En nuestro pódcast, hablamos con Holden Karnofsky, entonces codirector general de Open Philanthropy, sobre su opinión acerca de los riesgos asociados a la IA. (Nota: Open Philanthropy es el mayor financiador de 80 000 Horas.)
El Institute for AI Policy and Strategy se centra en la gobernanza y la estrategia de la IA.

Si estás interesado en aprender más sobre la gobernanza de la IA, nuestra principal recomendación es que eches un vistazo al plan de estudios sobre gobernanza de AGI Safety Fundamentals.

Aquí hay un enlace a una página en donde analizamos esta carrera con más detalle:

Evaluación de la gobernanza y la coordinación de la IA como carrera profesional.

También hay que tener en cuenta que podría ser especialmente importante para quienes tengan las aptitudes personales adecuadas trabajar en estrategia y gobernanza de la IA en China.

Funciones complementarias (aunque cruciales)

Incluso en una organización de investigación, aproximadamente la mitad del personal realizará otras tareas esenciales para que la organización rinda al máximo y tenga impacto. Contar con personas de alto rendimiento en estas funciones es crucial.

Creemos que a menudo se subestima la importancia de estas funciones porque el trabajo es menos visible. Por eso hemos escrito varias evaluaciones de estas áreas, para ayudar a más personas a acceder a estas carreras profesionales y tener éxito, entre ellas:

Gestión de operaciones para ayudar a las organizaciones con impacto a crecer y funcionar con la mayor eficacia posible.
Gestión de investigación en una organización de investigación sobre seguridad de la IA.
Ser asistente ejecutivo de alguien que esté haciendo un trabajo realmente importante en materia de seguridad y gobernanza.
Otras funciones no técnicas en laboratorios líderes de IA.

Otras formas de colaborar

La seguridad de la IA es un gran problema y necesita la ayuda de personas que realicen actividades de diverso tipo.

En lugar de trabajar directamente en el problema, una forma importante de ayudar es trabajar en un puesto que dirija financiación o personal hacia el riesgo asociado a la IA. Hemos analizado algunas carreras profesionales en este sentido, entre ellas:

Fundar nuevos proyectos: en este caso, poner en marcha nuevas iniciativas destinadas a reducir los riesgos derivados de la IA avanzada.
Trabajar como asignador de fondos para financiar proyectos prometedores centrados en reducir el riesgo asociado a la IA.
Trabajar en funciones de comunicación.
Colaborar en la creación de comunidades de personas que trabajen en este problema. La comunidad más relevante es la propia comunidad de la seguridad de la IA, pero también podría tener impacto ayudar a construir la comunidad de personas que trabajan en los problemas más apremiantes del mundo (incluidos los riesgos asociados a la IA).

Todo esto puede salir mal, así que el primer paso es informarse bien sobre el tema.

También hay otras funciones técnicas además de la investigación sobre seguridad que podrían ayudar a contribuir, como:

Trabajar en seguridad de la información para evitar el mal uso, el robo o la manipulación de la IA (o de resultados de experimentos clave).
Convertirse en experto en hardware de IA como forma de dirigir el progreso de la IA en direcciones más seguras.

Puedes leer más sobre todas estas carreras profesionales —por qué creemos que son útiles, cómo acceder a ellas y cómo predecir si son adecuadas para ti— en nuestra página de evaluaciones de carreras profesionales.

Encuentra vacantes en nuestra bolsa de trabajo

Nuestra bolsa de trabajo ofrece oportunidades en gobernanza y en seguridad técnica de la IA.

Los mejores recursos para aprender más

A lo largo de este artículo te hemos ofrecido un gran número de recursos para obtener más información; a continuación te mostramos algunos de nuestros favoritos:

AI could defeat all of us combined y la serie de entradas del blog “el siglo más importante” de Holden Karnofsky, actual director de estrategia de la IA de Open Philanthropy, sostiene que, como resultado de la IA, el siglo XXI podría ser el más importante de la historia.
Por qué la alineación de la inteligencia artificial podría ser difícil con las técnicas modernas de aprendizaje profundo de Cotra, investigadora de Open Philanthropy, es una introducción amena a cómo los riesgos de sistemas de IA que buscan poder podrían materializarse con los métodos actuales de aprendizaje automático. Without specific countermeasures, the easiest path to transformative AI likely leads to AI takeover, también de Cotra, ofrece una descripción mucho más detallada de cómo podrían materializarse los riesgos (que recomendamos a las personas familiarizadas con el aprendizaje automático).
La colección de artículos AGI safety from first principles presenta el punto de vista de Richard Ngo, investigador de gobernanza en OpenAI, sobre cómo concebir los riesgos asociados a la inteligencia artificial general.
‘¿Es la inteligencia artificial que busca poder un riesgo existencial?’, de Joseph Carlsmith, investigador de Open Philanthropy, es un análisis profundo que discute exactamente cómo y por qué la IA podría ocasionar que la humanidad pierda todo su poder (pero, cuidado: ¡es incluso más largo que este artículo!). También está disponible como narración de audio. Para un resumen más breve, véase la charla sobre el mismo tema del propio Carlsmith.
Distinguishing AI takeover scenarios, de Sam Clarke y Sammy Martin, resume varias formas en las que la IA podría salir mal.
AI governance, de Allan Dafoe, investigador científico principal de DeepMind, explora las maneras en que la investigación sobre la gobernanza de la IA podría servir para generar cambios.
My overview of the AI alignment landscape, de Neel Nanda, resume las diferentes formas en que la investigación de la alineación técnica de la IA podría reducir el riesgo derivado de la IA.
An overview of 11 proposals for building safe advanced AI, de Evan Hubinger, analiza y evalúa técnicas plausibles para la alineación de la IA.
Pódcasts: el AI X-risk Research Podcast, en particular, el episodio 12 con Paul Christiano y el episodio 13 con Richard Ngo; ambos sirven como excelentes introducciones al riesgo existencial.

En el pódcast de 80 000 Horas, tenemos un número de entrevistas en profundidad con personas que trabajan activamente para dar forma positiva al desarrollo de la inteligencia artificial:

Paul Christiano sobre su visión de cómo la humanidad podría ceder progresivamente la toma de decisiones a los sistemas de IA.
Allan Dafoe sobre cómo preparar al mundo para la posibilidad de que la IA desestabilice la política global.
Richard Ngo, de OpenAI, analiza los modelos de lenguaje a gran escala y los esfuerzos para que el futuro sea bueno.
Ajeya Cotra, de Open Philanthropy, sobre la posibilidad de que accidentalmente les enseñemos a los modelos de IA cómo hacer para engañarnos.
Rohin Shah, de DeepMind, nos habla de cómo intentar escuchar con imparcialidad tanto a los catastrofistas como a los escépticos de la IA.
Tom Davidson, de Open Philanthropy, sobre la rapidez con la que la IA podría transformar el mundo.
Dario Amodei, de Anthropic, explica cómo convertirse en investigador de IA.
Miles Brundage, de OpenAI, explica cómo convertirse en investigador de estrategia de la IA.
Holden Karnofsky, cofundador de GiveWell y de Open Philanthropy, ha estado en tres de nuestros pódcasts, explicando:
- Cómo los sistemas de IA podrían tomar el control aunque no sean más inteligentes que los humanos (incluida una introducción a su libro en cuatro partes sobre el riesgo asociado a la IA).
- Cómo la filantropía puede tener el máximo impacto asumiendo grandes riesgos (incluido un debate sobre la labor de Karnofsky para influir positivamente en el desarrollo de la IA).
- Por qué este puede ser el siglo más importante.
¿Doctorado o programación? Caminos rápidos hacia la alineación de la IA como ingeniero de aprendizaje automático, según los ingenieros de AA Catherine Olsson y Daniel Ziegler.
Jan Leike (ahora jefe del equipo de alineación de OpenAI) explica cómo convertirse en investigador de alineación de aprendizaje automático.

Si quieres profundizar mucho más, el curso AGI safety fundamentals es un buen punto de partida. Hay dos cursos para elegir: alineación técnica de la IA o gobernanza de la IA. Si tienes una formación más técnica, puedes probar Intro to ML Safety, un curso del Center for AI Safety.

Y por último, aquí tienes algunas fuentes generales (más que artículos específicos) que quizá quieras explorar:

AI Alignment Forum, dirigido a investigadores que trabajan en seguridad técnica de la IA.
AI Impacts, un proyecto cuyo objetivo es mejorar la comprensión por parte de la sociedad de las posibles repercusiones de la inteligencia artificial de nivel humano.
La Alignment Newsletter, una publicación semanal con contenidos recientes relacionados con la alineación de la IA que cuenta con miles de suscriptores.
Import AI, boletín semanal sobre inteligencia artificial de Jack Clark (cofundador de Anthropic), leído por más de 10 000 expertos.
ChinAI Newsletter, de Jeff Ding, que ofrece traducciones semanales de escritos de pensadores chinos sobre el panorama de la IA en China.

Agradecimientos

Muchísimas gracias a Joel Becker, Tamay Besiroglu, Jungwon Byun, Joseph Carlsmith, Jesse Clifton, Emery Cooper, Ajeya Cotra, Andrew Critch, Anthony DiGiovanni, Noemi Dreksler, Ben Edelman, Lukas Finnveden, Emily Frizell, Ben Garfinkel, Katja Grace, Lewis Hammond, Jacob Hilton, Samuel Hilton, Michelle Hutchinson, Caroline Jeanmaire, Kuhan Jeyapragasan, Arden Koehler, Daniel Kokotajlo, Victoria Krakovna, Alex Lawsen, Howie Lempel, Eli Lifland, Katy Moore, Luke Muehlhauser, Neel Nanda, Linh Chi Nguyen, Luisa Rodríguez, Caspar Oesterheld, Ethan Pérez, Charlie Rogers-Smith, Jack Ryan, Rohin Shah, Buck Shlegeris, Marlene Staib, Andreas Stuhlmüller, Luke Stebbing, Nate Thomas, Benjamin Todd, Stefan Torges, Michael Townsend, Chris van Merwijk, Hjalmar Wijk y Mark Xu por la revisión de este artículo o por sus comentarios y conversaciones extremadamente perspicaces y útiles. (Esto no quiere decir que todos ellos estén de acuerdo con todo lo que hemos dicho aquí; de hecho, ¡hemos tenido muchos desacuerdos animados en los comentarios a este artículo!)

Preferencias de usuario

Preferencias de usuario

Prevenir una catástrofe relacionada con la inteligencia artificial

Resumen

Nuestra opinión general

Recomendado — máxima prioridad

Escala

Desatención

Solucionabilidad

Profundidad del perfil

1. Muchos expertos en IA consideran que existe una probabilidad no despreciable de que la IA conduzca a resultados tan malos como la extinción humana

2. Estamos haciendo avances en IA extremadamente rápido

Las tendencias actuales muestran un rápido progreso en las capacidades de los sistemas de AA

¿Para cuándo podemos esperar una IA transformadora?

3. Los sistemas de IA que buscan poder podrían convertirse en una amenaza existencial para la humanidad

Es probable que construyamos sistemas planificadores avanzados

Estos sistemas parecen técnicamente posibles y tendremos fuertes incentivos para crearlos

Es fácil que los sistemas planificadores avanzados estén peligrosamente “desalineados”

Por qué estos sistemas podrían (por defecto) estar peligrosamente desalineados

Podría ser difícil encontrar formas de prevenir este tipo de desalineación

La pérdida de poder a manos de los sistemas de IA sería una catástrofe existencial

Es posible que se desplieguen sistemas de IA desalineados a pesar del riesgo que entrañan

1. Podría pensarse que la IA está alineada cuando en realidad no es así

2. Existen incentivos para desplegar los sistemas cuanto antes

4. Incluso si encontramos una forma de evitar que la IA busque poder, siguen existiendo riesgos

La IA podría empeorar la guerra

La IA podría utilizarse para desarrollar nuevas tecnologías peligrosas

La IA podría potenciar gobiernos totalitarios

Otros riesgos asociados a la IA

Entonces, ¿cuán probable es una catástrofe relacionada con la IA?

5. Podemos reducir estos riesgos

Investigación sobre seguridad técnica de la IA

Investigación y aplicación de la gobernanza de la IA

6. Este trabajo está muy desatendido

¿Qué argumentos en contra de que este problema sea apremiante nos parecen más convincentes?

Puede que tengamos mucho tiempo para trabajar en este problema

La IA podría mejorar gradualmente con el tiempo

Puede que tengamos que resolver el problema de la alineación para que la IA sea útil

Podría tratarse de un problema extremadamente difícil de resolver

Podríamos estar sobrestimando las probabilidades de que los sistemas estratégicos de IA intenten buscar poder

Argumentos en contra de trabajar en el riesgo asociado a la IA para los cuales pensamos que hay respuestas sólidas

¿Es posible siquiera crear una inteligencia artificial general?

¿Por qué no podemos simplemente desconectar una IA peligrosa?

¿No podríamos simplemente “poner en cuarentena” a cualquier sistema de IA potencialmente peligroso hasta que sepamos que es seguro?

Si el sistema de IA fuera verdaderamente inteligente, sabría que no debe quitarnos el poder

¿No es la IA actual el verdadero peligro, y no una especie de superinteligencia futurista?

¿Pero la IA no puede hacer también mucho bien?

¿Por qué no debería descartar esto como un razonamiento motivado por un grupo de personas a las que simplemente les gusta jugar con las computadoras y quieren pensar que eso es importante?

Todo esto parece ciencia ficción

¿Tiene sentido dedicar mi carrera profesional a resolver un problema que se basa en un relato especulativo sobre una tecnología que tal vez jamás exista?

¿Es esto una forma de asalto de Pascal: apostar por una recompensa enorme con probabilidades minúsculas?

Qué puedes hacer en concreto para colaborar

Seguridad técnica de la IA

Enfoques

Organizaciones clave

Gobernanza y estrategia de la IA

Enfoques

Organizaciones clave

Funciones complementarias (aunque cruciales)

Otras formas de colaborar

Encuentra vacantes en nuestra bolsa de trabajo

Los mejores recursos para aprender más

Agradecimientos