Prevenir una catástrofe relacionada con la inteligencia artificial
¿Por qué los humanos, y no los chimpancés, controlan el destino del mundo?
Los humanos han transformado cada rincón de nuestro planeta. Los chimpancés, a pesar de ser bastante inteligentes en comparación con otros animales no humanos, no han hecho nada parecido.
Esto se debe (a grandes rasgos) a la inteligencia de los humanos.a
Las empresas y los gobiernos están gastando miles de millones de dólares al año en el desarrollo de sistemas de IA; y a medida que estos sistemas se vuelvan más avanzados, podrían (con el correr del tiempo) desplazar a los humanos de la posición de seres más inteligentes del planeta. Como veremos, están realizando progresos. Muy rápido.
Cuánto tardaremos exactamente en crear una inteligencia artificial que sea mejor que los humanos en la mayoría de las cosas es un tema de intenso debate. Pero parece probable que sea posible, y nuestra conjetura es que ocurrirá este siglo.
La observación de que es posible que la inteligencia humana sea superada este siglo no es un argumento riguroso o concluyente de que la inteligencia artificial vaya a ser un acontecimiento muy significativo, o de que sea una amenaza para la humanidad. Más adelante profundizaremos en esos argumentos.
Pero parece razonable afirmar que el potencial desarrollo de una inteligencia rival en la Tierra en un futuro cercano debería ser, al menos, motivo de preocupación.
¿Tendrán objetivos los sistemas que desarrollemos? Si es así, ¿qué objetivos tendrán?
¿Apoyarán los intentos de la humanidad por hacer el bien? ¿O podríamos perder el control sobre nuestro futuro y poner fin a la historia humana?
La respuesta honesta a estas preguntas es que no lo sabemos.
Pero no deberíamos quedarnos esperando sin hacer nada, con los dedos cruzados, contemplando estos desarrollos a la distancia. La inteligencia artificial podría cambiarlo todo radicalmente, por lo que contribuir a encaminar su progreso de forma adecuada podría ser lo más importante que podamos hacer.
Mi expectativa es que se producirán avances sustanciales en IA en las próximas décadas, incluso hasta alcanzar el punto de que las máquinas lleguen a superar a los humanos en muchas o en todas las tareas. Esto podría tener enormes beneficios, ayudando a resolver problemas globales actualmente insolubles, pero también podría plantear graves riesgos. Estos riesgos podrían surgir accidentalmente (por ejemplo, si no encontramos soluciones técnicas a los problemas de seguridad de los sistemas de IA) o deliberadamente (por ejemplo, si los sistemas de IA empeoran los conflictos geopolíticos). Creo que hay que seguir trabajando para reducir estos riesgos.
Algunos de estos riesgos asociados a la IA avanzada podrían ser existenciales, es decir, podrían causar la extinción humana o una pérdida de poder igual de permanente y grave para la humanidad.b Aún no se ha dado ninguna respuesta satisfactoria a las preocupaciones —analizadas más adelante— sobre cómo desarrollar e integrar en nuestra sociedad de forma segura esta tecnología transformadora que se aproxima rápidamente. Encontrar respuestas a estas preocupaciones es algo muy desatendido, y puede que sea tratable. Estimo que hay unas 400 personas en todo el mundo trabajando directamente en ello.c En consecuencia, la posibilidad de que se produzca una catástrofe relacionada con la IA puede ser el problema más apremiante del mundo y la mejor opción a la que podrían dedicarse quienes están en condiciones de contribuir a resolverlo.
Entre las opciones más prometedoras para contribuir a resolver este problema se encuentran la investigación técnica sobre cómo crear sistemas de IA seguros, la investigación estratégica sobre los riesgos concretos que podría plantear la IA y la investigación política sobre las formas en que las empresas y los gobiernos podrían mitigar estos riesgos. Si se desarrollan políticas valiosas, necesitaremos personas que las pongan en vigor y las apliquen. También hay muchas oportunidades de tener un gran impacto en una serie de roles complementarios, como la gestión de operaciones, el periodismo, ganar para donar, etc. Enumeramos algunos de estos roles más adelante.
Creemos que este es uno de los problemas más apremiantes del mundo.
Si resolviéramos este problema, ¿en qué medida mejoraría el mundo? Más información.
La IA tendrá un impacto múltiple y tiene el potencial de hacer mucho bien. Pero nos preocupa especialmente la posibilidad de que se produzcan resultados extremadamente malos, sobre todo una catástrofe existencial. Algunos expertos en el riesgo asociado a la IA creen que las probabilidades son tan bajas como el 0,5 %, mientras que otros piensan que son superiores al 50 %. Estamos abiertos a que cualquiera de los dos esté en lo cierto, y puedes ver más discusiones al respecto aquí. Mi estimación general es que el riesgo de una catástrofe existencial causada por la inteligencia artificial en 2100 se sitúa en torno al 1 %, aunque tal vez sea un poco mayor. Esto me ubica en el extremo menos preocupado del personal de 80 000 Horas: como organización, nuestra opinión es que el riesgo oscila entre el 3 % y el 50 %.
¿Cuántos recursos se dedican actualmente a tratar de resolver este problema? Más información.
En 2020 se gastaron alrededor de 50 millones de dólares en reducir los riesgos catastróficos asociados a la IA, mientras que se gastaron miles de millones en mejorar las capacidades de la IA.d Aunque estamos viendo una creciente preocupación por parte de los expertos en IA, estimo que todavía hay solo unas 400 personas que trabajan de forma directa en reducir las probabilidades de una catástrofe existencial relacionada con la IA (con un intervalo de confianza del 90 % que oscila entre 200 y 1 000).e De ellas, parece que alrededor de tres cuartas partes trabajan en la investigación de la seguridad técnica de la IA, mientras que el resto se divide entre la investigación sobre estrategia (y otras formas de gobernanza) y la promoción.f
Si duplicáramos el esfuerzo directo en este problema, ¿qué fracción del problema restante esperaríamos resolver? Más información.
Parece difícil avanzar en la prevención de una catástrofe relacionada con la IA, pero hay muchas vías para seguir investigando y el campo es muy joven. Así que creo que es moderadamente tratable, aunque no estoy muy seguro; de nuevo, las valoraciones sobre la tratabilidad de la seguridad de la IA varían enormemente.
En profundidad.g
¿Por qué creemos que reducir los riesgos asociados a la IA es una de las cuestiones más apremiantes de nuestro tiempo? En resumen, nuestras razones son las siguientes:
Vamos a tratar cada uno de estos puntos por separado; a continuación, consideraremos algunos de los mejores argumentos en contra, explicaremos cosas concretas que puedes hacer para contribuir y, por último, presentaremos algunos de los mejores recursos para aprender más sobre el tema.
En mayo de 2023, cientos de destacados científicos de la IA —y otras figuras notables— firmaron una declaración en la que afirmaban que mitigar el riesgo de extinción derivado de la IA debería ser una prioridad global.
Así que está bastante claro que al menos algunos expertos están preocupados.
Pero, ¿hasta qué punto? Y, ¿se trata solo de una opinión marginal?
Analizamos tres encuestas realizadas a investigadores de IA que publicaron en NeurIPS e ICML (dos de las conferencias de aprendizaje automático más prestigiosas): una de 2016, otra de 2019 y una tercera de 2022.j
Es importante señalar que podría haber un sesgo de selección considerable en encuestas como estas. Por ejemplo, se podría pensar que los investigadores que asisten a las principales conferencias sobre IA tienen más probabilidades de ser optimistas con respecto a la IA, porque han sido seleccionados para pensar que la investigación sobre IA tiene consecuencias positivas para el mundo. Por otro lado, se podría pensar que los investigadores que ya están preocupados por la IA tienen más probabilidades de responder a una encuesta en la que se les pregunte por estas preocupaciones.k
Dicho esto, he aquí lo que encontramos:
En las tres encuestas, el investigador mediano pensaba que las probabilidades de que la IA fuera “extremadamente buena” eran razonablemente altas: 20 % en la encuesta de 2016, 20 % en la de 2019 y 10 % en la de 2022.l
De hecho, los sistemas de IA ya están teniendo efectos positivos sustanciales: por ejemplo, en atención médica o en investigación académica.
Pero en las tres encuestas, el investigador mediano también estimó que había una probabilidad pequeña —y ciertamente no despreciable— de que la IA fuera “extremadamente mala (por ejemplo, que cause la extinción humana)”: un 5 % de probabilidad de resultados extremadamente malos en la encuesta de 2016, un 2 % en la de 2019 y un 5 % en la de 2022.m
En la encuesta de 2022, se les preguntó a los participantes específicamente sobre las probabilidades de una catástrofe existencial causada por los futuros avances de la IA y, de nuevo, más de la mitad de los investigadores pensaban que las probabilidades de una catástrofe existencial eran superiores al 5 %.n
Así pues, los expertos no se ponen de acuerdo sobre el grado en que la IA plantea un riesgo existencial, un tipo de amenaza a la que, según hemos argumentado, debe asignarse una enorme importancia moral.
Esto encaja con nuestra comprensión del estado de este campo de investigación. Tres de los principales laboratorios que desarrollan IA (DeepMind, Anthropic y OpenAI) también tienen equipos dedicados a resolver problemas de seguridad técnica que podrían, por las razones que exponemos más adelante, constituir una amenaza existencial para la humanidad.o
También hay varios grupos de investigación académica (en el MIT, en Oxford, en Cambridge, en la Universidad Carnegie Mellon y en la Universidad de California en Berkeley, entre otras universidades) centrados en estos mismos problemas de seguridad técnica de la IA.p
Es difícil saber exactamente qué conclusiones sacar de todo esto, pero estamos seguros de que no es una posición marginal en este campo pensar que existe un riesgo sustancial de resultados tan malos como una catástrofe existencial. Algunos expertos en la materia sostienen, sin embargo, que los riesgos son exagerados.
Aun así, ¿por qué adoptamos el punto de vista del grupo más preocupado? En pocas palabras, porque hay argumentos que nos parecen convincentes para afirmar que la IA podría suponer una amenaza existencial: argumentos que analizaremos paso a paso a continuación.
Es importante reconocer que el hecho de que muchos expertos reconozcan que existe un problema no significa que todo esté bien, ni que los expertos se estén ocupando de resolverlo. En general, creemos que este problema sigue estando muy desatendido, ya que solo unas 400 personas trabajan directamente en él en todo el mundo (más información al respecto más abajo).
Mientras tanto, se invierten miles de millones de dólares al año en desarrollar las capacidades de la AI.q
Antes de intentar averiguar cómo podría ser el futuro de la IA, es útil examinar lo que la IA puede hacer actualmente.
Las técnicas modernas de IA se basan en el aprendizaje automático (AA): modelos que mejoran automáticamente a partir de los datos que reciben. La forma más común de esta técnica utilizada hoy en día se conoce como aprendizaje profundo.
En la actualidad, los sistemas de AA solo pueden realizar una fracción muy pequeña de las tareas que pueden hacer los humanos, y (con algunas excepciones) solo dentro de especialidades estrechas (como jugar a un juego específico o generar un tipo particular de imagen).
Dicho esto, desde el uso cada vez más extendido del aprendizaje profundo a mediados de la década de 2010, se han producido enormes avances respecto de lo que se puede conseguir con el AA. He aquí una breve cronología de solo algunos de los avances que vimos de 2019 a 2022:
Si te pareces a nosotros, te habrá sorprendido la complejidad y generalidad de las tareas que estos sistemas son capaces de llevar a cabo.
Y si la tecnología sigue avanzando a este ritmo, parece claro que tendrá importantes efectos en la sociedad. Como mínimo, la automatización de tareas hace que llevarlas a cabo sea más barato. En consecuencia, podríamos asistir a un rápido aumento del crecimiento económico (quizá incluso al nivel que vimos durante la Revolución Industrial).
Si somos capaces de automatizar parcial o totalmente el avance científico podríamos ver cambios más transformadores en la sociedad y en la tecnología.s
Y tal vez esto recién empiece. Puede que consigamos que las computadoras acaben automatizando todo lo que los humanos pueden hacer. Esto parece posible, al menos en principio. Pues parece que, con suficiente potencia y complejidad, una computadora debería ser capaz de simular el cerebro humano. Esto sería en sí mismo una forma de automatizar todo lo que los humanos pueden hacer (aunque no sea el método más eficiente de lograrlo).
Como veremos en la próxima sección, hay indicios de que es posible una automatización a gran escala ampliando las técnicas existentes.
Hay tres cosas que son cruciales para crear una IA con tecnologías de aprendizaje automático:
Hablamos con Danny Hernandez, que en aquel momento era investigador científico del equipo Foresight de OpenAI. Hernández y su equipo analizaron la evolución de dos de estos dos insumos (el poder de cómputo y la eficiencia de los algoritmos).
Descubrieron que, desde 2012, la cantidad de poder de cómputo utilizada para el entrenamiento de los mayores modelos de IA ha aumentado exponencialmente, duplicándose cada 3,4 meses.
Es decir, desde 2012, la cantidad de poder de cómputo utilizada para entrenar nuestros modelos de aprendizaje automático más grandes ha crecido más de mil millones de veces.
Hernández y su equipo también analizaron cuánto poder de cómputo ha sido necesario para entrenar una red neuronal con un rendimiento equivalente al de AlexNet (uno de los primeros algoritmos de clasificación de imágenes).
Descubrieron que la cantidad de poder de cómputo requerida para el mismo rendimiento ha ido cayendo exponencialmente, reduciéndose a la mitad cada 16 meses.
Así, desde 2012, la cantidad de poder de cómputo necesaria para el mismo nivel de rendimiento se ha reducido en más de 100 veces. Combinado con el aumento del poder de cómputo utilizado, esto representa un crecimiento considerable.t
Es difícil decir si estas tendencias continuarán, pero dan muestras de increíbles avances en la última década en lo que es posible hacer con el aprendizaje automático.
De hecho, parece que el aumento del tamaño de los modelos (y de la cantidad de poder de cómputo utilizada para entrenarlos) introduce comportamientos cada vez más sofisticados. Esta es la razón por la que sistemas como GPT-3 son capaces de realizar tareas para las que no han sido entrenados específicamente.
Estas observaciones han dado lugar a la hipótesis del escalamiento: podemos construir redes neuronales cada vez más grandes y, como resultado, acabaremos teniendo una inteligencia artificial cada vez más potente, y esta tendencia de aumento de las capacidades puede llegar hasta la IA de nivel humano y más allá.
Si esto es cierto, podemos intentar predecir cómo aumentarán las capacidades de la tecnología de la IA a lo largo del tiempo simplemente observando a qué velocidad estamos aumentando la cantidad de poder de cómputo disponible para entrenar modelos.
Pero, como veremos, no es solo la hipótesis del escalamiento la que sugiere que podríamos acabar con una IA extremadamente potente relativamente pronto: otros métodos de predicción del progreso de la IA llegan a conclusiones similares.
Es difícil predecir con exactitud cuándo desarrollaremos una IA que, en términos esperados, sea enormemente transformadora para la sociedad (para bien o para mal); por ejemplo, automatizando todo el trabajo humano o cambiando drásticamente la estructura de la sociedad.w Pero aquí repasaremos algunos enfoques.
Una opción es encuestar a expertos. Los datos de la encuesta de 2019 a 300 expertos en IA implican que hay un 20 % de probabilidad de inteligencia artificial de nivel humano (que sería seguramente transformadora en este sentido) para 2036, un 50 % de probabilidad para 2060 y un 85 % para 2100.x Hay muchas razones para desconfiar de estas estimaciones,y pero lo tomamos como un dato a tener en cuenta.
Ajeya Cotra (investigadora de Open Philanthropy) intentó pronosticar cuándo surgiría una IA transformadora comparando el aprendizaje profundo moderno con el cerebro humano. El aprendizaje profundo implica el uso de una enorme cantidad de poder de cómputo para entrenar un modelo, antes de que ese modelo sea capaz de realizar alguna tarea. También existe una relación entre la cantidad de poder de cómputo utilizada para entrenar un modelo y la cantidad que el modelo utiliza cuando se ejecuta. Y, si la hipótesis del escalamiento es correcta, deberíamos esperar que el rendimiento de un modelo mejore previsiblemente a medida que aumenta el poder de cómputo utilizado. Así que Cotra utilizó diversos métodos (por ejemplo, estimar el poder de cómputo que utiliza el cerebro humano en diversas tareas) para calcular la cantidad de poder de cómputo necesaria para entrenar un modelo que, una vez ejecutado, pudiera realizar las tareas de mayor dificultad para el ser humano. A continuación, calculó cuándo la humanidad estaría en condiciones de pagar por ese poder de cómputo.
En la actualización de 2022 de las conclusiones de su informe, Cotra calcula que hay un 35 % de probabilidades de que la IA transformadora llegue en 2036, un 50 % en 2040 y un 60 % en 2050, y señala que estas estimaciones no son estables.z
Tom Davidson (también investigador de Open Philanthropy) escribió un informe para complementar el trabajo de Cotra. Intentó averiguar cuándo podríamos esperar ver una IA transformadora basándose únicamente en varios tipos de investigación que podrían ser propios de la IA transformadora (por ejemplo, desarrollar una tecnología que sea el objetivo final de un campo CTIM o demostrar conjeturas matemáticas difíciles) y cuánto tiempo ha tardado cada uno de estos tipos de investigación en completarse en el pasado, dada una cierta cantidad de financiación y esfuerzo para la investigación.
El informe de Davidson estima que, sobre la base de esta información solamente, se podría pensar que existe un 8 % de probabilidades de que se desarrolle una IA transformadora en 2036, un 13 % en 2060 y un 20 % en 2100. Sin embargo, Davidson no tiene en cuenta los avances reales de la IA desde que comenzó la investigación en la década de 1950, y señala que parece probable que la cantidad de esfuerzo que dedicamos a la investigación de la IA aumente a medida que la IA sea cada vez más relevante para nuestra economía. Por ello, Davidson considera que la IA transformadora se desarrollará antes de lo que cabría esperar a partir de sus estimaciones.
Holden Karnofsky, actual director de estrategia de la IA de Open Philanthropy, intentó resumir los resultados de todos estos enfoques. En su opinión, hay más de un 10 % de probabilidades de que veamos una IA transformadora en 2036, un 50 % en 2060 y un 66 % en 2100. Y estas suposiciones podrían ser conservadoras, ya que no tienen en cuenta que, en nuestra opinión, el progreso ha ido más rápido de lo previsto desde que se hicieron las estimaciones.
Método | Probabilidad de una IA transformadora para 2036 | Probabilidad de una IA transformadora para 2060 | Probabilidad de una IA transformadora para 2100 |
---|---|---|---|
Encuesta a expertos (Zhang et al., 2022) | 20 % | 50 % | 85 % |
Anclajes biológicos (Cotra, 2022) | 35 % | 60 % (para 2050) | 80 % (según el informe de 2020) |
Probabilidades a priori semiinformativas (Davidson, 2021) | 8 % | 13 % | 20 % |
Estimación general (Karnofsky, 2021) | 10 % | 50 % | 66 % |
En general, parece que la IA avanza rápidamente. Cada año se invierte más dinero y talento en este campo, y los modelos son cada vez más grandes y eficientes.
Incluso si la IA avanzara más despacio, nos preocuparía: la mayoría de los argumentos sobre los riesgos asociados a la IA (a los que nos referiremos más adelante) no dependen de este progreso acelerado. Sin embargo, la velocidad de estos avances recientes aumenta la urgencia de la cuestión.
(Es muy posible que estas estimaciones sean erróneas: más adelante veremos que la posibilidad de que tengamos mucho tiempo para trabajar en este problema es uno de los mejores argumentos en contra de que este problema sea apremiante.)
Hasta ahora hemos argumentado que esperamos que la IA sea una nueva tecnología importante y potencialmente transformadora.
También hemos visto algunas razones para pensar que estos sistemas de IA transformadores podrían desarrollarse este siglo.
Ahora abordaremos la cuestión principal: ¿por qué creemos que esto es tan importante?
Podría haber muchas razones. Si la IA avanzada será tan transformadora como lo parece, habrá muchas consecuencias importantes. Pero aquí vamos a explicar la cuestión que nos parece más preocupante: los sistemas de IA podrían plantear riesgos al buscar y obtener poder.
Argumentaremos que:
Pensando en cada paso, creo que hay algo así como un 1 % de probabilidades de que se produzca una catástrofe existencial en este siglo a causa de sistemas de IA que buscan el poder. Esta es mi estimación general del riesgo, que incorpora consideraciones del argumento a favor del riesgo (que es en sí mismo probabilístico), así como razones por las que este argumento podría ser incorrecto (algunas de las cuales discuto más abajo). Esto me sitúa en el extremo menos preocupado del personal de 80 000 Horas, cuyas opiniones en nuestra última encuesta oscilaron entre el 1 y el 55 %, con una mediana del 15 %.
Vamos a argumentar que los sistemas futuros con las siguientes tres propiedades podrían constituir una amenaza especialmente seria para la humanidad:1
Tienen objetivos y son buenos haciendo planes.
No todos los sistemas de IA tienen objetivos o hacen planes para alcanzarlos. Pero algunos sistemas (como algunas IA que juegan al ajedrez) pueden concebirse de este modo. Cuando hablamos de una IA que busca el poder, estamos considerando sistemas capaces de planificar relativamente avanzados, que tienen planes orientados a objetivos y que son capaces de llevarlos a cabo.
Tienen una excelente percepción estratégica.
Un sistema planificador particularmente bueno tendría una comprensión del mundo lo suficientemente buena como para darse cuenta de los obstáculos y oportunidades que pueden facilitar o dificultar sus planes, y responder a ellos en consecuencia. Siguiendo a Carlsmith, llamaremos a esta propiedad percepción estratégica, ya que permite a los sistemas elaborar estrategias de un modo más sofisticado.
Tienen capacidades muy avanzadas en relación con los sistemas actuales.
Para que estos sistemas tengan un efecto real en el mundo, necesitamos no solo que hagan planes, sino también que sean buenos en todas las tareas específicas necesarias para ejecutar esos planes.
Dado que nos preocupan los sistemas que intentan arrebatarle el poder a la humanidad, nos preocupan especialmente los sistemas de IA que podrían ser mejores que los humanos en una o más tareas que otorgan a las personas un poder significativo cuando se llevan a cabo con éxito en el mundo actual.
Por ejemplo, las personas que son muy buenas en persuasión y/o manipulación a menudo son capaces de obtener poder, por lo que una IA que sea buena en estas cosas también podría ser capaz de obtener poder. Otros ejemplos podrían incluir el acceso no autorizado a otros sistemas, las tareas dentro de la investigación científica y de ingeniería, así como la estrategia empresarial, militar o política.
Como hemos visto más arriba, ya hemos desarrollado sistemas que son muy buenos llevando a cabo tareas específicas.
También hemos creado sistemas planificadores rudimentarios, como AlphaStar, que juega hábilmente al juego de estrategia Starcraft, y MuZero, que juega al ajedrez, al shogi y al go.aa
No estamos seguros de que estos sistemas elaboren planes en busca de objetivos per se, porque no estamos seguros de qué significa exactamente “tener objetivos”. Sin embargo, dado que sistemáticamente planifican de formas que alcanzan objetivos, parece que tienen objetivos en algún sentido.
Además, algunos sistemas existentes parecen representar objetivos como parte de sus redes neuronales.ab
Dicho esto, la planificación en el mundo real (en contraposición con la planificación en los juegos) es mucho más compleja, y hasta la fecha no conocemos ningún ejemplo inequívoco de un sistema planificador orientado a objetivos o que muestre un alto grado de percepción estratégica.
Pero, como ya hemos dicho, esperamos ver nuevos avances en este siglo. Y creemos que es probable que estos avances produzcan sistemas con las tres propiedades anteriores.
Esto se debe a que creemos que existen incentivos especialmente fuertes (como el lucro) para desarrollar este tipo de sistemas. En resumen: porque ser capaz de planificar la consecución de un objetivo y ejecutar ese plan parece una forma especialmente poderosa y general de influir en el mundo.
Lograr que las cosas se hagan —ya sea que una empresa venda productos, una persona compre una casa o un gobierno desarrolle una política— casi siempre parece requerir estas habilidades. Un ejemplo sería asignar un objetivo a un sistema poderoso y esperar que lo consiga, en lugar de tener que guiarlo a cada paso. Así pues, parece probable que los sistemas planificadores sean extremadamente útiles (tanto económica como políticamente).ac
Y si los sistemas son extremadamente útiles, es probable que haya incentivos considerables para desarrollarlos. Por ejemplo, una IA que pudiera planificar las acciones de una empresa con el objetivo de aumentar sus beneficios (es decir, una IA encargada de la dirección general de una empresa) probablemente proporcionaría una riqueza significativa a las personas implicadas: un incentivo directo para desarrollar una IA de este tipo.
En consecuencia, si podemos desarrollar sistemas con estas propiedades (y todo indica que podremos hacerlo), parece probable que los desarrollemos.ae
Hay razones para pensar que este tipo de sistemas planificadores avanzados estarán desalineados. Es decir, intentarán hacer cosas que no queremos que hagan.af
Hay muchas razones por las que los sistemas podrían no tener el objetivo de hacer exactamente lo que queremos que hagan. Por un lado, no sabemos cómo dar a los sistemas los objetivos precisos que queremos utilizando técnicas modernas de AA (más detalles aquí).ag
Vamos a centrarnos específicamente en algunas razones por las que, por defecto, los sistemas podrían estar desalineados hasta el punto de desarrollar planes que pongan en peligro la capacidad de la humanidad para influir en el mundo, aun cuando no queremos que esa influencia se pierda.ah
¿Qué queremos decir con “por defecto”? Esencialmente, que a menos que tengamos éxito en una búsqueda activa de soluciones a algunos problemas (que podrían ser bastante difíciles de resolver), parece que crearemos una IA peligrosamente desalineada. (Hay razones por las que esta afirmación podría ser errónea, que discutimos más adelante.)
He aquí el argumento central de este artículo. Utilizaremos las tres propiedades mencionadas anteriormente: capacidad de planificación, percepción estratégica y capacidades avanzadas.
Para empezar, debemos darnos cuenta de que un sistema planificador que tiene un objetivo también desarrollará “objetivos instrumentales”: cosas que, de ocurrir, facilitarán la consecución de un objetivo general.
En nuestros planes utilizamos objetivos instrumentales todo el tiempo. Por ejemplo, un estudiante de bachillerato que planifica su carrera profesional puede pensar que ser admitido en la universidad le ayudará a conseguir un trabajo en el futuro. En este caso, “ser admitido en la universidad” sería un objetivo instrumental.
Un sistema de IA planificador lo suficientemente avanzado también incluiría objetivos instrumentales en sus planes generales.
Si un sistema de IA planificador también tiene suficiente percepción estratégica, será capaz de identificar hechos sobre el mundo real (incluyendo cosas que serían potencialmente un obstáculo para cualquier plan), y planificar en función de ellos. De manera crucial, estos hechos incluirían que el acceso a recursos (por ejemplo, dinero, poder de cómputo, influencia) y a mayores capacidades —es decir, formas de poder— abren nuevas maneras más eficaces de alcanzar objetivos.
Esto significa que, por defecto, los sistemas de IA de planificación avanzada tendrían algunos objetivos instrumentales preocupantes:
Fundamentalmente, una forma clara en que la IA podría asegurarse de seguir existiendo (y de no ser apagada) y de que sus objetivos no cambien nunca sería ganar poder sobre los humanos que podrían afectarla (este artículo analiza cómo los sistemas de IA serían de hecho potencialmente capaces de hacerlo).
Es más, los sistemas de IA que estamos considerando tienen capacidades avanzadas, lo que significa que pueden realizar una o más tareas que otorgan a las personas un poder significativo cuando se realizan bien en el mundo actual. Con tales capacidades avanzadas, estos objetivos instrumentales no estarán fuera de su alcance y, como resultado, parece que el sistema de IA utilizaría sus capacidades avanzadas para obtener poder como parte de la ejecución del plan. Si no queremos que los sistemas de IA que desarrollemos nos arrebaten el poder, esta sería una forma de desalineación especialmente peligrosa.
En los escenarios más extremos, un sistema de IA planificador con capacidades suficientemente avanzadas podría quitarnos todo nuestro poder.
Como comprobación intuitiva (muy poco rigurosa) de este argumento, intentemos aplicarlo a los seres humanos.
Los humanos tienen una gran variedad de objetivos. Para muchos de estos objetivos, alguna forma de búsqueda de poder es ventajosa: aunque no todo el mundo busca poder, mucha gente lo hace (en forma de riqueza o estatus social o político), porque es útil para conseguir lo que quieren. Esto no es catastrófico (¡normalmente!) porque, como seres humanos:
(Discutiremos si los humanos son verdaderamente agentes que buscan poder más adelante.)
Una IA suficientemente avanzada no tendría esas limitaciones.
El objetivo de todo esto no es decir que cualquier sistema de IA planificador avanzado intentará necesariamente buscar poder. Más bien, se trata de señalar que, a menos que encontremos una manera de diseñar sistemas que no tengan este defecto, nos enfrentaremos a un riesgo significativo.
Parece más que plausible que podamos crear un sistema de IA que no esté desalineado de esta manera, y así evitar cualquier situación de pérdida de poder. He aquí algunas estrategias que podríamos adoptar (además de, por desgracia, algunas razones por las que podrían ser difíciles en la práctica):ak
Controlar los objetivos del sistema. Podemos diseñar sistemas que simplemente no tengan objetivos a los que se aplique el argumento anterior y, por tanto, no incentiven el comportamiento de búsqueda de poder. Por ejemplo, podríamos encontrar formas de instruir explícitamente a los sistemas de IA para que no dañen a los humanos, o encontrar formas de recompensar a los sistemas de IA (en entornos de entrenamiento) por no participar en tipos específicos de comportamiento de búsqueda de poder (y también encontrar formas de garantizar que este comportamiento continúe fuera del entorno de entrenamiento).
Carlsmith da dos razones por las que hacer esto parece especialmente difícil.
En primer lugar, en el caso de los sistemas modernos de AA, no podemos establecer explícitamente los objetivos de un sistema, sino que recompensamos (o castigamos) a un sistema en un entorno de entrenamiento para que aprenda por sí mismo. Esto plantea una serie de dificultades, una de las cuales es la generalización impropia de objetivos. Los investigadores han descubierto ejemplos reales de sistemas que parecen haber aprendido a perseguir un objetivo en el entorno de entrenamiento, pero luego no consiguen generalizar ese objetivo cuando operan en un nuevo entorno. Esto plantea la posibilidad de que podamos pensar que hemos entrenado con éxito a un sistema de IA para que no busque poder, pero que, sin embargo, el sistema busque poder cuando se lo despliegue en el mundo real.2
En segundo lugar, cuando especificamos un objetivo para un sistema de IA (o, en aquellos casos en que no podemos hacerlo explícitamente, cuando buscamos formas de recompensar o castigar a un sistema durante el entrenamiento), solemos hacerlo dándole al sistema un sustituto con el que medir los resultados (por ejemplo, una respuesta humana positiva cuando el programa logra un cierto resultado), pero a menudo esos sustitutos no funcionan del todo bien.3 En general, cabe esperar que, aunque parezca que un sustituto tiene una buena correlación con los resultados, puede que no sea así cuando se optimiza ese sustituto. (Los ejemplos anteriores de políticos, empresas y el brazo robótico que no consigue agarrar una pelota son ilustraciones de este fenómeno.) Podemos ver un ejemplo más concreto del modo en que los problemas con los sustitutos pueden llevar a una catástrofe existencial aquí.
Para más información sobre la dificultad específica de controlar los objetivos asignados a las redes neuronales profundas entrenadas mediante aprendizaje autosupervisado y aprendizaje por refuerzo, recomendamos el análisis de Richard Ngo, investigador de gobernanza de OpenAI, sobre el modo en que los procesos de entrenamiento realistas conducen al desarrollo de objetivos desalineados.
Controlar los datos de entrada del sistema de IA. Los sistemas de IA solo desarrollarán planes para buscar poder si tienen suficiente información sobre el mundo para darse cuenta de que buscar poder es, de hecho, una forma de alcanzar sus objetivos.
Controlar las capacidades del sistema de IA. Es probable que los sistemas de IA solo puedan llevar a cabo planes para buscar poder si tienen capacidades suficientemente avanzadas en lo relativo a habilidades que otorgan a las personas un poder significativo en el mundo de hoy.
Pero para que cualquier estrategia funcione, tendrá que satisfacer estos dos criterios:
Mantener la utilidad de los sistemas de IA, y de este modo seguir siendo económicamente competitiva frente a sistemas menos seguros. Está claro que controlar los datos de entrada y las capacidades de los sistemas de IA tendrá costos, por lo que parece difícil garantizar que estos controles, aun si se desarrollan, se utilicen en la práctica. Esto también es un problema para controlar los objetivos de un sistema. Por ejemplo, podríamos evitar el comportamiento de búsqueda de poder asegurándonos de que los sistemas de IA se detengan a consultar a los humanos sobre cualquier decisión que tomen. Pero estos sistemas podrían ser mucho más lentos y menos útiles que los sistemas que no se detienen a realizar estas comprobaciones. En consecuencia, podría seguir habiendo incentivos para utilizar un sistema desalineado más rápido e inicialmente más eficaz (veremos más sobre los incentivos en la siguiente sección).
Continuar funcionando a medida que la capacidad de planificación y la percepción estratégica de los sistemas mejoran con el tiempo. Algunas soluciones aparentemente simples (por ejemplo, intentar dar a un sistema una larga lista de cosas que no tiene permitido hacer, como robar dinero o dañar físicamente a los humanos) dejan de funcionar a medida que aumenta la capacidad de planificación de los sistemas. Esto se debe a que, cuanto mayor sea la capacidad de un sistema para desarrollar planes, más probable será que identifique lagunas o fallos en la estrategia de seguridad y, en consecuencia, más probable será que el sistema desarrolle un plan que conlleve la búsqueda de poder.
Tras analizar el estado de la investigación sobre este tema y hablar con expertos en la materia, creemos que actualmente no hay formas conocidas de construir sistemas de IA alineados que probablemente satisfagan estos dos criterios.
Este es el argumento principal. Hay muchas variantes de este argumento. Algunos han argumentado que los sistemas de IA podrían moldear gradualmente nuestro futuro a través de formas más sutiles de influencia que, sin embargo, podrían equivaler a una catástrofe existencial; otros argumentan que, de hecho, la forma más probable de pérdida de poder es simplemente que estos sistemas acaben con todos los seres humanos. No estamos seguros de qué catástrofe sería la más probable, pero hemos intentado articular el núcleo del argumento, tal y como lo vemos: que la IA presenta un riesgo existencial.
Sin duda, hay razones por las que este argumento podría no ser correcto. A continuación, repasamos algunas de las razones que nos parecen más sólidas. Pero, en general, parece posible que, al menos en el caso de algunos tipos de sistemas planificadores avanzados, sea más difícil construir sistemas que no busquen el poder de esta forma peligrosa que construir sistemas que tengan estas características.
Cuando decimos que nos preocupan las catástrofes existenciales, no nos preocupan solo los riesgos de extinción. Esto se debe a que la fuente de nuestra preocupación está arraigada en el largoplacismo: la idea de que las vidas de todas las generaciones futuras importan y que, por tanto, es extremadamente importante proteger sus intereses.
Esto significa que cualquier acontecimiento que pueda impedir que las generaciones futuras vivan vidas colmadas de lo que las hace valiosas (ya sea la felicidad, la justicia, la belleza o la prosperidad general) cuenta como una catástrofe existencial.
Parece extremadamente improbable que seamos capaces de recuperar el poder frente a un sistema que ha logrado arrebatárnoslo. Y como resultado, la totalidad del futuro —todo lo que ocurra a la vida de origen terrestre, por un tiempo indefinido— estaría determinado por los objetivos de sistemas que, a pesar de haber sido construidos por nosotros, no están alineados con nuestros intereses. Quizá esos objetivos creen un futuro largo y próspero, pero vemos pocos motivos para confiar en ello.al
Esto no quiere decir que no pensemos que la IA también constituye un riesgo de extinción humana. De hecho, creemos que extinguir a los humanos es una forma muy verosímil en la que un sistema de IA podría garantizar de forma completa y permanente que nunca seamos capaces de recuperar el poder.
Ciertamente, nadie desarrollaría o utilizaría una IA desalineada si supiera que podría tener consecuencias tan terribles, ¿no?
Por desgracia, hay al menos dos razones por las que alguien podría desarrollar y desplegar una IA desalineada, que analizaremos sucesivamente:4
Imagina que hay un grupo de investigadores que intentan determinar, en un entorno de prueba, si un sistema que han construido está alineado. Hemos argumentado que una IA de planificación inteligente querrá mejorar sus capacidades para efectuar cambios en pos de su objetivo, y casi siempre es más fácil hacerlo si se despliega en el mundo real, donde hay disponible una gama mucho más amplia de acciones. Como resultado, cualquier IA desalineada que sea lo suficientemente sofisticada intentará entender lo que los investigadores quieren que haga y, al menos, fingirá estar haciendo eso, haciendo creer a los investigadores que está alineada. (Por ejemplo, un sistema de aprendizaje por refuerzo podría ser recompensado por cierto comportamiento aparente durante el entrenamiento, independientemente de lo que en realidad esté haciendo.)
Con suerte, seremos conscientes de este tipo de comportamiento y podremos detectarlo. Pero descubrir el engaño de una IA suficientemente avanzada parece potencialmente más difícil que descubrir a un humano mintiendo, lo cual no siempre es fácil. Por ejemplo, un sistema de IA suficientemente inteligente podría hacernos creer que hemos resuelto el problema del engaño de la IA, aunque no hayamos hecho tal cosa.
Si los sistemas de IA son buenos en el arte de engañar y tienen capacidades suficientemente avanzadas, una estrategia razonable para un sistema de este tipo podría ser engañar completamente a los humanos hasta que el sistema tenga una forma de garantizar que puede superar cualquier resistencia a sus objetivos.
También podríamos esperar que algunas personas con la capacidad de desplegar una IA desalineada siguieran adelante pese a cualquier señal de advertencia de desalineación que apareciera, debido a las dinámicas de carrera, que inducen a quienes intentan desarrollar una IA a querer ser los primeros en lograrlo.
Por ejemplo, si estás desarrollando una IA para mejorar la estrategia militar o política, es mucho más útil si ninguno de tus rivales tiene una IA igual de potente.
Estos incentivos se aplican incluso a las personas que intentan construir una IA con la esperanza de utilizarla para mejorar el mundo.
Por ejemplo, supongamos que has pasado años y años investigando y desarrollando un poderoso sistema de IA, y todo lo que quieres es utilizarlo para mejorar el mundo. Simplificando mucho las cosas, digamos que hay dos posibilidades:
Digamos que crees que hay un 90 % de probabilidades de que hayas conseguido construir una IA alineada. Pero dado que la tecnología suele desarrollarse a velocidades similares en toda la sociedad, hay altas probabilidades de que alguien más desarrolle pronto una IA poderosa. Y como crees que los demás son menos cautelosos o menos altruistas, crees que su IA solo tendrá una probabilidad del 80 % de estar alineada con buenos objetivos y una probabilidad del 20 % de provocar una catástrofe existencial. Y solo si tú llegas primero, tu IA más beneficiosa podrá ser dominante. Como resultado, puede que decidas seguir adelante con el despliegue de tu IA, aceptando el riesgo del 10 %.
Hasta ahora hemos expuesto lo que una gran parte de los investigadores del campoam consideran el principal riesgo existencial asociado a los posibles avances en la IA, que depende fundamentalmente de que una IA busque poder para alcanzar sus objetivos.
Si conseguimos evitar este comportamiento, habremos reducido sustancialmente el riesgo existencial.
Pero incluso si lo conseguimos, la IA podría plantear otros riesgos existenciales.
Nos preocupa que el conflicto entre grandes potencias también pueda constituir una amenaza sustancial para nuestro mundo, y parece probable que los avances de la IA cambien la naturaleza de la guerra: mediante las armas autónomas letalesan o mediante la automatización de la toma de decisiones.ao
En algunos casos, la guerra entre grandes potencias podría volverse una amenaza existencial, por ejemplo, si el conflicto es nuclear. Es posible que la IA pueda exacerbar los riesgos de escalada nuclear, aunque también hay razones para pensar que la IA podría disminuir este riesgo.ap
Por último, si un único actor produce sistemas de IA especialmente poderosos, podría considerarse que esto le da una ventaja estratégica decisiva. Por ejemplo, Estados Unidos puede producir una IA de planificación lo suficientemente inteligente como para garantizar que Rusia o China nunca puedan lanzar con éxito otra arma nuclear. Esto podría incentivar un primer ataque por parte de los rivales con el fin de evitar que estos planes desarrollados por la IA se pongan en marcha.
Prevemos que los sistemas de IA contribuirán a aumentar el ritmo del progreso científico.aq
Aunque esta automatización tendría ventajas evidentes (por ejemplo, el rápido desarrollo de nuevas medicinas), algunas formas de desarrollo tecnológico pueden suponer amenazas, incluso existenciales, para la humanidad. Esto podría ocurrir a través de la biotecnologíaar (para más información, véase nuestro artículo sobre prevención de pandemias catastróficas) o a través de alguna otra forma de tecnología peligrosa actualmente desconocida.as
Un gobierno autoritario en posesión de IA podría automatizar completamente el control y la represión de sus ciudadanos, así como influir significativamente en la información a la que accede la población, lo que quizá imposibilitaría la coordinación de acciones contra un régimen de este tipo.at
Si esto se convirtiera en una forma de verdadero totalitarismo estable, podría empeorar mucho la vida de la gente durante periodos de tiempo extremadamente largos, lo que lo convierte en un posible escenario especialmente aterrador derivado de la IA.
También nos preocupan las siguientes cuestiones, aunque sabemos menos al respecto:
Es una pregunta muy difícil de responder.
No hay ejemplos del pasado que podamos utilizar para determinar la frecuencia de las catástrofes relacionadas con la IA.
Todo lo que tenemos son argumentos (como los que hemos ofrecido previamente) y datos de menor relevancia, como la historia de los avances tecnológicos. Y, desde luego, no estamos seguros de que los argumentos que hemos presentado sean completamente correctos.
Consideremos el argumento que ofrecimos antes específicamente sobre los peligros de los sistemas de IA que buscan poder, basado en el informe de Carlsmith. Al final de su informe, Carlsmith da algunas estimaciones aproximadas de las probabilidades de que cada etapa de su argumento sea correcta (en caso de que la etapa anterior también lo sea):
Multiplicando estas cifras, Carlsmith calcula que hay un 5 % de probabilidades de que su argumento sea correcto y se produzca una catástrofe existencial por un sistema de IA desalineado que busca poder para 2070. Cuando hablamos con Carlsmith, nos dijo que en el año transcurrido entre la redacción de su informe y la publicación de este artículo, su estimación general de la probabilidad de una catástrofe existencial provocada por un sistema de IA que busca poder para 2070 había aumentado y ahora es mayor al 10 %.au
En opinión de Carlsmith, la probabilidad global de una catástrofe existencial provocada por la IA sería mayor, porque hay otras vías hacia una posible catástrofe, como las analizadas en la sección anterior, aunque creemos que es mucho menos probable que estas otras vías conduzcan a una catástrofe existencial.
Según otra estimación, en The Precipice, Toby Ord, filósofo y asesor de 80 000 Horas, calculó que hay un riesgo de catástrofe existencial de 1 entre 6 para 2120 (por cualquier causa) y que el 60 % de este riesgo proviene de una IA desalineada, lo que da un total de un 10 % de riesgo de catástrofe existencial por una IA desalineada para 2120.
Una encuesta realizada en 2021 a 44 investigadores que trabajaban en la reducción de los riesgos existenciales asociados a la IA reveló que la estimación media del riesgo era del 32,5 %; la respuesta más alta era del 98 % y la más baja, del 2 %.av Obviamente, hay mucho sesgo de selección: la gente elige trabajar en la reducción de los riesgos asociados a la IA porque cree que es inusualmente importante, así que deberíamos esperar que las estimaciones de esta encuesta sean sustancialmente más altas que las de otras fuentes. Pero es evidente que existe una gran incertidumbre sobre la magnitud de este riesgo y una enorme variación en las respuestas.
Los altos valores de todas estas estimaciones son alarmantes y perturbadores. No estamos nada seguros de que todos los argumentos sean correctos. Pero, en general, son las estimaciones más altas del nivel de riesgo existencial de cualquiera de las cuestiones que hemos examinado (como las pandemias artificiales, el conflicto entre grandes potencias, el cambio climático o la guerra nuclear).
Dicho esto, creo que hay razones por las que es más difícil hacer conjeturas sobre los riesgos derivados de la IA que sobre otros riesgos; y quizá haya razones para pensar que las estimaciones que hemos citado antes exageren sistemáticamente el riesgo.
Si me viera obligado a cuantificar el riesgo, diría que es aproximadamente de un 1 %. Esta cifra incluye consideraciones tanto a favor como en contra del argumento. Estoy menos preocupado que otros miembros del personal de 80 000 Horas: nuestra posición como organización es que el riesgo oscila entre el 3 % y el 50 %.
Dicho esto, los argumentos a favor de una estimación tan elevada del riesgo existencial que implica la IA son persuasivos, lo que convierte a los riesgos derivados la IA en uno de los principales problemas a los que se enfrenta la humanidad.
Creemos que una de las cosas más importantes que se pueden hacer es ayudar a reducir los riesgos más graves que implica la IA.
Y no solo porque pensamos que estos riesgos son elevados, sino también porque creemos que hay cosas reales que podemos hacer para reducirlos.
Conocemos dos enfoques generales:
En ambos casos, hay muchas formas de contribuir. Las analizaremos con más detalle más adelante, pero en esta sección queremos ilustrar el hecho de que hay cosas que podemos hacer para atender a estos riesgos.
Los beneficios de la IA transformadora podrían ser enormes, y hay muchos actores diferentes implicados (que operan en distintos países), lo que significa que probablemente será realmente difícil impedir su desarrollo por completo. (También es posible que no fuera una buena idea incluso si pudiéramos lograrlo; al fin y al cabo, eso significaría renunciar a los beneficios además de prevenir los riesgos.)
En consecuencia, creemos que tiene más sentido centrarse en garantizar que este desarrollo sea seguro, es decir, que tenga una alta probabilidad de evitar todos los fallos catastróficos enumerados anteriormente.
Una forma de hacerlo es intentar desarrollar soluciones técnicas para evitar el tipo de comportamiento de búsqueda de poder que discutimos previamente, lo que generalmente se conoce como trabajar en la seguridad técnica de la IA, a veces denominada simplemente “seguridad de la IA”.
Para más información acerca de la investigación sobre seguridad técnica de la IA, véase esta sección.
Una segunda estrategia para reducir los riesgos derivados de la IA es encaminar su desarrollo a través de la política, la creación de normas y otros mecanismos de gobernanza.
Una buena gobernanza de la IA puede contribuir a la seguridad técnica, por ejemplo mediante acuerdos de seguridad entre empresas, o ayudando a los investigadores con talento de todo el mundo a trasladarse adonde puedan ser más eficaces. La gobernanza de la IA también podría ayudar con otros problemas que generan riesgos, como las dinámicas de carrera.
Pero también, como ya hemos visto, aunque consigamos que la IA haga lo que queremos (es decir, si logramos “alinearla”), ¡podríamos acabar eligiendo que haga algo que resulte malo! Así que tenemos que preocuparnos por los incentivos, no solo de los sistemas de IA, sino también de los actores humanos que los utilizan.
Estimamos que hay unas 400 personas en todo el mundo que trabajan directamente en reducir las probabilidades de una catástrofe existencial relacionada con la IA (con un intervalo de confianza del 90 % que oscila entre 200 y 1000). De ellas, alrededor de tres cuartas partes trabajan en la investigación de la seguridad técnica de la IA, mientras que el resto se divide entre la investigación sobre estrategia (y otras formas de gobernanza) y la promoción.aw Creemos que hay unas 800 personas que trabajan en funciones complementarias, pero tenemos una gran incertidumbre sobre esta estimación.ax
En The Precipice, Ord estimó que en 2020 se invirtieron entre $10 millones y $50 millones en reducir el riesgo asociado a la IA.
Eso puede parecer mucho dinero, pero estamos destinando algo así como 1 000 veces esa cantidaday a acelerar el desarrollo de la IA transformadora en grandes laboratorios de IA, a través de la investigación y la ingeniería centradas en las capacidades comerciales.
Para comparar los $50 millones invertidos en la seguridad de la IA en 2020 con otros casos de riesgos bien conocidos, actualmente estamos invirtiendo varios cientos de miles de millones al año en hacer frente al cambio climático.
Dado que este campo está tan desatendido y hay tanto en juego, creemos que el impacto de trabajar en los riesgos derivados de la IA podría ser mucho mayor que el de hacerlo en muchas otras áreas, por lo que nuestras dos principales carreras profesionales recomendadas para tener un impacto positivo en el mundo son la seguridad técnica de la IA y la investigación y aplicación de políticas relacionadas con la IA.
Como hemos dicho antes, no estamos totalmente seguros de que los argumentos que hemos presentado para afirmar que la IA constituye una amenaza existencial sean correctos. Aunque seguimos pensando que la probabilidad de que la IA provoque una catástrofe es lo bastante alta como para justificar que mucha más gente siga carreras profesionales para intentar evitarlo, también queremos ser sinceros sobre los argumentos en contra de hacerlo, para que te resulte más fácil tomar tu propia decisión al respecto.
Aquí trataremos las razones más sólidas (en nuestra opinión) para pensar que este problema no es especialmente apremiante. En la siguiente sección trataremos algunas objeciones comunes que (en nuestra opinión) no se sostienen tan bien, y explicaremos por qué.
Cuanto más tiempo tengamos antes de que se desarrolle la IA transformadora, menos apremiante será trabajar ahora para asegurarnos de que salga bien. Esto se debe a que el trabajo que otros realicen en el futuro podría ser mucho mejor o más relevante que el que nosotros podamos realizar ahora.
Además, si tardamos mucho en crear una IA transformadora, tendremos más tiempo para averiguar cómo hacerla segura. El riesgo parece mucho mayor si los desarrolladores de IA crean una IA transformadora en las próximas décadas.
Parece probable que la primera IA transformadora no se base en los métodos actuales de aprendizaje profundo. (AI Impacts ha documentado algunos argumentos para pensar que los métodos actuales no podrán producir una IA con inteligencia de nivel humano.) Esto podría implicar que algunas de nuestras investigaciones actuales acaben siendo inútiles (y también, dependiendo de qué método termine utilizándose, podría implicar que los argumentos a favor del riesgo sean menos preocupantes.)
Por otra parte, podríamos esperar que los avances en el desarrollo de la IA se produzcan en ráfagas. Anteriormente, en este campo han ocurrido varios inviernos de la IA: periodos de tiempo en los que la inversión, el interés y la investigación en materia de IA disminuyeron considerablemente. No está claro hasta qué punto es probable que veamos otro invierno de la IA, pero esta posibilidad debería hacernos pensar que desarrollar una IA transformadora podría llevar más tiempo de lo que cabría suponer. Cotra escribe sobre la posibilidad de un invierno de la IA en la cuarta parte de un informe que intenta pronosticar el desarrollo de la IA transformadora. Nuevas limitaciones en el ritmo de crecimiento de las capacidades de la IA, como la disponibilidad de datos de entrenamiento, también podrían implicar que hay más tiempo para trabajar en ello (Cotra habla de esto aquí).
En tercer lugar, las estimaciones de Cotra, Karnofsky y Davidson sobre cuándo tendremos una IA transformadora, que hemos examinado antes, fueron elaboradas por personas que ya esperaban que trabajar en la prevención de una catástrofe relacionada con la IA fuera potencialmente uno de los problemas más apremiantes del mundo. Como resultado, aquí hay un sesgo de selección: las personas que creen que la IA transformadora llegará relativamente pronto son también las que tienen incentivos para llevar a cabo investigaciones detalladas. (Dicho esto, si las investigaciones en sí mismas parecen sólidas, este efecto podría ser bastante pequeño.)
Por último, ninguna de las estimaciones de las que hemos hablado antes intentaba predecir cuándo podría producirse una catástrofe existencial. En su lugar, analizaban cuándo los sistemas de IA podrían ser capaces de automatizar todas las tareas que los humanos pueden hacer, o cuándo los sistemas de IA podrían transformar significativamente la economía. No es en absoluto seguro que los tipos de sistemas de IA capaces de transformar la economía vayan a ser los mismos sistemas planificadores avanzados que constituyen el núcleo del argumento de que los sistemas de IA podrían buscar poder. Los sistemas planificadores avanzados parecen ser particularmente útiles, por lo que hay al menos alguna razón para pensar que podrían ser los tipos de sistemas que acaben desarrollándose. Pero incluso si los sistemas de IA transformadores que se pronostican son sistemas planificadores avanzados, no está claro cuán capaces tendrían que ser para constituir una amenaza: es más que plausible suponer que los sistemas deban ser mucho más capaces para constituir una amenaza existencial sustancial que para transformar la economía. Esto implicaría que todas las estimaciones que hemos considerado anteriormente serían subestimaciones del tiempo que tenemos para trabajar en este problema.
Dicho esto, podría ser extremadamente difícil encontrar soluciones técnicas para evitar el comportamiento de búsqueda de poder; y, de ser así, centrarse en encontrar esas soluciones ahora parece extremadamente valioso.
En general, creemos que la IA transformadora es lo suficientemente probable en los próximos 10–80 años como para que claramente valga la pena (en términos de valor esperado) trabajar en esta cuestión ahora. Quizá las generaciones futuras se ocupen de ello y todo el trabajo que hagamos ahora sea en vano: ¡ojalá así sea! Pero tal vez no sea prudente correr ese riesgo.
Si la mejor IA que tenemos mejora gradualmente con el tiempo (en lugar de que las capacidades de la IA se mantengan en un nivel bastante bajo durante un tiempo y luego aumenten súbitamente), es probable que acabemos teniendo “disparos de advertencia”: detectaremos formas de comportamiento desalineado en sistemas bastante débiles y podremos corregirlo antes de que sea demasiado tarde.
En este escenario gradual, tendríamos una mejor idea de la forma que podría adoptar una IA poderosa (por ejemplo, si se construirá utilizando las técnicas actuales de aprendizaje profundo, o algo totalmente distinto), lo que podría ayudar significativamente a la investigación sobre seguridad. La sociedad en su conjunto también prestará más atención a esta cuestión, a medida que los riesgos asociados a la IA se hagan más evidentes.
Así que si el desarrollo gradual de la IA parece más probable, el riesgo parece menor.
Pero no es seguro que el desarrollo de la IA vaya a ser gradual o, si lo es, lo suficientemente gradual como para que el riesgo sea notablemente menor. E incluso si el desarrollo de la IA es gradual, podría ser muy beneficioso disponer de planes y soluciones técnicas con suficiente antelación. Así que, en general, seguimos pensando que es muy valioso intentar reducir el riesgo ahora.
Si quieres saber más, puedes leer el trabajo de AI Impacts sobre argumentos a favor y en contra del progreso discontinuo (es decir, no gradual) en el desarrollo de la IA, y el de Toby Ord y Owen Cotton-Barratt sobre implicaciones estratégicas de un desarrollo más lento de la IA.
Hacer que algo tenga metas alineadas con los objetivos últimos de los diseñadores humanos y hacer que algo sea útil parecen problemas muy relacionados. Si es así, quizá la necesidad de hacer que la IA sea útil nos lleve a desarrollar únicamente IA alineada, en cuyo caso es probable que el problema de la alineación se resuelva por defecto.
Ben Garfinkel dio algunos ejemplos de esto en nuestro pódcast:
Si de todos modos tenemos que resolver el problema de la alineación para crear sistemas de IA útiles, esto reduce significativamente las probabilidades de que tengamos sistemas de IA desalineados pero superficialmente útiles. Así, el incentivo para desplegar una IA desalineada sería mucho menor, lo que reduciría el riesgo para la sociedad.
Dicho esto, sigue habiendo motivos para preocuparse. Por ejemplo, parece que todavía podríamos ser vulnerables al problema del engaño por parte de la IA.
Y, como hemos argumentado, la alineación de la IA es solo una parte del problema general. Resolver el problema de la alineación no es lo mismo que eliminar por completo el riesgo existencial asociado a la IA, ya que la IA alineada también podría ser utilizada para fines nocivos, por ejemplo, por gobiernos autoritarios.
Como ocurre con muchos proyectos de investigación en sus fases tempranas, no sabemos hasta qué punto es difícil resolver el problema de la alineación u otros problemas de la IA que constituyen riesgos. Alguien podría creer que hay importantes riesgos asociados a la inteligencia artificial, pero ser pesimista sobre lo que el trabajo adicional en las áreas de investigación o de políticas podría conseguir y, por tanto, decidir no centrarse en ello.
Esta es, sin duda, una razón para considerar la posibilidad de trabajar en otra cosa: la solucionabilidad de un problema es una parte clave de nuestro modo de comparar los diferentes problemas globales. Por ejemplo, también nos preocupan mucho los riesgos de una pandemia, y puede que sea mucho más fácil resolver esa cuestión.
Dicho esto, pensamos que la importancia de lo que está en juego podría justificar que mucha gente trabajara para reducir el riesgo asociado a la IA, incluso si se piensa que hay escasas probabilidades de éxito. Habría que pensar que es extremadamente difícil reducir los riesgos asociados a la IA para llegar a la conclusión de que es mejor dejar que los riesgos se materialicen y que se produzca la catástrofe.
Al menos en lo que respecta a 80 000 Horas, queremos seguir intentando contribuir a la seguridad de la IA (por ejemplo, escribiendo perfiles como este), incluso si las probabilidades de éxito parecen escasas (aunque, de hecho, somos bastante optimistas).
Hay algunas razones para pensar que el argumento central de que cualquier sistema planificador avanzado y con percepción estrategia buscará poder por defecto (que ofrecimos aquí) no es del todo correcto.5
Para empezar, el argumento de que los sistemas avanzados de IA buscarán poder se basa en la idea de que los sistemas elaborarán planes para alcanzar objetivos. No estamos muy seguros de lo que esto significa y, en consecuencia, no estamos seguros de qué propiedades son realmente necesarias para que se produzca un comportamiento de búsqueda de poder, ni estamos seguros de que los sistemas que desarrollemos vayan a tener esas propiedades.
Nos encantaría ver un análisis más profundo de qué aspectos de la planificación se incentivan económicamente, y si esos aspectos parecen suficientes para que el argumento de la búsqueda de poder funcione.
Grace ha escrito más sobre la ambigüedad en torno a “cuánta orientación a objetivos se necesita para provocar un desastre”.
Es posible que solo unos pocos objetivos que pudieran tener los sistemas de IA conduzcan a una búsqueda de poder desalineada.
En su análisis de lo que se entiende por “objetivos”, Richard Ngo señala que solo se obtendrá un comportamiento de búsqueda de poder si el sistema tiene objetivos de los que pueda beneficiarse. Ngo sugiere que estos deben ser objetivos “a gran escala”. (Algunos han argumentado que, por defecto, deberíamos esperar que los sistemas de IA tengan objetivos “a corto plazo” que no lleven a un comportamiento de búsqueda de poder.)
Pero el hecho de que un sistema de IA planee hacerse con el poder depende de lo fácil que le resulte obtenerlo, porque cuanto más fácil le resulte a un sistema hacerse con el poder, más probabilidades de éxito tendrán los planes de búsqueda de poder, por lo que un buen sistema planificador tendría más probabilidades de elegirlos. Esto sugiere que será más fácil crear accidentalmente un sistema de IA que busque poder a medida que aumenten las capacidades de los sistemas.
Así que parece que todavía hay motivos para preocuparse, porque las capacidades de los sistemas de IA parecen estar aumentando rápidamente. Aquí hay dos consideraciones: si pocos objetivos conducen realmente a la búsqueda de poder, incluso tratándose de sistemas de IA bastante capaces, se reduce significativamente el riesgo y, por tanto, la importancia del problema. Pero también podría aumentar su solucionabilidad, ya que se demostraría que las soluciones podrían ser fáciles de encontrar (por ejemplo, la solución de nunca dar a los sistemas objetivos “a gran escala”), lo que lo volvería más valioso.
Más arriba argumentamos que podemos esperar que los sistemas de IA hagan cosas que parezcan instrumentalmente útiles en términos generales para su objetivo final, y que como resultado de ello podría ser difícil evitar que los sistemas de IA hagan este tipo de cosas.
Pero podemos encontrar ejemplos en los que la utilidad instrumental en términos generales de algo no parece afectar lo difícil que es evitar que suceda. Pensemos en un coche autónomo que solamente puede moverse si tiene el motor encendido. Para muchos objetivos posibles (aparte de, por ejemplo, encender la radio), parece que sería útil que el coche pudiera moverse, por lo que deberíamos esperar que encendiera el motor. Pero, a pesar de eso, quizá podamos entrenar el coche para que mantenga el motor apagado: por ejemplo, podemos darle una respuesta negativa cada vez que encienda el motor, aunque también le hayamos dado otros objetivos. Ahora imaginemos que mejoramos el coche para que su velocidad máxima sea mayor: esto aumenta enormemente el número de posibles secuencias de acciones que implican, como primer paso, encender el motor. En cierto sentido, esto parece aumentar la utilidad instrumental de encender el motor: hay más acciones posibles que el coche puede realizar, una vez que el motor está encendido, porque la gama de velocidades posibles a las que puede viajar es mayor. (No está claro si este sentido de “utilidad instrumental” es el mismo que el del argumento del riesgo, aunque parece tener cierta relación.) Pero no parece que este aumento de la utilidad instrumental de encender el motor incremente la dificultad de impedir que el coche lo encienda. Ejemplos sencillos como este ponen en duda la idea de que no seremos capaces de encontrar formas de impedir una acción por el mero hecho de que sea útil instrumentalmente. (Para más información sobre este ejemplo, véase la página 25 de la reseña de Garfinkel sobre el informe de Carlsmith.)
Está claro que los humanos son muy inteligentes, pero no está claro que sean perfectos optimizadores de objetivos. Por ejemplo, los humanos a menudo se enfrentan a algún tipo de angustia existencial sobre cuáles son sus verdaderos objetivos. E incluso si aceptamos que los humanos son un ejemplo de agente con percepción estratégica y capacidad de planificación, lo cierto es que los humanos no siempre buscan el poder. Es obvio que nos preocupamos por cosas básicas como la comida y la vivienda, y muchas personas hacen todo lo posible por conseguir más dinero, estatus, educación o incluso poder formal. Pero algunos humanos eligen no perseguir estos objetivos, y perseguirlos no parece correlacionarse con la inteligencia.
Sin embargo, esto no significa que el argumento de que habrá un incentivo para buscar poder sea erróneo. La mayoría de la gente tiene incentivos para obtener formas de influencia a través de la riqueza, el estatus, los ascensos, etc., y actúa en consecuencia. Y podemos explicar la observación de que los humanos no suelen buscar grandes cantidades de poder observando que no solemos encontrarnos en circunstancias que hagan que el esfuerzo valga la pena.
Por ejemplo, la mayoría de la gente no intenta fundar empresas de miles de millones de dólares: probablemente no lo conseguirán y costará mucho tiempo y esfuerzo. Pero aun así cruzarían la calle para recoger un cheque de mil millones de dólares.
El hecho de que muchos humanos no busquen poder en un grado extremo, junto con las incertidumbres sobre lo que realmente significa planificar para conseguir objetivos, sugiere que el argumento que ofrecimos en favor de que los sistemas avanzados de IA buscarán poder podría no ser del todo correcto. Y también sugieren que, si realmente hay un problema que resolver aquí, la investigación de la alineación para prevenir la búsqueda de poder en las IA podría, en principio, tener éxito.
Son buenas noticias. Pero por el momento, aparte de esperar que estemos equivocados sobre la existencia del problema, no sabemos cómo prevenir este comportamiento de búsqueda de poder.
Acabamos de analizar las principales objeciones a trabajar en el riesgo asociado a la IA que consideramos más persuasivas. En esta sección, veremos las objeciones que nos parecen menos persuasivas y explicaremos por qué ello es así.
Desde los años cincuenta se viene diciendo que la inteligencia artificial más inteligente que los humanos está a la vuelta de la esquina. Pero aún no ha ocurrido.
Una de las razones podría ser que nunca ocurrirá. Algunos afirman que crear una inteligencia artificial general es fundamentalmente imposible. Otros creen que es posible, pero improbable que ocurra en la práctica, sobre todo con los métodos actuales de aprendizaje profundo.
En general, creemos que la existencia de la inteligencia humana demuestra que, en principio, es posible crear inteligencia artificial. Y, en nuestra opinión, la velocidad de los avances actuales no es algo que hubieran predicho quienes pensaban que nunca desarrollaríamos una IA poderosa y general.
Pero lo más importante es que la idea de que se necesitan sistemas de IA inteligentes totalmente generales para que exista un riesgo existencial sustancial es un error muy común.
El argumento que ofrecimos anteriormente se basaba en que los sistemas de IA son tan buenos o mejores que los humanos en un subconjunto de áreas: la planificación, la percepción estratégica y las áreas relacionadas con la búsqueda y la preservación del poder. Así que mientras se piense que todas estas cosas son posibles, el riesgo persiste.
E incluso si ninguna IA tiene todas estas propiedades, aun así hay formas en las que podríamos llegar a tener sistemas de IA “estrechos” que, juntos, serían capaces de arrebatarle el poder a la humanidad. Por ejemplo, podríamos tener una IA planificadora que desarrolle planes para una empresa, otro sistema de IA que mida datos sobre la empresa, otro sistema de IA que intente evaluar los planes de la primera IA prediciendo las ganancias que resultarán de cada uno de esos planes, y otros sistemas de IA que lleven a cabo tales planes (por ejemplo, automatizando la construcción y el funcionamiento de las fábricas). Considerado globalmente, este sistema en su conjunto tiene la capacidad de elaborar y llevar a cabo planes para alcanzar algún objetivo, y potencialmente también tiene capacidades avanzadas en áreas que le ayudan a buscar poder.
Es cierto que parece más fácil impedir que estos sistemas de IA “estrechos” busquen poder. Esto podría ocurrir si las capacidades que tienen las IA, incluso combinadas, no se suman para poder planificar la consecución de objetivos, o si la estrechez reduce el riesgo de que los sistemas desarrollen planes de búsqueda de poder (por ejemplo, si se construyen sistemas que solo pueden producir planes a muy corto plazo). También parece que ofrece otro punto de vulnerabilidad que permite a los humanos intervenir en caso de ser necesario: la coordinación de los distintos sistemas.
No obstante, el riesgo sigue existiendo, incluso en sistemas integrados por muchas IA que interactúan entre sí.
Puede que sea muy, muy difícil.
Impedir que las personas y las computadoras ejecuten software ya es increíblemente difícil.
Piensa en lo difícil que sería cerrar los servicios web de Google. Los centros de datos de Google tienen millones de servidores en 34 ubicaciones diferentes, muchos de los cuales ejecutan el mismo código. Y estos centros de datos son absolutamente cruciales para el balance financiero de Google, así que aunque Google podría decidir cerrar toda la empresa, probablemente no lo haría.
O pensemos en lo difícil que es deshacerse de los virus informáticos que se propagan de forma autónoma entre computadoras de todo el mundo.
En última instancia, pensamos que cualquier sistema de IA peligroso que busque poder intentará encontrar formas de no ser apagado, lo que hace más probable que nos encontremos en una de estas situaciones, más que en un caso en el que podamos simplemente desconectar una sola máquina.
Dicho esto, deberíamos intentar configurar el futuro de la IA de forma que podamos “desconectar” sistemas de IA potentes.
Quizá podamos desarrollar sistemas que nos permitan desconectarlos. Pero por el momento, no estamos seguros de cómo hacerlo.
Garantizar que podamos apagar los sistemas de IA potencialmente peligrosos podría ser una medida de seguridad desarrollada por la investigación de la seguridad técnica de la IA, o podría ser el resultado de un trabajo cuidadoso en el área de la gobernanza de la IA, como la planificación de esfuerzos coordinados para detener el software autónomo una vez que esté en funcionamiento.
Podríamos (¡y deberíamos!) intentarlo.
Si pudiéramos “poner en cuarentena” una IA avanzada exitosamente —es decir, encerrarla en un entorno de entrenamiento sin acceso al mundo real hasta estar seguros de que no causará daño— eso ayudaría enormemente a mitigar los riesgos asociados a la IA.
Pero hay algunas cosas que podrían dificultarlo.
Para empezar, es posible que solo necesitemos un fallo —como que una persona remueva la cuarentena o una vulnerabilidad de seguridad en el entorno de aislamiento de la que no nos hayamos percatado— para que el sistema de IA empiece a afectar al mundo real.
Además, esta solución no se adapta al desarrollo de las capacidades del sistema de IA. Esto se debe a que:
Así que cuanto más peligroso sea el sistema de IA, menos probable es que se lo pueda poner en cuarentena. Eso es lo contrario de lo que querríamos de una buena solución a estos riesgos.
Según ciertas definiciones de “verdaderamente inteligente” (por ejemplo, si la verdadera inteligencia incluyera una profunda comprensión de la moral y el deseo de actuar moralmente), probablemente sería así.
Pero si esa es tu definición de verdaderamente inteligente, entonces no son los sistemas verdaderamente inteligentes los que constituyen un riesgo. Como hemos argumentado antes, son los sistemas avanzados que pueden planificar y tener percepción estratégica los que constituyen un riesgo para la humanidad.
Con una percepción estratégica suficientemente avanzada, la excelente comprensión del mundo por parte de un sistema de IA bien podría abarcar una excelente comprensión de las creencias morales de las personas. Pero eso no es una razón de peso para pensar que un sistema así actuaría moralmente.
Por ejemplo, cuando aprendemos sobre otras culturas o sistemas morales, no necesariamente sentimos el deseo de acatar su moral. Un estudioso del sur de Estados Unidos antes de la Guerra de Secesión puede entender muy bien la justificación moral de la esclavitud por parte de los propietarios de esclavos del siglo XIX, pero es muy poco probable que defienda esta práctica.
Los sistemas de IA con una excelente comprensión de la moral humana podrían ser incluso más peligrosos que aquellos que no la alcanzaran: el sistema de IA podría actuar moralmente al principio como una forma de engañarnos para que pensemos que es seguro.
No cabe duda de que la inteligencia artificial actual entraña peligros.
Por ejemplo, los datos utilizados para entrenar redes neuronales suelen contener sesgos ocultos. Esto significa que los sistemas de IA pueden aprender estos prejuicios, lo que puede conducir a comportamientos racistas y sexistas.
También hay otros peligros. Nuestras anteriores observaciones sobre la guerra nuclear explican una amenaza que no requiere que los sistemas de IA tengan capacidades especialmente avanzadas.
Pero no creemos que el hecho de que también existan riesgos derivados de los sistemas actuales sea una razón para no dar prioridad a la reducción de las amenazas existenciales de la IA, si son lo suficientemente graves.
Como ya hemos dicho, parece que los sistemas futuros —no necesariamente la superinteligencia o una inteligencia completamente general, pero sí los sistemas avanzados en sus capacidades de planificación y búsqueda de poder— podrían suponer una amenaza para la existencia de la humanidad en su conjunto. Y también parece moderadamente probable que produzcamos tales sistemas este siglo.
Es más, muchas de las investigaciones sobre seguridad técnica de la IA también son relevantes para resolver los problemas de los sistemas de IA existentes. Por ejemplo, algunas investigaciones se centran en garantizar que los modelos de AA hagan lo que queremos que hagan y sigan haciéndolo a medida que aumentan su tamaño y sus capacidades; otras investigaciones intentan averiguar cómo y por qué los modelos existentes toman las decisiones y realizan las acciones que observamos.
En consecuencia, al menos en el caso de la investigación técnica, la elección entre trabajar en las amenazas actuales o en los riesgos futuros se parece más a una elección entre solo garantizar la seguridad de los modelos actuales o, por el contrario, encontrar formas de garantizar la seguridad de modelos actuales que además sigan funcionando a medida que los sistemas de IA se vuelvan más complejos e inteligentes.
En última instancia, tenemos un tiempo limitado en nuestras carreras profesionales, así que elegir en qué problema trabajar podría ser una forma de aumentar nuestro impacto enormemente. Cuando existen amenazas tan importantes, parece razonable que muchas personas se centren en los peores escenarios posibles.
Sí, puede.
Los sistemas de IA ya están mejorando la atención médica, poniendo coches sin conductor en las carreteras y automatizando las tareas domésticas.
Y si somos capaces de automatizar los avances en ciencia y tecnología, podríamos ver un progreso económico y científico realmente increíble. La IA podría ayudar a resolver muchos de los problemas más apremiantes del mundo.
Pero que algo pueda hacer mucho bien no significa que no pueda hacer mucho mal. La IA es un ejemplo de tecnología de doble uso, es decir, una tecnología que puede utilizarse para fines tanto peligrosos como beneficiosos. Por ejemplo, los investigadores consiguieron que un modelo de IA que había sido entrenado para desarrollar fármacos médicos generara diseños de armas biológicas.
Estamos entusiasmados y esperanzados por los enormes beneficios que la IA podría ofrecer. Pero también queremos trabajar duro para minimizar los enormes riesgos que plantean los sistemas avanzados de IA.
Es indudable que a algunas personas les atrae la seguridad de la IA porque les gustan las computadoras y la ciencia ficción; como ocurre con cualquier otro tema, hay gente que trabaja en ello no porque piense que es importante, sino porque le parece atractivo.
Pero, para mucha gente, trabajar en la seguridad de la IA va acompañado de una gran reticencia.
Para mí, y para muchos de nosotros en 80 000 Horas, dedicar nuestro tiempo y recursos limitados a trabajar en cualquier causa relacionada con el futuro a largo plazo —y, por tanto, no dedicar ese tiempo a los terribles problemas del mundo actual— es algo increíblemente difícil desde el punto de vista emocional.
Pero poco a poco hemos investigado estos argumentos (al intentar averiguar cómo podemos hacer el mayor bien posible) y, con el tiempo, hemos ido adquiriendo más conocimientos sobre la IA y nos hemos preocupado más por el riesgo.
Creemos que el escepticismo es saludable y no estamos nada seguros de que estos argumentos funcionen. Así que, aunque esta sospecha es definitivamente una razón para profundizar un poco más, esperamos que, en última instancia, esta preocupación no se trate como una razón para quitar prioridad a lo que bien podría ser el problema más importante de nuestro tiempo.
Que algo suene a ciencia ficción no es razón suficiente para descartarlo de plano. Hay montones de ejemplos de cosas que se mencionan por primera vez en la ciencia ficción y que luego se han hecho realidad (esta lista de inventos de la ciencia ficción incluye muchos ejemplos).
Incluso hay algunos casos en los que la tecnología es una amenaza existencial real:
Además, hay académicos e investigadores de primera línea trabajando en la prevención de estos riesgos asociados a la IA: en el MIT, en Cambridge, en Oxford, en Berkeley, y en otros lugares. Dos de los laboratorios de IA más importantes del mundo (DeepMind y OpenAI) tienen equipos dedicados explícitamente a trabajar en la seguridad técnica de la IA. Investigadores de estos centros nos han ayudado con este artículo.
Es totalmente posible que todas estas personas estén cometiendo un error al preocuparse, pero el hecho de que tanta gente se tome en serio esta amenaza socava la idea de que se trata simplemente de ciencia ficción.
Es razonable que cuando uno oye algo que suena a ciencia ficción quiera investigarlo a fondo antes de actuar en consecuencia. Pero una vez investigado, si los argumentos parecen sólidos, el mero hecho de que suenen a ciencia ficción no es motivo para descartarlos.
Nunca sabemos con certeza lo que va a ocurrir en el futuro. Así que, por desgracia para nosotros, si intentamos tener un impacto positivo en el mundo, eso significa que siempre tenemos que lidiar con al menos cierto grado de incertidumbre.
También creemos que hay una distinción importante entre garantizar que se ha conseguido algo bueno y hacer lo mejor que se pueda. Para conseguir lo primero, no se puede correr ningún riesgo, lo que podría significar perder las mejores oportunidades de hacer el bien.
Ante una situación de incertidumbre, tiene sentido pensar en el valor esperado de nuestras acciones: la suma de todas las posibles consecuencias buenas y malas de nuestras acciones, ponderadas por su probabilidad.
Puesto que hay mucho en juego y que los riesgos asociados a la IA no son tan bajos, el valor esperado de ayudar a resolver este problema es alto.
Comprendemos la preocupación de que si se trabaja en la seguridad de la IA, se pueda acabar haciendo muy poco, cuando se podría haber hecho mucho bien trabajando en otra cosa, simplemente porque el problema y nuestras ideas actuales sobre qué hacer al respecto son muy inciertas.
Pero creemos que el mundo estará mejor si decidimos que algunos de nosotros trabajemos para resolver este problema, de modo que juntos tengamos la mejor oportunidad de navegar con éxito la transición a un mundo con IA avanzada en lugar de arriesgarnos a sufrir una catástrofe existencial.
Y parece que intentar esto es algo inmensamente valioso.
El asalto de Pascal es un experimento mental —una versión de la famosa apuesta de Pascal— en el que alguien que toma decisiones utilizando cálculos de valor esperado puede ser manipulado mediante propuestas para conseguir algo extraordinariamente bueno (o evitar algo extraordinariamente malo) con una probabilidad de éxito extremadamente baja.
La historia es la siguiente: un asaltante cualquiera te para por la calle y te dice: “Dame tu billetera o te lanzaré un hechizo de tortura a ti y a todos los que han vivido alguna vez”. No puedes descartar con un 100 % de probabilidad que no lo hará: después de todo, nada es 100 % seguro. Y torturar a todos los que han vivido alguna vez es tan malo que seguramente evitar siquiera una pequeñísima probabilidad de que eso ocurra vale los $40 que llevas en la billetera. Pero intuitivamente parece que no deberías darle tu cartera a alguien solamente porque te amenace con algo completamente inverosímil.
Análogamente, podría preocuparte que trabajar en la seguridad de la IA signifique donar tu valioso tiempo para evitar una pequeñísima probabilidad de catástrofe. Trabajar para reducir los riesgos asociados a la IA no es gratis: el costo de oportunidad es bastante sustancial, ya que significa renunciar a trabajar en otras cosas extremadamente importantes, como reducir los riesgos de pandemias o acabar con la cría intensiva de animales.
Sin embargo, la cuestión es la siguiente: aunque hay mucho valor en juego —quizás las vidas de todos los que viven hoy y todo el futuro de la humanidad—, no es cierto que la probabilidad de que puedas cambiar las cosas trabajando en la reducción de los riesgos asociados a la IA sea lo suficientemente pequeña como para que se aplique este argumento.
Desearíamos que la probabilidad de una catástrofe derivada de la IA fuera tan extremadamente pequeña.
En cambio, pensamos que la probabilidad de una catástrofe de este tipo (en mi opinión, en torno al 1 % este siglo) es mucho, mucho mayor que cosas que la gente intenta evitar todo el tiempo, como los accidentes de avión mortales, que ocurren en el 0,00002 % de los vuelos.
Sin embargo, lo que realmente importa es hasta qué punto tu trabajo puede reducir las probabilidades de que se produzca una catástrofe.
Veamos qué impacto tendría trabajar para reducir los riesgos asociados a la IA. Por ejemplo, si se aceptan estas premisas:
Entonces, cada persona involucrada tiene una participación de 0,00006 puntos porcentuales en la prevención de esta catástrofe.
Otras formas de actuar de manera altruista implican probabilidades de magnitud similar.
Las probabilidades de que un activista voluntario influya en las elecciones presidenciales de EE. UU. se sitúan entre el 0,001 % y el 0,00001 %. Pero puedes justificar el trabajo en una campaña por el gran impacto que esperas tener en el mundo si gana tu candidato preferido.
Las probabilidades de éxito son aún menores en cosas como intentar reformar las instituciones políticas o trabajar en alguna investigación científica fundamental para desarrollar conocimientos que algún día puedan ayudar a curar el cáncer.
En general, como sociedad, es posible que seamos capaces de reducir la probabilidad de una catástrofe relacionada con la IA del 10 % (o más) a casi cero, lo que claramente valdría la pena para un grupo de personas, así que también tiene que valer la pena para los individuos.
No es razonable dejar de hacer ciencia fundamental porque cada investigador tiene una probabilidad baja de hacer el próximo gran descubrimiento, o dejar de esforzarnos por mantener la paz porque cualquier persona tiene una probabilidad baja de evitar la Tercera Guerra Mundial. Como sociedad, necesitamos personas que trabajen en estos grandes problemas, y quizá tú puedas ser una de ellas.
Como hemos mencionado anteriormente, conocemos dos formas principales de contribuir a reducir los riesgos existenciales derivados de la IA:
La mejor forma de colaborar sería seguir una carrera profesional en una de estas áreas o en un área de apoyo.
El primer paso es aprender mucho más sobre las tecnologías, los problemas y las posibles soluciones. Hemos recopilado algunas listas de nuestros recursos favoritos aquí, y nuestra principal recomendación es echar un vistazo al plan de estudios de alineación técnica de la IA del curso AGI Safety Fundamentals.
Si decides seguir una carrera profesional en este campo, te recomendamos que trabajes en una organización dedicada específicamente a este problema (aunque hay otras formas de ayudar además de trabajar en organizaciones existentes, como explicamos brevemente más abajo).
Hay muchos enfoques sobre la seguridad técnica de la IA, entre ellos:
Para más información, véase My overview of the AI alignment landscape.
Laboratorios de IA de la industria que cuentan con equipos de seguridad técnica empírica o se centran por completo en la seguridad:
Laboratorios de seguridad de la IA teóricos y conceptuales:
La seguridad de la IA en el mundo académico (una lista muy poco exhaustiva; aunque el número de académicos centrados explícita y públicamente en la seguridad de la IA es reducido, es posible llevar a cabo investigaciones relevantes en un conjunto mucho más amplio de instituciones):
Si estás interesado en aprender más sobre la seguridad técnica de la IA como área de trabajo —por ejemplo, cuáles son las diferentes técnicas, las escuelas de pensamiento y los modelos de amenaza—, nuestra principal recomendación es que eches un vistazo al plan de estudios sobre alineación técnica de AGI Safety Fundamentals.
Aquí analizamos esta carrera con más detalle:
Evaluación de la investigación sobre seguridad técnica de la IA como carrera profesional.
Alternativamente, si buscas algo más concreto y progresivo (con muy poca información de carácter introductorio), echa un vistazo a esta guía detallada para seguir una carrera en alineación de la IA.
Es importante señalar que no es necesario ser un académico o un experto en IA o seguridad de la IA para contribuir a la investigación sobre seguridad de la IA. Por ejemplo, se necesitan ingenieros de software en muchos lugares que realizan investigación sobre seguridad técnica, y también destacamos otros roles más abajo.
Aparte de los problemas técnicos, nos enfrentamos a una serie de cuestiones de gobernanza, entre las que se incluyen:
Para abordar estos problemas, necesitamos una combinación de investigación y políticas.7
Estamos en las primeras fases de la definición de este problema y de las formas más eficaces de abordarlo. Por eso es crucial que investiguemos más. Esto incluye investigaciones que sirvan para elaborar pronósticos sobre lo que cabe esperar que ocurra, e investigaciones de estrategia y política sobre las mejores formas de actuar para reducir los riesgos.
Pero además, a medida que la IA vaya teniendo un impacto cada vez mayor en nuestra sociedad, será crucial que los gobiernos y las empresas cuenten con las mejores políticas para dar forma a su desarrollo. Por ejemplo, los gobiernos podrían imponer acuerdos para no escatimar en seguridad, fomentar el trabajo de los investigadores menos propensos a causar daño o hacer que los beneficios de la IA se distribuyan de forma más equitativa. Así que, con el tiempo, podría ser fundamental abogar y presionar por una política adecuada en materia de IA, aunque todavía no sabemos qué políticas sería útil poner en práctica.
Organizaciones de estrategia y política de la IA:
Si estás interesado en aprender más sobre la gobernanza de la IA, nuestra principal recomendación es que eches un vistazo al plan de estudios sobre gobernanza de AGI Safety Fundamentals.
Aquí analizamos esta carrera con más detalle:
Evaluación de la gobernanza y la coordinación de la IA como carrera profesional.
También hay que tener en cuenta que podría ser especialmente importante para quienes tengan las aptitudes personales adecuadas trabajar en estrategia y gobernanza de la IA en China.
Incluso en una organización de investigación, aproximadamente la mitad del personal realizará otras tareas esenciales para que la organización rinda al máximo y tenga impacto. Contar con personas de alto rendimiento en estas funciones es crucial.
Creemos que a menudo se subestima la importancia de estas funciones porque el trabajo es menos visible. Por eso hemos escrito varias evaluaciones de estas áreas, para ayudar a más personas a acceder a estas carreras profesionales y tener éxito, entre ellas:
La seguridad de la IA es un gran problema y necesita la ayuda de personas que realicen actividades de diverso tipo.
En lugar de trabajar directamente en el problema, una forma importante de ayudar es trabajar en un puesto que dirija financiación o personal hacia el riesgo asociado a la IA. Hemos analizado algunas carreras profesionales en este sentido, entre ellas:
Todo esto puede salir mal, así que el primer paso es informarse bien sobre el tema.
También hay otras funciones técnicas además de la investigación sobre seguridad que podrían ayudar a contribuir, como:
Puedes leer más sobre todas estas carreras profesionales —por qué creemos que son útiles, cómo acceder a ellas y cómo predecir si son adecuadas para ti— en nuestra página de evaluaciones de carreras profesionales.
Nuestra bolsa de trabajo ofrece oportunidades en gobernanza y en seguridad técnica de la IA.
A lo largo de este artículo te hemos ofrecido un gran número de recursos para obtener más información; a continuación te mostramos algunos de nuestros favoritos:
En el pódcast de 80 000 Horas, tenemos un número de entrevistas en profundidad con personas que trabajan activamente para dar forma positiva al desarrollo de la inteligencia artificial:
Si quieres profundizar mucho más, el curso AGI safety fundamentals es un buen punto de partida. Hay dos cursos para elegir: alineación técnica de la IA o gobernanza de la IA. Si tienes una formación más técnica, puedes probar Intro to ML Safety, un curso del Center for AI Safety.
Y por último, aquí tienes algunas fuentes generales (más que artículos específicos) que quizá quieras explorar:
Muchísimas gracias a Joel Becker, Tamay Besiroglu, Jungwon Byun, Joseph Carlsmith, Jesse Clifton, Emery Cooper, Ajeya Cotra, Andrew Critch, Anthony DiGiovanni, Noemi Dreksler, Ben Edelman, Lukas Finnveden, Emily Frizell, Ben Garfinkel, Katja Grace, Lewis Hammond, Jacob Hilton, Samuel Hilton, Michelle Hutchinson, Caroline Jeanmaire, Kuhan Jeyapragasan, Arden Koehler, Daniel Kokotajlo, Victoria Krakovna, Alex Lawsen, Howie Lempel, Eli Lifland, Katy Moore, Luke Muehlhauser, Neel Nanda, Linh Chi Nguyen, Luisa Rodríguez, Caspar Oesterheld, Ethan Pérez, Charlie Rogers-Smith, Jack Ryan, Rohin Shah, Buck Shlegeris, Marlene Staib, Andreas Stuhlmüller, Luke Stebbing, Nate Thomas, Benjamin Todd, Stefan Torges, Michael Townsend, Chris van Merwijk, Hjalmar Wijk y Mark Xu por la revisión de este artículo o por sus comentarios y conversaciones extremadamente perspicaces y útiles. (Esto no quiere decir que todos ellos estén de acuerdo con todo lo que hemos dicho aquí; de hecho, ¡hemos tenido muchos desacuerdos animados en los comentarios a este artículo!)