Prevenir una catástrofe relacionada con la inteligencia artificial
¿Por qué los humanos, y no los chimpancés, controlan el destino del mundo?
Los humanos han transformado cada rincón de nuestro planeta. Los chimpancés, a pesar de ser bastante inteligentes en comparación con otros animales no humanos, no han hecho nada parecido.
Esto se debe (a grandes rasgos) a la inteligencia de los humanos.a
Las empresas y los gobiernos están gastando miles de millones de dólares al año en el desarrollo de sistemas de IA; y a medida que estos sistemas se vuelvan más avanzados, podrían (con el correr del tiempo) desplazar a los humanos de la posición de seres más inteligentes del planeta. Como veremos, están realizando progresos. Muy rápido.
Cuánto tardaremos exactamente en crear una inteligencia artificial que sea mejor que los humanos en la mayoría de las cosas es un tema de intenso debate. Pero parece probable que sea posible, y nuestra conjetura es que ocurrirá este siglo.
La observación de que es posible que la inteligencia humana sea superada este siglo no es un argumento riguroso o concluyente de que la inteligencia artificial vaya a ser un acontecimiento muy significativo, o de que sea una amenaza para la humanidad. Más adelante profundizaremos en esos argumentos.
Pero parece razonable afirmar que el potencial desarrollo de una inteligencia rival en la Tierra en un futuro cercano debería ser, al menos, motivo de preocupación.
¿Tendrán objetivos los sistemas que desarrollemos? Si es así, ¿qué objetivos tendrán?
¿Apoyarán los intentos de la humanidad por hacer el bien? ¿O podríamos perder el control sobre nuestro futuro y poner fin a la historia humana?
La respuesta honesta a estas preguntas es que no lo sabemos.
Pero no deberíamos quedarnos esperando sin hacer nada, con los dedos cruzados, contemplando estos desarrollos a la distancia. La inteligencia artificial podría cambiarlo todo radicalmente, por lo que contribuir a encaminar su progreso de forma adecuada podría ser lo más importante que podamos hacer.
Mi expectativa es que se producirán avances sustanciales en IA en las próximas décadas, incluso hasta alcanzar el punto de que las máquinas lleguen a superar a los humanos en muchas o en todas las tareas. Esto podría tener enormes beneficios, ayudando a resolver problemas globales actualmente insolubles, pero también podría plantear graves riesgos. Estos riesgos podrían surgir accidentalmente (por ejemplo, si no encontramos soluciones técnicas a los problemas de seguridad de los sistemas de IA) o deliberadamente (por ejemplo, si los sistemas de IA empeoran los conflictos geopolíticos). Creo que hay que seguir trabajando para reducir estos riesgos.
Algunos de estos riesgos asociados a la IA avanzada podrían ser existenciales, es decir, podrían causar la extinción humana o una pérdida de poder igual de permanente y grave para la humanidad.b Aún no se ha dado ninguna respuesta satisfactoria a las preocupaciones —analizadas más adelante— sobre cómo desarrollar e integrar en nuestra sociedad de forma segura esta tecnología transformadora que se aproxima rápidamente. Encontrar respuestas a estas preocupaciones es algo muy desatendido, y puede que sea tratable. Estimo que hay unas 400 personas en todo el mundo trabajando directamente en ello.c En consecuencia, la posibilidad de que se produzca una catástrofe relacionada con la IA puede ser el problema más apremiante del mundo y la mejor opción a la que podrían dedicarse quienes están en condiciones de contribuir a resolverlo.
Entre las opciones más prometedoras para contribuir a resolver este problema se encuentran la investigación técnica sobre cómo crear sistemas de IA seguros, la investigación estratégica sobre los riesgos concretos que podría plantear la IA y la investigación política sobre las formas en que las empresas y los gobiernos podrían mitigar estos riesgos. Si se desarrollan políticas valiosas, necesitaremos personas que las pongan en vigor y las apliquen. También hay muchas oportunidades de tener un gran impacto en una serie de roles complementarios, como la gestión de operaciones, el periodismo, ganar para donar, etc. Enumeramos algunos de estos roles más adelante.
Creemos que este es uno de los problemas más apremiantes del mundo.
Si resolviéramos este problema, ¿en qué medida mejoraría el mundo? Más información.
La IA tendrá un impacto múltiple y tiene el potencial de hacer mucho bien. Pero nos preocupa especialmente la posibilidad de que se produzcan resultados extremadamente malos, sobre todo una catástrofe existencial. Algunos expertos en el riesgo asociado a la IA creen que las probabilidades son tan bajas como el 0,5 %, mientras que otros piensan que son superiores al 50 %. Estamos abiertos a que cualquiera de los dos esté en lo cierto, y puedes ver más discusiones al respecto aquí. Mi estimación general es que el riesgo de una catástrofe existencial causada por la inteligencia artificial en 2100 se sitúa en torno al 1 %, aunque tal vez sea un poco mayor. Esto me ubica en el extremo menos preocupado del personal de 80 000 Horas: como organización, nuestra opinión es que el riesgo oscila entre el 3 % y el 50 %.
¿Cuántos recursos se dedican actualmente a tratar de resolver este problema? Más información.
En 2020 se gastaron alrededor de 50 millones de dólares en reducir los riesgos catastróficos asociados a la IA, mientras que se gastaron miles de millones en mejorar las capacidades de la IA.d Aunque estamos viendo una creciente preocupación por parte de los expertos en IA, estimo que todavía hay solo unas 400 personas que trabajan de forma directa en reducir las probabilidades de una catástrofe existencial relacionada con la IA (con un intervalo de confianza del 90 % que oscila entre 200 y 1 000).e De ellas, parece que alrededor de tres cuartas partes trabajan en la investigación de la seguridad técnica de la IA, mientras que el resto se divide entre la investigación sobre estrategia (y otras formas de gobernanza) y la promoción.f
Si duplicáramos el esfuerzo directo en este problema, ¿qué fracción del problema restante esperaríamos resolver? Más información.
Parece difícil avanzar en la prevención de una catástrofe relacionada con la IA, pero hay muchas vías para seguir investigando y el campo es muy joven. Así que creo que es moderadamente tratable, aunque no estoy muy seguro; de nuevo, las valoraciones sobre la tratabilidad de la seguridad de la IA varían enormemente.
En profundidad.g
¿Por qué creemos que reducir los riesgos asociados a la IA es una de las cuestiones más apremiantes de nuestro tiempo? En resumen, nuestras razones son las siguientes:
Vamos a tratar cada uno de estos puntos por separado; a continuación, consideraremos algunos de los mejores argumentos en contra, explicaremos cosas concretas que puedes hacer para contribuir y, por último, presentaremos algunos de los mejores recursos para aprender más sobre el tema.
En mayo de 2023, cientos de destacados científicos de la IA —y otras figuras notables— firmaron una declaración en la que afirmaban que mitigar el riesgo de extinción derivado de la IA debería ser una prioridad global.
Así que está bastante claro que al menos algunos expertos están preocupados.
Pero, ¿hasta qué punto? Y, ¿se trata solo de una opinión marginal?
Analizamos tres encuestas realizadas a investigadores de IA que publicaron en NeurIPS e ICML (dos de las conferencias de aprendizaje automático más prestigiosas): una de 2016, otra de 2019 y una tercera de 2022.j
Es importante señalar que podría haber un sesgo de selección considerable en encuestas como estas. Por ejemplo, se podría pensar que los investigadores que asisten a las principales conferencias sobre IA tienen más probabilidades de ser optimistas con respecto a la IA, porque han sido seleccionados para pensar que la investigación sobre IA tiene consecuencias positivas para el mundo. Por otro lado, se podría pensar que los investigadores que ya están preocupados por la IA tienen más probabilidades de responder a una encuesta en la que se les pregunte por estas preocupaciones.k
Dicho esto, he aquí lo que encontramos:
En las tres encuestas, el investigador mediano pensaba que las probabilidades de que la IA fuera “extremadamente buena” eran razonablemente altas: 20 % en la encuesta de 2016, 20 % en la de 2019 y 10 % en la de 2022.l
De hecho, los sistemas de IA ya están teniendo efectos positivos sustanciales: por ejemplo, en atención médica o en investigación académica.
Pero en las tres encuestas, el investigador mediano también estimó que había una probabilidad pequeña —y ciertamente no despreciable— de que la IA fuera “extremadamente mala (por ejemplo, que cause la extinción humana)”: un 5 % de probabilidad de resultados extremadamente malos en la encuesta de 2016, un 2 % en la de 2019 y un 5 % en la de 2022.m
En la encuesta de 2022, se les preguntó a los participantes específicamente sobre las probabilidades de una catástrofe existencial causada por los futuros avances de la IA y, de nuevo, más de la mitad de los investigadores pensaban que las probabilidades de una catástrofe existencial eran superiores al 5 %.n
Así pues, los expertos no se ponen de acuerdo sobre el grado en que la IA plantea un riesgo existencial, un tipo de amenaza a la que, según hemos argumentado, debe asignarse una enorme importancia moral.
Esto encaja con nuestra comprensión del estado de este campo de investigación. Tres de los principales laboratorios que desarrollan IA (DeepMind, Anthropic y OpenAI) también tienen equipos dedicados a resolver problemas de seguridad técnica que podrían, por las razones que exponemos más adelante, constituir una amenaza existencial para la humanidad.o
También hay varios grupos de investigación académica (en el MIT, en Oxford, en Cambridge, en la Universidad Carnegie Mellon y en la Universidad de California en Berkeley, entre otras universidades) centrados en estos mismos problemas de seguridad técnica de la IA.p
Es difícil saber exactamente qué conclusiones sacar de todo esto, pero estamos seguros de que no es una posición marginal en este campo pensar que existe un riesgo sustancial de resultados tan malos como una catástrofe existencial. Algunos expertos en la materia sostienen, sin embargo, que los riesgos son exagerados.
Aun así, ¿por qué adoptamos el punto de vista del grupo más preocupado? En pocas palabras, porque hay argumentos que nos parecen convincentes para afirmar que la IA podría suponer una amenaza existencial: argumentos que analizaremos paso a paso a continuación.
Es importante reconocer que el hecho de que muchos expertos reconozcan que existe un problema no significa que todo esté bien, ni que los expertos se estén ocupando de resolverlo. En general, creemos que este problema sigue estando muy desatendido, ya que solo unas 400 personas trabajan directamente en él en todo el mundo (más información al respecto más abajo).
Mientras tanto, se invierten miles de millones de dólares al año en desarrollar las capacidades de la AI.q
Antes de intentar averiguar cómo podría ser el futuro de la IA, es útil examinar lo que la IA puede hacer actualmente.
Las técnicas modernas de IA se basan en el aprendizaje automático (AA): modelos que mejoran automáticamente a partir de los datos que reciben. La forma más común de esta técnica utilizada hoy en día se conoce como aprendizaje profundo.
En la actualidad, los sistemas de AA solo pueden realizar una fracción muy pequeña de las tareas que pueden hacer los humanos, y (con algunas excepciones) solo dentro de especialidades estrechas (como jugar a un juego específico o generar un tipo particular de imagen).
Dicho esto, desde el uso cada vez más extendido del aprendizaje profundo a mediados de la década de 2010, se han producido enormes avances respecto de lo que se puede conseguir con el AA. He aquí una breve cronología de solo algunos de los avances que vimos de 2019 a 2022:
Si te pareces a nosotros, te habrá sorprendido la complejidad y generalidad de las tareas que estos sistemas son capaces de llevar a cabo.
Y si la tecnología sigue avanzando a este ritmo, parece claro que tendrá importantes efectos en la sociedad. Como mínimo, la automatización de tareas hace que llevarlas a cabo sea más barato. En consecuencia, podríamos asistir a un rápido aumento del crecimiento económico (quizá incluso al nivel que vimos durante la Revolución Industrial).
Si somos capaces de automatizar parcial o totalmente el avance científico podríamos ver cambios más transformadores en la sociedad y en la tecnología.s
Y tal vez esto recién empiece. Puede que consigamos que las computadoras acaben automatizando todo lo que los humanos pueden hacer. Esto parece posible, al menos en principio. Pues parece que, con suficiente potencia y complejidad, una computadora debería ser capaz de simular el cerebro humano. Esto sería en sí mismo una forma de automatizar todo lo que los humanos pueden hacer (aunque no sea el método más eficiente de lograrlo).
Como veremos en la próxima sección, hay indicios de que es posible una automatización a gran escala ampliando las técnicas existentes.
Hay tres cosas que son cruciales para crear una IA con tecnologías de aprendizaje automático:
Hablamos con Danny Hernandez, que en aquel momento era investigador científico del equipo Foresight de OpenAI. Hernández y su equipo analizaron la evolución de dos de estos dos insumos (el poder de cómputo y la eficiencia de los algoritmos).
Descubrieron que, desde 2012, la cantidad de poder de cómputo utilizada para el entrenamiento de los mayores modelos de IA ha aumentado exponencialmente, duplicándose cada 3,4 meses.
Es decir, desde 2012, la cantidad de poder de cómputo utilizada para entrenar nuestros modelos de aprendizaje automático más grandes ha crecido más de mil millones de veces.
Hernández y su equipo también analizaron cuánto poder de cómputo ha sido necesario para entrenar una red neuronal con un rendimiento equivalente al de AlexNet (uno de los primeros algoritmos de clasificación de imágenes).
Descubrieron que la cantidad de poder de cómputo requerida para el mismo rendimiento ha ido cayendo exponencialmente, reduciéndose a la mitad cada 16 meses.
Así, desde 2012, la cantidad de poder de cómputo necesaria para el mismo nivel de rendimiento se ha reducido en más de 100 veces. Combinado con el aumento del poder de cómputo utilizado, esto representa un crecimiento considerable.t
Es difícil decir si estas tendencias continuarán, pero dan muestras de increíbles avances en la última década en lo que es posible hacer con el aprendizaje automático.
De hecho, parece que el aumento del tamaño de los modelos (y de la cantidad de poder de cómputo utilizada para entrenarlos) introduce comportamientos cada vez más sofisticados. Esta es la razón por la que sistemas como GPT-3 son capaces de realizar tareas para las que no han sido entrenados específicamente.
Estas observaciones han dado lugar a la hipótesis del escalamiento: podemos construir redes neuronales cada vez más grandes y, como resultado, acabaremos teniendo una inteligencia artificial cada vez más potente, y esta tendencia de aumento de las capacidades puede llegar hasta la IA de nivel humano y más allá.
Si esto es cierto, podemos intentar predecir cómo aumentarán las capacidades de la tecnología de la IA a lo largo del tiempo simplemente observando a qué velocidad estamos aumentando la cantidad de poder de cómputo disponible para entrenar modelos.
Pero, como veremos, no es solo la hipótesis del escalamiento la que sugiere que podríamos acabar con una IA extremadamente potente relativamente pronto: otros métodos de predicción del progreso de la IA llegan a conclusiones similares.
Es difícil predecir con exactitud cuándo desarrollaremos una IA que, en términos esperados, sea enormemente transformadora para la sociedad (para bien o para mal); por ejemplo, automatizando todo el trabajo humano o cambiando drásticamente la estructura de la sociedad.w Pero aquí repasaremos algunos enfoques.
Una opción es encuestar a expertos. Los datos de la encuesta de 2019 a 300 expertos en IA implican que hay un 20 % de probabilidad de inteligencia artificial de nivel humano (que sería seguramente transformadora en este sentido) para 2036, un 50 % de probabilidad para 2060 y un 85 % para 2100.x Hay muchas razones para desconfiar de estas estimaciones,y pero lo tomamos como un dato a tener en cuenta.
Ajeya Cotra (investigadora de Open Philanthropy) intentó pronosticar cuándo surgiría una IA transformadora comparando el aprendizaje profundo moderno con el cerebro humano. El aprendizaje profundo implica el uso de una enorme cantidad de poder de cómputo para entrenar un modelo, antes de que ese modelo sea capaz de realizar alguna tarea. También existe una relación entre la cantidad de poder de cómputo utilizada para entrenar un modelo y la cantidad que el modelo utiliza cuando se ejecuta. Y, si la hipótesis del escalamiento es correcta, deberíamos esperar que el rendimiento de un modelo mejore previsiblemente a medida que aumenta el poder de cómputo utilizado. Así que Cotra utilizó diversos métodos (por ejemplo, estimar el poder de cómputo que utiliza el cerebro humano en diversas tareas) para calcular la cantidad de poder de cómputo necesaria para entrenar un modelo que, una vez ejecutado, pudiera realizar las tareas de mayor dificultad para el ser humano. A continuación, calculó cuándo la humanidad estaría en condiciones de pagar por ese poder de cómputo.
En la actualización de 2022 de las conclusiones de su informe, Cotra calcula que hay un 35 % de probabilidades de que la IA transformadora llegue en 2036, un 50 % en 2040 y un 60 % en 2050, y señala que estas estimaciones no son estables.z
Tom Davidson (también investigador de Open Philanthropy) escribió un informe para complementar el trabajo de Cotra. Intentó averiguar cuándo podríamos esperar ver una IA transformadora basándose únicamente en varios tipos de investigación que podrían ser propios de la IA transformadora (por ejemplo, desarrollar una tecnología que sea el objetivo final de un campo CTIM o demostrar conjeturas matemáticas difíciles) y cuánto tiempo ha tardado cada uno de estos tipos de investigación en completarse en el pasado, dada una cierta cantidad de financiación y esfuerzo para la investigación.
El informe de Davidson estima que, sobre la base de esta información solamente, se podría pensar que existe un 8 % de probabilidades de que se desarrolle una IA transformadora en 2036, un 13 % en 2060 y un 20 % en 2100. Sin embargo, Davidson no tiene en cuenta los avances reales de la IA desde que comenzó la investigación en la década de 1950, y señala que parece probable que la cantidad de esfuerzo que dedicamos a la investigación de la IA aumente a medida que la IA sea cada vez más relevante para nuestra economía. Por ello, Davidson considera que la IA transformadora se desarrollará antes de lo que cabría esperar a partir de sus estimaciones.
Holden Karnofsky, actual director de estrategia de la IA de Open Philanthropy, intentó resumir los resultados de todos estos enfoques. En su opinión, hay más de un 10 % de probabilidades de que veamos una IA transformadora en 2036, un 50 % en 2060 y un 66 % en 2100. Y estas suposiciones podrían ser conservadoras, ya que no tienen en cuenta que, en nuestra opinión, el progreso ha ido más rápido de lo previsto desde que se hicieron las estimaciones.
Método | Probabilidad de una IA transformadora para 2036 | Probabilidad de una IA transformadora para 2060 | Probabilidad de una IA transformadora para 2100 |
---|---|---|---|
Encuesta a expertos (Zhang et al., 2022) | 20 % | 50 % | 85 % |
Anclajes biológicos (Cotra, 2022) | 35 % | 60 % (para 2050) | 80 % (según el informe de 2020) |
Probabilidades a priori semiinformativas (Davidson, 2021) | 8 % | 13 % | 20 % |
Estimación general (Karnofsky, 2021) | 10 % | 50 % | 66 % |
En general, parece que la IA avanza rápidamente. Cada año se invierte más dinero y talento en este campo, y los modelos son cada vez más grandes y eficientes.
Incluso si la IA avanzara más despacio, nos preocuparía: la mayoría de los argumentos sobre los riesgos asociados a la IA (a los que nos referiremos más adelante) no dependen de este progreso acelerado. Sin embargo, la velocidad de estos avances recientes aumenta la urgencia de la cuestión.
(Es muy posible que estas estimaciones sean erróneas: más adelante veremos que la posibilidad de que tengamos mucho tiempo para trabajar en este problema es uno de los mejores argumentos en contra de que este problema sea apremiante.)
Hasta ahora hemos argumentado que esperamos que la IA sea una nueva tecnología importante y potencialmente transformadora.
También hemos visto algunas razones para pensar que estos sistemas de IA transformadores podrían desarrollarse este siglo.
Ahora abordaremos la cuestión principal: ¿por qué creemos que esto es tan importante?
Podría haber muchas razones. Si la IA avanzada será tan transformadora como lo parece, habrá muchas consecuencias importantes. Pero aquí vamos a explicar la cuestión que nos parece más preocupante: los sistemas de IA podrían plantear riesgos al buscar y obtener poder.
Argumentaremos que:
Pensando en cada paso, creo que hay algo así como un 1 % de probabilidades de que se produzca una catástrofe existencial en este siglo a causa de sistemas de IA que buscan el poder. Esta es mi estimación general del riesgo, que incorpora consideraciones del argumento a favor del riesgo (que es en sí mismo probabilístico), así como razones por las que este argumento podría ser incorrecto (algunas de las cuales discuto más abajo). Esto me sitúa en el extremo menos preocupado del personal de 80 000 Horas, cuyas opiniones en nuestra última encuesta oscilaron entre el 1 y el 55 %, con una mediana del 15 %.
Vamos a argumentar que los sistemas futuros con las siguientes tres propiedades podrían constituir una amenaza especialmente seria para la humanidad:1
Tienen objetivos y son buenos haciendo planes.
No todos los sistemas de IA tienen objetivos o hacen planes para alcanzarlos. Pero algunos sistemas (como algunas IA que juegan al ajedrez) pueden concebirse de este modo. Cuando hablamos de una IA que busca el poder, estamos considerando sistemas capaces de planificar relativamente avanzados, que tienen planes orientados a objetivos y que son capaces de llevarlos a cabo.
Tienen una excelente percepción estratégica.
Un sistema planificador particularmente bueno tendría una comprensión del mundo lo suficientemente buena como para darse cuenta de los obstáculos y oportunidades que pueden facilitar o dificultar sus planes, y responder a ellos en consecuencia. Siguiendo a Carlsmith, llamaremos a esta propiedad percepción estratégica, ya que permite a los sistemas elaborar estrategias de un modo más sofisticado.
Tienen capacidades muy avanzadas en relación con los sistemas actuales.
Para que estos sistemas tengan un efecto real en el mundo, necesitamos no solo que hagan planes, sino también que sean buenos en todas las tareas específicas necesarias para ejecutar esos planes.
Dado que nos preocupan los sistemas que intentan arrebatarle el poder a la humanidad, nos preocupan especialmente los sistemas de IA que podrían ser mejores que los humanos en una o más tareas que otorgan a las personas un poder significativo cuando se llevan a cabo con éxito en el mundo actual.
Por ejemplo, las personas que son muy buenas en persuasión y/o manipulación a menudo son capaces de obtener poder, por lo que una IA que sea buena en estas cosas también podría ser capaz de obtener poder. Otros ejemplos podrían incluir el acceso no autorizado a otros sistemas, las tareas dentro de la investigación científica y de ingeniería, así como la estrategia empresarial, militar o política.
Como hemos visto más arriba, ya hemos desarrollado sistemas que son muy buenos llevando a cabo tareas específicas.
También hemos creado sistemas planificadores rudimentarios, como AlphaStar, que juega hábilmente al juego de estrategia Starcraft, y MuZero, que juega al ajedrez, al shogi y al go.aa
No estamos seguros de que estos sistemas elaboren planes en busca de objetivos per se, porque no estamos seguros de qué significa exactamente “tener objetivos”. Sin embargo, dado que sistemáticamente planifican de formas que alcanzan objetivos, parece que tienen objetivos en algún sentido.
Además, algunos sistemas existentes parecen representar objetivos como parte de sus redes neuronales.ab
Dicho esto, la planificación en el mundo real (en contraposición con la planificación en los juegos) es mucho más compleja, y hasta la fecha no conocemos ningún ejemplo inequívoco de un sistema planificador orientado a objetivos o que muestre un alto grado de percepción estratégica.
Pero, como ya hemos dicho, esperamos ver nuevos avances en este siglo. Y creemos que es probable que estos avances produzcan sistemas con las tres propiedades anteriores.
Esto se debe a que creemos que existen incentivos especialmente fuertes (como el lucro) para desarrollar este tipo de sistemas. En resumen: porque ser capaz de planificar la consecución de un objetivo y ejecutar ese plan parece una forma especialmente poderosa y general de influir en el mundo.
Lograr que las cosas se hagan —ya sea que una empresa venda productos, una persona compre una casa o un gobierno desarrolle una política— casi siempre parece requerir estas habilidades. Un ejemplo sería asignar un objetivo a un sistema poderoso y esperar que lo consiga, en lugar de tener que guiarlo a cada paso. Así pues, parece probable que los sistemas planificadores sean extremadamente útiles (tanto económica como políticamente).ac
Y si los sistemas son extremadamente útiles, es probable que haya incentivos considerables para desarrollarlos. Por ejemplo, una IA que pudiera planificar las acciones de una empresa con el objetivo de aumentar sus beneficios (es decir, una IA encargada de la dirección general de una empresa) probablemente proporcionaría una riqueza significativa a las personas implicadas: un incentivo directo para desarrollar una IA de este tipo.
En consecuencia, si podemos desarrollar sistemas con estas propiedades (y todo indica que podremos hacerlo), parece probable que los desarrollemos.ae
Hay razones para pensar que este tipo de sistemas planificadores avanzados estarán desalineados. Es decir, intentarán hacer cosas que no queremos que hagan.af
Hay muchas razones por las que los sistemas podrían no tener el objetivo de hacer exactamente lo que queremos que hagan. Por un lado, no sabemos cómo dar a los sistemas los objetivos precisos que queremos utilizando técnicas modernas de AA (más detalles aquí).ag
Vamos a centrarnos específicamente en algunas razones por las que, por defecto, los sistemas podrían estar desalineados hasta el punto de desarrollar planes que pongan en peligro la capacidad de la humanidad para influir en el mundo, aun cuando no queremos que esa influencia se pierda.ah
¿Qué queremos decir con “por defecto”? Esencialmente, que a menos que tengamos éxito en una búsqueda activa de soluciones a algunos problemas (que podrían ser bastante difíciles de resolver), parece que crearemos una IA peligrosamente desalineada. (Hay razones por las que esta afirmación podría ser errónea, que discutimos más adelante.)
He aquí el argumento central de este artículo. Utilizaremos las tres propiedades mencionadas anteriormente: capacidad de planificación, percepción estratégica y capacidades avanzadas.
Para empezar, debemos darnos cuenta de que un sistema planificador que tiene un objetivo también desarrollará “objetivos instrumentales”: cosas que, de ocurrir, facilitarán la consecución de un objetivo general.
En nuestros planes utilizamos objetivos instrumentales todo el tiempo. Por ejemplo, un estudiante de bachillerato que planifica su carrera profesional puede pensar que ser admitido en la universidad le ayudará a conseguir un trabajo en el futuro. En este caso, “ser admitido en la universidad” sería un objetivo instrumental.
Un sistema de IA planificador lo suficientemente avanzado también incluiría objetivos instrumentales en sus planes generales.
Si un sistema de IA planificador también tiene suficiente percepción estratégica, será capaz de identificar hechos sobre el mundo real (incluyendo cosas que serían potencialmente un obstáculo para cualquier plan), y planificar en función de ellos. De manera crucial, estos hechos incluirían que el acceso a recursos (por ejemplo, dinero, poder de cómputo, influencia) y a mayores capacidades —es decir, formas de poder— abren nuevas maneras más eficaces de alcanzar objetivos.
Esto significa que, por defecto, los sistemas de IA de planificación avanzada tendrían algunos objetivos instrumentales preocupantes:
Fundamentalmente, una forma clara en que la IA podría asegurarse de seguir existiendo (y de no ser apagada) y de que sus objetivos no cambien nunca sería ganar poder sobre los humanos que podrían afectarla (este artículo analiza cómo los sistemas de IA serían de hecho potencialmente capaces de hacerlo).
Es más, los sistemas de IA que estamos considerando tienen capacidades avanzadas, lo que significa que pueden realizar una o más tareas que otorgan a las personas un poder significativo cuando se realizan bien en el mundo actual. Con tales capacidades avanzadas, estos objetivos instrumentales no estarán fuera de su alcance y, como resultado, parece que el sistema de IA utilizaría sus capacidades avanzadas para obtener poder como parte de la ejecución del plan. Si no queremos que los sistemas de IA que desarrollemos nos arrebaten el poder, esta sería una forma de desalineación especialmente peligrosa.
En los escenarios más extremos, un sistema de IA planificador con capacidades suficientemente avanzadas podría quitarnos todo nuestro poder.
Como comprobación intuitiva (muy poco rigurosa) de este argumento, intentemos aplicarlo a los seres humanos.
Los humanos tienen una gran variedad de objetivos. Para muchos de estos objetivos, alguna forma de búsqueda de poder es ventajosa: aunque no todo el mundo busca poder, mucha gente lo hace (en forma de riqueza o estatus social o político), porque es útil para conseguir lo que quieren. Esto no es catastrófico (¡normalmente!) porque, como seres humanos:
(Discutiremos si los humanos son verdaderamente agentes que buscan poder más adelante.)
Una IA suficientemente avanzada no tendría esas limitaciones.
El objetivo de todo esto no es decir que cualquier sistema de IA planificador avanzado intentará necesariamente buscar poder. Más bien, se trata de señalar que, a menos que encontremos una manera de diseñar sistemas que no tengan este defecto, nos enfrentaremos a un riesgo significativo.
Parece más que plausible que podamos crear un sistema de IA que no esté desalineado de esta manera, y así evitar cualquier situación de pérdida de poder. He aquí algunas estrategias que podríamos adoptar (además de, por desgracia, algunas razones por las que podrían ser difíciles en la práctica):ak
Controlar los objetivos del sistema. Podemos diseñar sistemas que simplemente no tengan objetivos a los que se aplique el argumento anterior y, por tanto, no incentiven el comportamiento de búsqueda de poder. Por ejemplo, podríamos encontrar formas de instruir explícitamente a los sistemas de IA para que no dañen a los humanos, o encontrar formas de recompensar a los sistemas de IA (en entornos de entrenamiento) por no participar en tipos específicos de comportamiento de búsqueda de poder (y también encontrar formas de garantizar que este comportamiento continúe fuera del entorno de entrenamiento).
Carlsmith da dos razones por las que hacer esto parece especialmente difícil.
En primer lugar, en el caso de los sistemas modernos de AA, no podemos establecer explícitamente los objetivos de un sistema, sino que recompensamos (o castigamos) a un sistema en un entorno de entrenamiento para que aprenda por sí mismo. Esto plantea una serie de dificultades, una de las cuales es la generalización impropia de objetivos. Los investigadores han descubierto ejemplos reales de sistemas que parecen haber aprendido a perseguir un objetivo en el entorno de entrenamiento, pero luego no consiguen generalizar ese objetivo cuando operan en un nuevo entorno. Esto plantea la posibilidad de que podamos pensar que hemos entrenado con éxito a un sistema de IA para que no busque poder, pero que, sin embargo, el sistema busque poder cuando se lo despliegue en el mundo real.2
En segundo lugar, cuando especificamos un objetivo para un sistema de IA (o, en aquellos casos en que no podemos hacerlo explícitamente, cuando buscamos formas de recompensar o castigar a un sistema durante el entrenamiento), solemos hacerlo dándole al sistema un sustituto con el que medir los resultados (por ejemplo, una respuesta humana positiva cuando el programa logra un cierto resultado), pero a menudo esos sustitutos no funcionan del todo bien.3 En general, cabe esperar que, aunque parezca que un sustituto tiene una buena correlación con los resultados, puede que no sea así cuando se optimiza ese sustituto. (Los ejemplos anteriores de políticos, empresas y el brazo robótico que no consigue agarrar una pelota son ilustraciones de este fenómeno.) Podemos ver un ejemplo más concreto del modo en que los problemas con los sustitutos pueden llevar a una catástrofe existencial aquí.
Para más información sobre la dificultad específica de controlar los objetivos asignados a las redes neuronales profundas entrenadas mediante aprendizaje autosupervisado y aprendizaje por refuerzo, recomendamos el análisis de Richard Ngo, investigador de gobernanza de OpenAI, sobre el modo en que los procesos de entrenamiento realistas conducen al desarrollo de objetivos desalineados.
Controlar los datos de entrada del sistema de IA. Los sistemas de IA solo desarrollarán planes para buscar poder si tienen suficiente información sobre el mundo para darse cuenta de que buscar poder es, de hecho, una forma de alcanzar sus objetivos.
Controlar las capacidades del sistema de IA. Es probable que los sistemas de IA solo puedan llevar a cabo planes para buscar poder si tienen capacidades suficientemente avanzadas en lo relativo a habilidades que otorgan a las personas un poder significativo en el mundo de hoy.
Pero para que cualquier estrategia funcione, tendrá que satisfacer estos dos criterios:
Mantener la utilidad de los sistemas de IA, y de este modo seguir siendo económicamente competitiva frente a sistemas menos seguros. Está claro que controlar los datos de entrada y las capacidades de los sistemas de IA tendrá costos, por lo que parece difícil garantizar que estos controles, aun si se desarrollan, se utilicen en la práctica. Esto también es un problema para controlar los objetivos de un sistema. Por ejemplo, podríamos evitar el comportamiento de búsqueda de poder asegurándonos de que los sistemas de IA se detengan a consultar a los humanos sobre cualquier decisión que tomen. Pero estos sistemas podrían ser mucho más lentos y menos útiles que los sistemas que no se detienen a realizar estas comprobaciones. En consecuencia, podría seguir habiendo incentivos para utilizar un sistema desalineado más rápido e inicialmente más eficaz (veremos más sobre los incentivos en la siguiente sección).
Continuar funcionando a medida que la capacidad de planificación y la percepción estratégica de los sistemas mejoran con el tiempo. Algunas soluciones aparentemente simples (por ejemplo, intentar dar a un sistema una larga lista de cosas que no tiene permitido hacer, como robar dinero o dañar físicamente a los humanos) dejan de funcionar a medida que aumenta la capacidad de planificación de los sistemas. Esto se debe a que, cuanto mayor sea la capacidad de un sistema para desarrollar planes, más probable será que identifique lagunas o fallos en la estrategia de seguridad y, en consecuencia, más probable será que el sistema desarrolle un plan que conlleve la búsqueda de poder.
Tras analizar el estado de la investigación sobre este tema y hablar con expertos en la materia, creemos que actualmente no hay formas conocidas de construir sistemas de IA alineados que probablemente satisfagan estos dos criterios.
Este es el argumento principal. Hay muchas variantes de este argumento. Algunos han argumentado que los sistemas de IA podrían moldear gradualmente nuestro futuro a través de formas más sutiles de influencia que, sin embargo, podrían equivaler a una catástrofe existencial; otros argumentan que, de hecho, la forma más probable de pérdida de poder es simplemente que estos sistemas acaben con todos los seres humanos. No estamos seguros de qué catástrofe sería la más probable, pero hemos intentado articular el núcleo del argumento, tal y como lo vemos: que la IA presenta un riesgo existencial.
Sin duda, hay razones por las que este argumento podría no ser correcto. A continuación, repasamos algunas de las razones que nos parecen más sólidas. Pero, en general, parece posible que, al menos en el caso de algunos tipos de sistemas planificadores avanzados, sea más difícil construir sistemas que no busquen el poder de esta forma peligrosa que construir sistemas que tengan estas características.
Cuando decimos que nos preocupan las catástrofes existenciales, no nos preocupan solo los riesgos de extinción. Esto se debe a que la fuente de nuestra preocupación está arraigada en el largoplacismo: la idea de que las vidas de todas las generaciones futuras importan y que, por tanto, es extremadamente importante proteger sus intereses.
Esto significa que cualquier acontecimiento que pueda impedir que las generaciones futuras vivan vidas colmadas de lo que las hace valiosas (ya sea la felicidad, la justicia, la belleza o la prosperidad general) cuenta como una catástrofe existencial.
Parece extremadamente improbable que seamos capaces de recuperar el poder frente a un sistema que ha logrado arrebatárnoslo. Y como resultado, la totalidad del futuro —todo lo que ocurra a la vida de origen terrestre, por un tiempo indefinido— estaría determinado por los objetivos de sistemas que, a pesar de haber sido construidos por nosotros, no están alineados con nuestros intereses. Quizá esos objetivos creen un futuro largo y próspero, pero vemos pocos motivos para confiar en ello.al
Esto no quiere decir que no pensemos que la IA también constituye un riesgo de extinción humana. De hecho, creemos que extinguir a los humanos es una forma muy verosímil en la que un sistema de IA podría garantizar de forma completa y permanente que nunca seamos capaces de recuperar el poder.
Ciertamente, nadie desarrollaría o utilizaría una IA desalineada si supiera que podría tener consecuencias tan terribles, ¿no?
Por desgracia, hay al menos dos razones por las que alguien podría desarrollar y desplegar una IA desalineada, que analizaremos sucesivamente:4
Imagina que hay un grupo de investigadores que intentan determinar, en un entorno de prueba, si un sistema que han construido está alineado. Hemos argumentado que una IA de planificación inteligente querrá mejorar sus capacidades para efectuar cambios en pos de su objetivo, y casi siempre es más fácil hacerlo si se despliega en el mundo real, donde hay disponible una gama mucho más amplia de acciones. Como resultado, cualquier IA desalineada que sea lo suficientemente sofisticada intentará entender lo que los investigadores quieren que haga y, al menos, fingirá estar haciendo eso, haciendo creer a los investigadores que está alineada. (Por ejemplo, un sistema de aprendizaje por refuerzo podría ser recompensado por cierto comportamiento aparente durante el entrenamiento, independientemente de lo que en realidad esté haciendo.)
Con suerte, seremos conscientes de este tipo de comportamiento y podremos detectarlo. Pero descubrir el engaño de una IA suficientemente avanzada parece potencialmente más difícil que descubrir a un humano mintiendo, lo cual no siempre es fácil. Por ejemplo, un sistema de IA suficientemente inteligente podría hacernos creer que hemos resuelto el problema del engaño de la IA, aunque no hayamos hecho tal cosa.
Si los sistemas de IA son buenos en el arte de engañar y tienen capacidades suficientemente avanzadas, una estrategia razonable para un sistema de este tipo podría ser engañar completamente a los humanos hasta que el sistema tenga una forma de garantizar que puede superar cualquier resistencia a sus objetivos.
También podríamos esperar que algunas personas con la capacidad de desplegar una IA desalineada siguieran adelante pese a cualquier señal de advertencia de desalineación que apareciera, debido a las dinámicas de carrera, que inducen a quienes intentan desarrollar una IA a querer ser los primeros en lograrlo.
Por ejemplo, si estás desarrollando una IA para mejorar la estrategia militar o política, es mucho más útil si ninguno de tus rivales tiene una IA igual de potente.
Estos incentivos se aplican incluso a las personas que intentan construir una IA con la esperanza de utilizarla para mejorar el mundo.
Por ejemplo, supongamos que has pasado años y años investigando y desarrollando un poderoso sistema de IA, y todo lo que quieres es utilizarlo para mejorar el mundo. Simplificando mucho las cosas, digamos que hay dos posibilidades:
Digamos que crees que hay un 90 % de probabilidades de que hayas conseguido construir una IA alineada. Pero dado que la tecnología suele desarrollarse a velocidades similares en toda la sociedad, hay altas probabilidades de que alguien más desarrolle pronto una IA poderosa. Y como crees que los demás son menos cautelosos o menos altruistas, crees que su IA solo tendrá una probabilidad del 80 % de estar alineada con buenos objetivos y una probabilidad del 20 % de provocar una catástrofe existencial. Y solo si tú llegas primero, tu IA más beneficiosa podrá ser dominante. Como resultado, puede que decidas seguir adelante con el despliegue de tu IA, aceptando el riesgo del 10 %.
Hasta ahora hemos expuesto lo que una gran parte de los investigadores del campoam consideran el principal riesgo existencial asociado a los posibles avances en la IA, que depende fundamentalmente de que una IA busque poder para alcanzar sus objetivos.
Si conseguimos evitar este comportamiento, habremos reducido sustancialmente el riesgo existencial.
Pero incluso si lo conseguimos, la IA podría plantear otros riesgos existenciales.
Nos preocupa que el conflicto entre grandes potencias también pueda constituir una amenaza sustancial para nuestro mundo, y parece probable que los avances de la IA cambien la naturaleza de la guerra: mediante las armas autónomas letalesan o mediante la automatización de la toma de decisiones.ao
En algunos casos, la guerra entre grandes potencias podría volverse una amenaza existencial, por ejemplo, si el conflicto es nuclear. Es posible que la IA pueda exacerbar los riesgos de escalada nuclear, aunque también hay razones para pensar que la IA podría disminuir este riesgo.ap
Por último, si un único actor produce sistemas de IA especialmente poderosos, podría considerarse que esto le da una ventaja estratégica decisiva. Por ejemplo, Estados Unidos puede producir una IA de planificación lo suficientemente inteligente como para garantizar que Rusia o China nunca puedan lanzar con éxito otra arma nuclear. Esto podría incentivar un primer ataque por parte de los rivales con el fin de evitar que estos planes desarrollados por la IA se pongan en marcha.
Prevemos que los sistemas de IA contribuirán a aumentar el ritmo del progreso científico.aq
Aunque esta automatización tendría ventajas evidentes (por ejemplo, el rápido desarrollo de nuevas medicinas), algunas formas de desarrollo tecnológico pueden suponer amenazas, incluso existenciales, para la humanidad. Esto podría ocurrir a través de la biotecnologíaar (para más información, véase nuestro artículo sobre prevención de pandemias catastróficas) o a través de alguna otra forma de tecnología peligrosa actualmente desconocida.as
Un gobierno autoritario en posesión de IA podría automatizar completamente el control y la represión de sus ciudadanos, así como influir significativamente en la información a la que accede la población, lo que quizá imposibilitaría la coordinación de acciones contra un régimen de este tipo.at
Si esto se convirtiera en una forma de verdadero totalitarismo estable, podría empeorar mucho la vida de la gente durante periodos de tiempo extremadamente largos, lo que lo convierte en un posible escenario especialmente aterrador derivado de la IA.
También nos preocupan las siguientes cuestiones, aunque sabemos menos al respecto:
Es una pregunta muy difícil de responder.
No hay ejemplos del pasado que podamos utilizar para determinar la frecuencia de las catástrofes relacionadas con la IA.
Todo lo que tenemos son argumentos (como los que hemos ofrecido previamente) y datos de menor relevancia, como la historia de los avances tecnológicos. Y, desde luego, no estamos seguros de que los argumentos que hemos presentado sean completamente correctos.
Consideremos el argumento que ofrecimos antes específicamente sobre los peligros de los sistemas de IA que buscan poder, basado en el informe de Carlsmith. Al final de su informe, Carlsmith da algunas estimaciones aproximadas de las probabilidades de que cada etapa de su argumento sea correcta (en caso de que la etapa anterior también lo sea):
Multiplicando estas cifras, Carlsmith calcula que hay un 5 % de probabilidades de que su argumento sea correcto y se produzca una catástrofe existencial por un sistema de IA desalineado que busca poder para 2070. Cuando hablamos con Carlsmith, nos dijo que en el año transcurrido entre la redacción de su informe y la publicación de este artículo, su estimación general de la probabilidad de una catástrofe existencial provocada por un sistema de IA que busca poder para 2070 había aumentado y ahora es mayor al 10 %.au
En opinión de Carlsmith, la probabilidad global de una catástrofe existencial provocada por la IA sería mayor, porque hay otras vías hacia una posible catástrofe, como las analizadas en la sección anterior, aunque creemos que es mucho menos probable que estas otras vías conduzcan a una catástrofe existencial.
Según otra estimación, en The Precipice, Toby Ord, filósofo y asesor de 80 000 Horas, calculó que hay un riesgo de catástrofe existencial de 1 entre 6 para 2120 (por cualquier causa) y que el 60 % de este riesgo proviene de una IA desalineada, lo que da un total de un 10 % de riesgo de catástrofe existencial por una IA desalineada para 2120.
Una encuesta realizada en 2021 a 44 investigadores que trabajaban en la reducción de los riesgos existenciales asociados a la IA reveló que la estimación media del riesgo era del 32,5 %; la respuesta más alta era del 98 % y la más baja, del 2 %.av Obviamente, hay mucho sesgo de selección: la gente elige trabajar en la reducción de los riesgos asociados a la IA porque cree que es inusualmente importante, así que deberíamos esperar que las estimaciones de esta encuesta sean sustancialmente más altas que las de otras fuentes. Pero es evidente que existe una gran incertidumbre sobre la magnitud de este riesgo y una enorme variación en las respuestas.
Los altos valores de todas estas estimaciones son alarmantes y perturbadores. No estamos nada seguros de que todos los argumentos sean correctos. Pero, en general, son las estimaciones más altas del nivel de riesgo existencial de cualquiera de las cuestiones que hemos examinado (como las pandemias artificiales, el conflicto entre grandes potencias, el cambio climático o la guerra nuclear).
Dicho esto, creo que hay razones por las que es más difícil hacer conjeturas sobre los riesgos derivados de la IA que sobre otros riesgos; y quizá haya razones para pensar que las estimaciones que hemos citado antes exageren sistemáticamente el riesgo.
Si me viera obligado a cuantificar el riesgo, diría que es aproximadamente de un 1 %. Esta cifra incluye consideraciones tanto a favor como en contra del argumento. Estoy menos preocupado que otros miembros del personal de 80 000 Horas: nuestra posición como organización es que el riesgo oscila entre el 3 % y el 50 %.
Dicho esto, los argumentos a favor de una estimación tan elevada del riesgo existencial que implica la IA son persuasivos, lo que convierte a los riesgos derivados la IA en uno de los principales problemas a los que se enfrenta la humanidad.
Creemos que una de las cosas más importantes que se pueden hacer es ayudar a reducir los riesgos más graves que implica la IA.
Y no solo porque pensamos que estos riesgos son elevados, sino también porque creemos que hay cosas reales que podemos hacer para reducirlos.
Conocemos dos enfoques generales:
En ambos casos, hay muchas formas de contribuir. Las analizaremos con más detalle más adelante, pero en esta sección queremos ilustrar el hecho de que hay cosas que podemos hacer para atender a estos riesgos.
Los beneficios de la IA transformadora podrían ser enormes, y hay muchos actores diferentes implicados (que operan en distintos países), lo que significa que probablemente será realmente difícil impedir su desarrollo por completo. (También es posible que no fuera una buena idea incluso si pudiéramos lograrlo; al fin y al cabo, eso significaría renunciar a los beneficios además de prevenir los riesgos.)
En consecuencia, creemos que tiene más sentido centrarse en garantizar que este desarrollo sea seguro, es decir, que tenga una alta probabilidad de evitar todos los fallos catastróficos enumerados anteriormente.
Una forma de hacerlo es intentar desarrollar soluciones técnicas para evitar el tipo de comportamiento de búsqueda de poder que discutimos previamente, lo que generalmente se conoce como trabajar en la seguridad técnica de la IA, a veces denominada simplemente “seguridad de la IA”.
Para más información acerca de la investigación sobre seguridad técnica de la IA, véase esta sección.
Una segunda estrategia para reducir los riesgos derivados de la IA es encaminar su desarrollo a través de la política, la creación de normas y otros mecanismos de gobernanza.
Una buena gobernanza de la IA puede contribuir a la seguridad técnica, por ejemplo mediante acuerdos de seguridad entre empresas, o ayudando a los investigadores con talento de todo el mundo a trasladarse adonde puedan ser más eficaces. La gobernanza de la IA también podría ayudar con otros problemas que generan riesgos, como las dinámicas de carrera.
Pero también, como ya hemos visto, aunque consigamos que la IA haga lo que queremos (es decir, si logramos “alinearla”), ¡podríamos acabar eligiendo que haga algo que resulte malo! Así que tenemos que preocuparnos por los incentivos, no solo de los sistemas de IA, sino también de los actores humanos que los utilizan.
Estimamos que hay unas 400 personas en todo el mundo que trabajan directamente en reducir las probabilidades de una catástrofe existencial relacionada con la IA (con un intervalo de confianza del 90 % que oscila entre 200 y 1000). De ellas, alrededor de tres cuartas partes trabajan en la investigación de la seguridad técnica de la IA, mientras que el resto se divide entre la investigación sobre estrategia (y otras formas de gobernanza) y la promoción.aw Creemos que hay unas 800 personas que trabajan en funciones complementarias, pero tenemos una gran incertidumbre sobre esta estimación.ax
En The Precipice, Ord estimó que en 2020 se invirtieron entre $10 millones y $50 millones en reducir el riesgo asociado a la IA.
Eso puede parecer mucho dinero, pero estamos destinando algo así como 1 000 veces esa cantidaday a acelerar el desarrollo de la IA transformadora en grandes laboratorios de IA, a través de la investigación y la ingeniería centradas en las capacidades comerciales.
Para comparar los $50 millones invertidos en la seguridad de la IA en 2020 con otros casos de riesgos bien conocidos, actualmente estamos invirtiendo varios cientos de miles de millones al año en hacer frente al cambio climático.
Dado que este campo está tan desatendido y hay tanto en juego, creemos que el impacto de trabajar en los riesgos derivados de la IA podría ser mucho mayor que el de hacerlo en muchas otras áreas, por lo que nuestras dos principales carreras profesionales recomendadas para tener un impacto positivo en el mundo son la seguridad técnica de la IA y la investigación y aplicación de políticas relacionadas con la IA.
Como hemos dicho antes, no estamos totalmente seguros de que los argumentos que hemos presentado para afirmar que la IA constituye una amenaza existencial sean correctos. Aunque seguimos pensando que la probabilidad de que la IA provoque una catástrofe es lo bastante alta como para justificar que mucha más gente siga carreras profesionales para intentar evitarlo, también queremos ser sinceros sobre los argumentos en contra de hacerlo, para que te resulte más fácil tomar tu propia decisión al respecto.
Aquí trataremos las razones más sólidas (en nuestra opinión) para pensar que este problema no es especialmente apremiante. En la siguiente sección trataremos algunas objeciones comunes que (en nuestra opinión) no se sostienen tan bien, y explicaremos por qué.
Cuanto más tiempo tengamos antes de que se desarrolle la IA transformadora, menos apremiante será trabajar ahora para asegurarnos de que salga bien. Esto se debe a que el trabajo que otros realicen en el futuro podría ser mucho mejor o más relevante que el que nosotros podamos realizar ahora.
Además, si tardamos mucho en crear una IA transformadora, tendremos más tiempo para averiguar cómo hacerla segura. El riesgo parece mucho mayor si los desarrolladores de IA crean una IA transformadora en las próximas décadas.
Parece probable que la primera IA transformadora no se base en los métodos actuales de aprendizaje profundo. (AI Impacts ha documentado algunos argumentos para pensar que los métodos actuales no podrán producir una IA con inteligencia de nivel humano.) Esto podría implicar que algunas de nuestras investigaciones actuales acaben siendo inútiles (y también, dependiendo de qué método termine utilizándose, podría implicar que los argumentos a favor del riesgo sean menos preocupantes.)
Por otra parte, podríamos esperar que los avances en el desarrollo de la IA se produzcan en ráfagas. Anteriormente, en este campo han ocurrido varios inviernos de la IA: periodos de tiempo en los que la inversión, el interés y la investigación en materia de IA disminuyeron considerablemente. No está claro hasta qué punto es probable que veamos otro invierno de la IA, pero esta posibilidad debería hacernos pensar que desarrollar una IA transformadora podría llevar más tiempo de lo que cabría suponer. C