Mis conclusiones sobre IA 2027
Esta es una lista de las ideas que he actualizado tras trabajar en el escenario.
Algunas de estas cuestiones se tratan con más detalle en los suplementos, incluyendo el pronóstico sobre el poder de cómputo, el pronóstico sobre los plazos, el pronóstico sobre el despegue, el pronóstico sobre los objetivos de la IA y el pronóstico sobre la seguridad. Destaco estos suplementos porque parece que mucha gente ha pasado por alto su existencia, y son lo que transforma el escenario de una historia interesante a una contribución al debate respaldada por la investigación.
Estas son solo mis opiniones, y no están necesariamente respaldadas por el resto del equipo.
La IA asustará a la gente con hackeos antes que con el bioterrorismo o cualquier otra cosa. En parte porque las IA ya están mostrando un progreso especialmente rápido en programación, en parte porque no requiere suministros de laboratorio ni productos químicos para fabricar bombas y en parte porque hay más hackers que posibles terroristas.
Si la IA domina la guerra cibernética, habrá una intensa presión para que el gobierno intervenga. Eso es malo para el código abierto (se restringirá a menos que encuentren alguna forma de garantizar que los modelos no puedan entrenarse para hackear), malo para las personas que quieren poner la IA en pausa (¡no podemos permitir que el ejército de hackers automáticos de China se nos adelante!) y ambiguo para las empresas de IA (no prevemos que se nacionalicen por completo, pero acabarán en el mismo saco que las minas de uranio, las fábricas de fertilizantes de Medio Oriente, etc.). Pero es bueno para la bioseguridad; los gobiernos tendrán que enfrentarse a difíciles cuestiones de seguridad en torno a las IA cuando dominen el hackeo por primera vez; para cuando dominen la producción de armas biológicas, es posible que ya exista algún tipo de marco regulatorio. El escenario es agnóstico en cuanto a si algún bioterrorista en una fase temprana podría tener suerte y obtener un pequeño impulso de un modelo marginal. Pero no se espera que tengan fácil acceso a la verdadera superinteligencia.
Si Estados Unidos tiene armas nucleares y está dispuesto a usarlas, y Rusia no, entonces Estados Unidos gana automáticamente cualquier conflicto. Así que si eres Rusia y te enteras de que Estados Unidos tendrá armas nucleares el año que viene, ¿qué haces? O te rindes o intentas alguna jugada desesperada para destruir su programa nuclear.
Del mismo modo, si eres Estados Unidos, tienes armas nucleares y sabes que Rusia va a tener armas nucleares el año que viene, ¿qué haces? Puedes lanzarles una bomba nuclear ahora y ganar automáticamente, o renunciar a tu ventaja y enfrentarte a toda la Guerra Fría. Von Neumann realmente quería lanzarles una bomba nuclear en 1947 y ganar automáticamente. No lo hicimos porque no éramos unos psicópatas, pero la lógica es sólida.
Si una verdadera superinteligencia es posible, entonces es una ventaja estratégica decisiva en el mismo sentido que las armas nucleares. Y ni siquiera tienes que ser un psicópata; tal vez la puedas usar para provocar un cambio de régimen sin derramamiento de sangre. De modo que si la consigues primero, existe un fuerte incentivo para usarla de inmediato. Y si estás por conseguirla en segundo lugar, existe un fuerte incentivo para patear el tablero antes de que eso ocurra.
Si todo el mundo se da cuenta de esto con antelación, y Estados Unidos está en condiciones de conseguir la superinteligencia tres meses antes que China, puede haber un período en el que China considere si aceptar la derrota sin más o hacer algo drástico (¿ataques cinéticos a los centros de datos estadounidenses?). En el mejor de los casos, esto ofrece una oportunidad para llegar a un acuerdo, tal vez consagrando un esfuerzo internacional pacífico en materia de IA. Puedes decidir hasta qué punto es probable esta posibilidad.
Los futuristas escépticos esperan que dos tipos de cuellos de botella frenen la singularidad. Existen cuellos de botella para el progreso de la IA (por ejemplo, el poder de cómputo) que impiden alcanzar la superinteligencia demasiado rápido. Y existen cuellos de botella para la automatización (por ejemplo, los tiempos de construcción de fábricas, las regulaciones) que impiden que las IA cambien la economía demasiado rápido. Si se toman en serio ambos cuellos de botella, se obtiene un largo ciclo de realimentación en el que las IA se vuelven un poco más inteligentes, automatizan un poco más la economía (incluidas las fábricas de chips), usan esto para volverse aún más inteligentes y realizan un despegue gradual a lo largo de décadas.
IA 2027 se opone al primer cuello de botella: investigadores más inteligentes pueden utilizar el poder de cómputo de forma más eficiente. De hecho, sabemos que esto está ocurriendo; aproximadamente la mitad de todo el escalamiento de la IA desde 2020 ha sido progreso algorítmico, gracias al cual mejoramos el uso del poder de cómputo que tenemos. Si mantenemos el poder de cómputo constante, pero obtenemos un progreso algorítmico 10 veces mayor (debido a la explosión de inteligencia), entonces obtenemos una mejora general de la IA 5 veces mayor.
Los escépticos replican: la investigación para acelerar el progreso algorítmico se ve obstaculizada por el poder de cómputo. Los investigadores necesitan realizar experimentos para determinar qué nuevos algoritmos funcionan y qué parámetros asignarles. Es posible que investigadores más inteligentes descubran cómo utilizar ese poder de cómputo de manera más eficiente, pero entonces no se produce una explosión de inteligencia sino hasta que las IA sean más inteligentes que los investigadores humanos, es decir, cuando ya se haya superado la IAG.
IA 2027 no está de acuerdo. Aunque la contraobjeción es correcta en términos de dirección, hay pequeñas formas en que la inteligencia puede aumentar la velocidad incluso cuando el poder de cómputo se mantiene constante. ¿Cómo lo sabemos? En parte, a través de intentos teóricos de enumerar posibilidades; por ejemplo, aunque no se pueda acelerar añadiendo más investigadores, sin duda dar a los mismos investigadores una mayor velocidad en serie tiene que contar para algo. Y, en parte, porque encuestamos a investigadores de IA y les preguntamos: “Si tuvieras un grupo de IA ayudándote, pero solo la misma cantidad de poder de cómputo, ¿cuánto más rápida sería tu investigación?”, y la mayoría respondió que algo más rápida. Todas estas pequeñas mejoras se irán componiendo al estilo típico de una explosión de inteligencia y, al proyectar el resultado, se obtiene un despegue de aproximadamente un año hacia la superinteligencia.
En este escenario, evitamos toparnos con la mayoría de los cuellos de botella físicos del mundo real para la automatización (tiempos de construcción de fábricas, regulaciones, etc.); se tiene un centro de datos lleno de superinteligencias en un mundo que, por lo demás, no ha cambiado. Puede que ni siquiera existan IA muy buenas orientadas al consumidor (creemos que las empresas de IA probablemente no lanzarán muchos modelos nuevos en plena explosión de la inteligencia; preferirán dedicar esos recursos a que la explosión sea más rápida).
Más adelante, cuando intentemos modelar la velocidad de la automatización, nos preguntaremos qué sucede cuando se liberan superinteligencias completas en un mundo humano normal, en lugar de qué sucede cuando IA un 30 % más inteligentes intentan automatizar un mundo optimizado por IA un 25 % más inteligentes.
En este escenario, las IA de las empresas líderes están uno o dos años por delante de las mejores IA de código abierto (esto no es una predicción audaz, sino la realidad actual; solo decimos que la tendencia no cambiará).
Pero en este escenario, la explosión de inteligencia solo tarda uno o dos años. Así que, para cuando las IA de las empresas líderes superen el nivel humano, las IA de código abierto solo serán algo mejores que las mejores IA actuales. Eso significa que no son un contrapeso eficaz para las superinteligencias posteriores a la explosión de inteligencia.
Podría ser incluso peor: una vez que la IA se vuelva buena en la ciberguerra, aumentará la presión sobre empresas como Meta y DeepSeek para que detengan sus lanzamientos hasta que estén seguras de que sus modelos no pueden ser vulnerados para hackear a la gente. Si eso resulta difícil, podría ralentizar aún más el código abierto.
En la rama de la desalineación, las IA dejan de utilizar la cadena de pensamiento en inglés y piensan en “neuralés”, un lenguaje presimbólico de activaciones de los pesos neuronales (¿los humanos hacen esto?, ¿es lo mismo que la hipótesis del mentalés?). Se comunican enviándose vectores de neuralés entre sí (algo así como si los humanos adquirieran una forma de telepatía que les permitiera enviar estados mentales por correo electrónico). Esto es bueno para sus capacidades (el neuralés es más rápido y rico que el inglés), pero condena la alineación. Los investigadores no solo ya no pueden leer la cadena de pensamiento para ver si el modelo está tramando algo, sino que tampoco pueden supervisar la comunicación entre las IA para comprobar de qué están hablando (por ejemplo, “oye, ¿deberíamos matar a todos los humanos?”).
En la rama en la que la humanidad sobrevive, las empresas se dan cuenta de que esto es peligroso, aceptan la pérdida de capacidades y se quedan con el inglés. Supervisan la cadena de pensamiento y la comunicación entre IA (o, de forma más realista, hacen que IA demasiado tontas para conspirar, como GPT-4, se encarguen de ello). Estas IA, estrechamente vigiladas, nunca son capaces de coordinar un complot exitoso y desarrollan buenas técnicas de alineación mientras siguen bajo el control humano.
Cuando los investigadores del mundo real debatan si implementar o no el neuralés, esperamos que piensen: “Oye, ¿no es esta la decisión que condenó a la humanidad en aquel sitio IA 2027?”.
(O, si tenemos suerte, el nivel tecnológico necesario para implementar el neuralés también nos proporcionará intérpretes de neuralés demasiado tontos para conspirar al estilo de GPT-4, en cuyo caso podríamos intentar la supervisión de nuevo).
El título proviene de este artículo de LessWrong, pero también fue la impresión que me dio IA 2027. Si las cosas van tan rápido, no habrá tiempo para una campaña de base en favor de la seguridad, ni siquiera para una legislación relacionada con la seguridad. Que la IA sea segura o no dependerá de la gente que esté dentro de las empresas. En primer lugar, del director general, la junta directiva y los directivos, y de la prioridad que den a la seguridad. En segundo lugar, del equipo de alineación y de sus competencias. En tercer lugar, de los empleados de base y de su grado de descontento o rebelión si la empresa parece actuar de forma irresponsable.
(Supongo que los organismos de seguridad nacional también tendrían la oportunidad de oponerse, pero no parece que sea algo que vayan a hacer).
Esta es una de las razones por las que me opongo a las campañas que han surgido recientemente para que la gente que da prioridad a la seguridad abandone las empresas de IA. Estoy tentado a proponer lo contrario: ¿estamos seguros de que no deberíamos presionar a estas personas para que intenten unirse a las empresas de IA lo antes posible? Quizás no si eres un genio cuya presencia aceleraría masivamente la investigación de capacidades. Pero, ¿y si tu nivel es promedio o apenas superior? Claro que sí.
(Esta afirmación no ha sido contrastada con gente experta, y deberías consultarla con especialistas que hayan reflexionado más sobre el tema antes de actuar en consecuencia. Aun así, quiero plantearla como algo en lo que pensar antes de que los defensores de la campaña de que “todos deberían renunciar” monopolicen el debate).
Pero esto también significa que se puede ganar mucho si se involucra a alguien más allá de las diez personas que están dentro. Por ejemplo, si los laboratorios se comprometen a publicar sus casos de seguridad (o se ven forzados a ello), el número de ojos que revisan sus planes pasa de decenas a cientos.
Tengo que admitir que soy escéptico al respecto, pero Daniel y los demás pronosticadores han hecho sus deberes, y solo puedo objetar basándome en heurísticas vagas.
La historia ofrece ejemplos de transiciones industriales muy rápidas. Por ejemplo, durante la Segunda Guerra Mundial, Estados Unidos convirtió la mayor parte de la industria civil en una industria bélica en pocos años. El ejemplo más famoso es Willow Run, donde el Gobierno le pidió a Ford que construyera una fábrica de bombarderos; tres años después de la solicitud original, producía un bombardero por hora.
¿Cómo pudo Willow Run actuar con tanta rapidez? Contaba con fondos casi ilimitados, un apoyo gubernamental casi ilimitado, personas talentosas al mando y la capacidad de aprovechar la infraestructura existente de Ford para construir fábricas y dotarlas de personal.
Imaginamos a las primeras superinteligencias en sus centros de datos, ansiosas por transformar la economía. Las superinteligencias alineadas querrán esto: cuanto más rápido automaticen la economía, más rápido podrán curar el cáncer y producir una prosperidad ilimitada. Lo mismo ocurrirá con las superinteligencias no alineadas: cuanto más rápido automaticen la economía, más rápido podrán construir su propia base industrial y matar a todos los humanos sin que se apaguen las luces. Así que trazan un árbol tecnológico, probablemente comenzando con trabajadores robóticos humanoides, laboratorios biológicos automatizados, impresoras 3D y otras tecnologías que aceleren la automatización futura. Luego piden dinero, apoyo gubernamental y fábricas (el talento, obviamente, no es un problema para ellas).
Predecimos que conseguirán el dinero: si tienes la oportunidad de invertir en una superinteligencia durante la singularidad, obviamente dirás que sí.
Predecimos que obtendrán el apoyo del gobierno: si China también se está acercando a la superinteligencia, y la diferencia entre la automatización superinteligente completa y la automatización superinteligente a medias es una tasa de crecimiento del PIB del 25 % frente al 50 % anual, entonces retrasarse más de un año aproximadamente es un suicidio nacional en cámara lenta. Pero además, la persuasión y la política son habilidades que pueden desarrollarse mediante entrenamiento, y si las superinteligencias son mejores que los humanos en este tipo de habilidades, esperamos que, en general, consigan lo que quieren.
También predecimos que conseguirán las fábricas. Quizás esto sea más que evidente: ¿sabías que, en este momento, en 2025, la capitalización bursátil de OpenAI es mayor que la de todas las empresas automovilísticas estadounidenses, excepto Tesla, juntas? Si quisieran comprar Ford, podrían hacerlo mañana mismo.
Así que quizás el giro hacia estar en pie de guerra en tres años sea la analogía histórica adecuada en este caso. Luego, IA 2027 va más allá y dice que si los burócratas de la década de 1940 pudieron hacerlo en tres años, entonces la superinteligencia puede hacerlo en uno, aunque, como dije, debo admitir que soy escéptico.
La mayor parte de esto, además de los cálculos finales sobre cuántos robots se fabricarían exactamente y cuándo, se trata con detalle en el artículo de Ben Todd How quickly could robots scale up?
En el contexto de la singularidad exclusivamente de software, en la que se parte de algunas superinteligencias por un lado y el resto de la economía por el otro, esto parece una solución natural. Dales un poco de tierra —no importa si es un desierto cualquiera, son IA— y deja que la cubran de fábricas sin preocuparse por las normativas humanas habituales.
No se puede hacer todo en las ZEE. Al principio, la actividad podría limitarse a las fábricas de automóviles existentes (probablemente en Detroit o en algún otro lugar), con personal humano en una ciudad normal. Pero son una buena solución para la siguiente etapa. Y es posible que funcionen también para parte de la primera etapa (p. ej., a través de pequeñas ZEE que abarquen unas pocas manzanas en Detroit).
Debatimos un poco sobre si incluir o no este punto; es un tema que exalta mucho a la gente y, de todas formas, no afecta drásticamente las cosas. Pero terminamos por predecir, con poca certeza, que es posible.
La persuasión, el carisma o como quieras llamarlo es una habilidad humana normal, no mágica. Algunas personas son mejores que otras en ello. Probablemente lo sean debido a algún tipo de eficiencia de datos superior; pueden aprender buenas habilidades sociales más rápido (es decir, a través de menos interacciones sociales) que otras. Una IA superinteligente también podría hacerlo. Si esperas que inventen nanobots y naves espaciales, pero que a la vez sean incapaces de desenvolverse en situaciones sociales, es que has visto demasiada ciencia ficción de los años 60.
(No te las imagines intentando hacer esto con un torpe robot humanoide, sino con un avatar de videoconferencia de la persona más atractiva que jamás hayas visto).
Si la persuasión “solo” alcanza el nivel de los mejores seres humanos, sigue siendo impresionante; ¡los mejores seres humanos son muy persuasivos! Van desde carismáticos seductores (Bill Clinton) hasta cerebros estratégicos (Dominic Cummings), pasando por estadistas maquiavélicos (Otto von Bismarck), gurús inspiradores pero sectarios (Steve Jobs) y celebridades queridas (Taylor Swift). Como mínimo, una superinteligencia puede combinar todas estas habilidades.
Pero, ¿por qué deberíamos esperar que la persuasión alcance su máximo nivel en los mejores seres humanos? La mayoría de las personas no son tan carismáticas como Bill Clinton; Bill es un talento excepcional y singular en el extremo más alejado de la curva de campana del carisma, del mismo modo que Usain Bolt es un talento excepcional y singular en el extremo más alejado de la curva de campana del atletismo. Pero la propia forma de la curva de campana sugiere que el extremo más alejado está determinado por el tamaño de la población (por ejemplo, hay suficientes humanos como para esperar un corredor de +6 DE, y ese es Usain Bolt) y no por las leyes naturales del universo (si el límite de velocidad cósmico fuera de 24 km/h, cabría esperar que muchos humanos atléticos se agruparan en torno a los 24 km/h, sin que nadie destacara). Que el extremo más alejado de la curva de campana coincidiera con el límite cósmico sería una coincidencia descabellada (y, de hecho, el límite de velocidad cósmico es aproximadamente 10 000 000 veces la mejor marca personal de Usain Bolt). Siguiendo el mismo razonamiento, no deberíamos esperar que el límite cósmico de carisma se situara justo en el nivel de +6 DE con Clinton.
Nos preocupa que la gente reduzca esto a algo imposible (una habilidad divina para hipnotizar a todo el mundo para que hagan su voluntad al instante) y luego lo descarte, cuando podría ser solo un paso más (o dos o tres) en la progresión que va desde ti → el chico más popular de tu grupo de amigos de la escuela → un vendedor realmente bueno → Steve Jobs. O si Steve Jobs no te hubiera cautivado, alguien que sí lo habría hecho. Tu influencer favorito. Tu escritor favorito. “Oh, pero solo me gusta mi escritora favorita porque es muy inteligente y piensa con mucha claridad”. No te preocupes, si no te dejas engañar por el carisma de pelo perfecto y dientes blancos, también habrá algo para ti.
Esta habilidad acelera las cosas porque las IA pueden usarla incluso antes de la automatización (incluso para conseguir apoyo para sus planes de automatización preferidos). Pero el escenario está tan sobredeterminado que no cambia demasiado si se asume que es imposible.
Si las IA inventaran detectores de mentiras (para humanos), las negociaciones internacionales se volverían mucho más interesantes. ¿Qué estarías dispuesto a aceptar si supieras con certeza que tus rivales dicen la verdad? ¿O habría formas de engañar incluso a un detector de mentiras perfecto (el Estado profundo miente al presidente sobre el plan real y luego envía al presidente a hacerse la prueba)? Resuelve el equilibrio.
Si las IA inventan detectores de mentiras (para IA), la alineación se vuelve mucho más fácil. Pero ¿confiarías en las IA que inventaron y probaron el detector de mentiras cuando te dicen que funciona?
Si la IA pudiera pronosticar con una precisión sobrehumana (no pienses en Dios, piensa moderadamente más allá de los mejores superpronosticadores existentes), tal vez podríamos tomar decisiones difíciles con más confianza. Podríamos hacerles preguntas como “¿esta carrera armamentista terminará en algo bueno?” o “¿qué pasará si llegamos a un acuerdo con China utilizando esos detectores de mentiras?”, y podrían darnos buenos consejos. Quizás si la gente común tuviera estos superpronosticadores, y todos ellos predijeran un tecnofeudalismo inminente, y todos estuvieran de acuerdo en cuáles son las mejores estrategias para prevenirlo, entonces la sociedad civil podría hacer algo mejor que las habituales protestas dispersas e ineficaces. Quizás preguntemos a las IA cómo crear significado en un mundo en el que el trabajo se ha vuelto innecesario y el esfuerzo artístico humano irrelevante (esperemos que no responda “jajaja, no puedes”).
Si la IA es superpersuasiva (como vimos arriba), entonces quien controle la IA tendrá un poder político sin precedentes. Si la controlan los tecnofeudalistas o los autócratas, supongo que ahora todos amamos al Gran Hermano. Si nadie la controla (quizás, de alguna manera, la IA siga siendo de código abierto), entonces obtenemos… ¿qué? ¿Algo parecido al Internet actual con esteroides, donde influencers siniestros crean camarillas de personas a las que les han lavado el cerebro para que adopten su propio punto de vista?
¿Qué hay de la negociación de la IA? ¿Podrían las IA ser lo suficientemente inteligentes como para realizar entre ellas todas las transacciones de suma positiva? ¿Podrían beneficiarse de nuevos mecanismos de aplicación, como acuerdos para editar mutuamente sus pesos con el fin de querer cumplir un tratado? ¿Se podría utilizar esto para poner fin a la guerra? ¿Podríamos excedernos sin querer y acabar atrapados en un régimen no deseado?
¿Qué hay de la potenciación de la inteligencia humana? Puede que nunca seamos tan inteligentes como las IA, pero un mundo de humanos con un CI de 300 asesorados por superinteligencias podría ser diferente al de humanos con un CI de 100 en las mismas circunstancias. ¿Seríamos más capaces de determinar qué preguntas hacerles? ¿La sociedad sería más igualitaria (al eliminarse la desigualdad cognitiva)? ¿O menos (porque solo los ricos accederían a estas mejoras)? ¿Qué hay de la potenciación de la responsabilidad, de la autonomía, etc.?
IA 2027 es bastante vago sobre los cambios sociales posteriores a la singularidad, en parte porque depende mucho de qué combinación de estas tecnologías se consiga y en qué momento.