Por qué la IAG podría llegar en 2028
En los últimos meses, los directores generales de las principales empresas de IA se han mostrado cada vez más seguros de los rápidos avances:
¿Qué explica este cambio? ¿Podrían tener razón o están exagerando? ¿Podríamos tener realmente inteligencia artificial general (IAG) para 2028?
En este artículo, examino los recientes impulsores del progreso, calculo hasta dónde pueden llegar y explico por qué es probable que persistan durante al menos otros cuatro años.
En particular, mientras que en 2024 el progreso en los chatbots de los modelos de lenguaje a gran escala parecía ralentizarse, un nuevo enfoque comenzó a funcionar: enseñar a los modelos a razonar mediante el aprendizaje por refuerzo. Esto les permitió pasar de ser incapaces de responder a preguntas difíciles de razonamiento científico a superar a personas con doctorado, al tiempo que alcanzaban un desempeño humano de nivel experto en tareas de programación de una hora.
Si extrapolamos el ritmo actual de progreso, tenemos que para 2028 podríamos contar con modelos de IA con capacidades de razonamiento superiores a las humanas y conocimientos de nivel experto en todos los ámbitos, capaces de completar de forma autónoma proyectos de varias semanas. Es probable que el progreso continúe más allá de ese punto.
Estos modelos “agénticos”, que ya no son simples chatbots, pronto podrían satisfacer muchas definiciones de la IAG —a grandes rasgos, sistemas de IA que igualan el desempeño humano en la mayoría de las tareas relacionadas con el conocimiento—.a
Esto significa que, aunque es probable que los líderes de las empresas sean demasiado optimistas, hay suficiente evidencia para tomarse sus posturas muy en serio.
Las fronteras que trazamos para la IAG son, en última instancia, arbitrarias. Lo que tiene más importancia es que estos modelos podrían ayudar a acelerar la investigación en IA y el propio diseño de chips, desbloqueando un número mucho mayor de “trabajadores de IA” más capaces. A su vez, una automatización suficiente podría desencadenar un crecimiento explosivo y 100 años de progreso científico en 10 —una transición para la que la sociedad no está preparada—.
Aunque esto pueda parecer descabellado, está dentro del rango de posibilidades que muchos otros expertos creen posible. Este artículo pretende darte una introducción sobre lo que necesitas saber para entender las causas.
He estado escribiendo sobre la IAG desde 2014. En aquel entonces, la llegada de la IAG en un plazo de cinco años parecía muy improbable. Hoy en día, la situación parece radicalmente distinta. Podemos ver cómo podría funcionar y quién la desarrollará.
De hecho, los próximos cinco años parecen inusualmente cruciales. Los impulsores básicos del progreso de la IA (el poder de cómputo y los avances algorítmicos) no pueden seguir aumentando a los ritmos actuales mucho más allá de 2030. Eso significa que, o bien alcanzamos sistemas de IA capaces de desencadenar una aceleración pronto, o el progreso se ralentizará de forma significativa.
De cualquier manera, lo descubriremos en los próximos cinco años. Veamos por qué.
En 2022, Yann LeCun, científico en jefe de IA en Meta y ganador del Premio Turing, dijo lo siguiente:
Tomo un objeto, lo pongo en la mesa y empujo la mesa. Es completamente obvio para ti que el objeto será empujado con la mesa… No creo que haya ningún texto en el mundo que explique esto. Si entrenas a una máquina tan poderosa como podría ser… tu GPT-5000, nunca va a aprender esto.
Y, por supuesto, si le preguntas esto a GPT-4, no tiene ni idea de cómo responder:b
Es broma. Apenas un año después de la declaración de LeCun, aquí está GPT-4.c
Y este no es el único ejemplo de expertos que se equivocan.
Antes de 2011, se decía que la IA estaba muerta.
Pero eso cambió por completo cuando los conocimientos conceptuales de las décadas de 1970 y 1980 se combinaron con cantidades masivas de datos y poder de cómputo para producir el paradigma del aprendizaje profundo.
Desde entonces, hemos visto una y otra vez sistemas de IA pasar de la incompetencia total a un desempeño superior al humano en muchas tareas en tan solo un par de años.
Por ejemplo, en 2022, si le pedías a Midjourney que dibujara “una nutria en un avión usando el wifi”, este era el resultado:
Dos años después, podías obtener esto con Veo 2:
En 2019, GPT-2 apenas podía ceñirse al tema durante un par de párrafos. Y eso se consideraba un progreso notable.
Los críticos como LeCun se apresuraron a señalar que GPT-2 no podía razonar, mostrar sentido común, comprender el mundo físico, etc. Pero muchas de estas limitaciones se superaron en un par de años.
Una y otra vez, ha sido peligroso apostar en contra del aprendizaje profundo. Hoy en día, incluso LeCun dice que espera la IAG en “varios años”.d
De todos modos, las limitaciones de los sistemas actuales no son en lo que hay que centrarse. La pregunta más interesante es: ¿hacia dónde se dirige esto? ¿Qué explica el salto de GPT-2 a GPT-4? Y ¿veremos otro?
Hablando en términos generales, el progreso de la IA se ha visto impulsado por:
Ambos están mejorando rápidamente.
De manera más específica, podemos desglosar los últimos avances en cuatro impulsores clave:
En el resto de esta sección, explicaré cómo funciona cada uno y trataré de proyectarlos hacia el futuro. Sigue leyendo y comprenderás los conceptos básicos de las maneras en que se está mejorando la IA.
En la segunda sección, usaré esto para pronosticar el progreso futuro de la IA y, finalmente, explicaré las razones por las cuales los próximos cinco años son particularmente cruciales.
La gente suele imaginar que el progreso de la IA requiere grandes avances intelectuales, pero en gran parte se trata más bien de ingeniería. Basta con hacer (mucho) más de lo mismo, y los modelos mejoran.
En el salto de GPT-2 a GPT-4, el mayor impulsor del progreso fue simplemente aplicar un poder de cómputo muchísimo mayor a las mismas técnicas, especialmente al ‘preentrenamiento’.
La IA moderna funciona mediante el uso de redes neuronales artificiales, que implican miles de millones de parámetros interconectados organizados en capas. Durante el preentrenamiento (un nombre engañoso, que simplemente indica que es el primer tipo de entrenamiento), esto es lo que sucede:
Este método se ha utilizado para entrenar todo tipo de IA, pero ha sido más útil cuando se ha utilizado para predecir el lenguaje. Los datos son texto que se encuentra en Internet, y los modelos de lenguaje se entrenan para predecir lagunas en el texto.
Un mayor poder de cómputo para el entrenamiento (es decir, ‘cómputo de entrenamiento’) significa que se pueden utilizar más parámetros, lo que permite a los modelos aprender patrones más sofisticados y abstractos en los datos. También significa que se pueden utilizar más datos.
Desde que entramos a la era del aprendizaje profundo, el número de cálculos utilizados para entrenar modelos de IA ha ido creciendo a un ritmo vertiginoso: más de 4 veces por año.
Esto se debió a que se gastó más dinero y se utilizaron chips más eficientes.e
Históricamente, cada vez que el cómputo de entrenamiento se ha multiplicado por 10, ha habido una mejora constante en el desempeño en muchas tareas y benchmarks.
Por ejemplo, a medida que el cómputo de entrenamiento se ha multiplicado por mil, los modelos de IA han mejorado de manera constante su capacidad para responder diversas preguntas, desde el razonamiento de sentido común hasta la comprensión de situaciones sociales y la física. Esto se demuestra en el benchmark ‘BIG-Bench Hard’, que incluye diversas preguntas seleccionadas específicamente para desafiar a los modelos de lenguaje:
Del mismo modo, OpenAI creó un modelo de programación que podía resolver problemas sencillos, y luego utilizó 100 000 veces más poder de cómputo para entrenar una versión mejorada. A medida que aumentaba el poder de cómputo, el modelo respondía correctamente a preguntas cada vez más difíciles.f
(Los problemas de prueba no estaban en los datos de entrenamiento originales, por lo que no se trataba simplemente de una mejor búsqueda entre problemas memorizados).
Esta relación entre el cómputo de entrenamiento y el desempeño se denomina ‘ley de escalamiento’.g
Para 2020 ya se habían publicado artículos sobre estas leyes. Para quienes seguían esta línea de investigación, GPT-4 no fue una sorpresa, sino la continuación de una tendencia.
No es solo que el cómputo de entrenamiento haya aumentado, sino que los investigadores han encontrado formas mucho más eficientes de usarlo.
Cada dos años, el poder de cómputo necesario para obtener el mismo desempeño en una amplia gama de modelos se ha reducido diez veces.
Estas mejoras también suelen abaratar el funcionamiento de los modelos. DeepSeek-V3 se promocionó como un avance revolucionario en términos de eficiencia, pero estaba más o menos dentro de la tendencia: lanzado dos años después de GPT-4, es unas 10 veces más eficiente.h
La eficiencia algorítmica significa que no solo se utiliza cuatro veces más poder de cómputo en el entrenamiento cada año, sino que el poder de cómputo también llega tres veces más lejos. Los dos se multiplican para producir un aumento de 12 veces en el poder de cómputo ‘efectivo’ cada año.
Esto significa que los chips que se utilizaron para entrenar a GPT-4 en tres meses podrían haberse utilizado para entrenar un modelo con el desempeño de GPT-2 unas 300 000 veces.i
Este aumento en el poder de cómputo efectivo nos llevó de un modelo que apenas podía unir unos cuantos párrafos a GPT-4, capaz de hacer cosas como:
Si las tendencias actuales continúan, entonces, alrededor de 2028, alguien habrá entrenado un modelo con 300 000 veces más poder de cómputo efectivo que GPT-4.l
Ese es el mismo aumento que vimos de GPT-2 a GPT-4, de modo que si se asignara al preentrenamiento, podríamos llamar a ese modelo hipotético ‘GPT-6’.m
Después de una pausa en 2024, las empresas ya están cerca de los modelos del tamaño de GPT-5, y se espera que se lancen en 2025.
Pero, ¿puede esta tendencia continuar hasta GPT-6?
El director general de Anthropic, Dario Amodei, estima que los modelos del tamaño de GPT-6 tendrán un costo de entrenamiento de unos 10 000 millones de dólares.n Eso sigue siendo asequible para empresas como Google, Microsoft o Meta, que obtienen ganancias de entre 50 000 y 100 000 millones de dólares al año.o
De hecho, estas empresas ya están construyendo centros de datos lo suficientemente grandes para tales ciclos de entrenamientop —y eso fue antes de que se anunciara el proyecto Stargate de más de 100 000 millones de dólares—.
Los modelos de IA de vanguardia también están generando actualmente ganancias de más de 10 000 millones de dólares,q que se han incrementado más de cuatro veces cada año, por lo que las ganancias de la IA por sí solas pronto serán suficientes para pagar un ciclo de entrenamiento de 10 000 millones de dólares.
Hablaré más adelante de los cuellos de botella, pero el más plausible es el de los datos de entrenamiento. Sin embargo, el mejor análisis que he encontrado sugiere que habrá suficientes datos para llevar a cabo un entrenamiento a la escala de GPT-6 para 2028.
E incluso si este no es el caso, ya no es crucial —las empresas de IA han descubierto formas de sortear el cuello de botella de los datos—.
La gente suele decir: “ChatGPT solo predice la siguiente palabra”. Pero eso nunca ha sido del todo cierto.
La mera predicción de palabras de Internet produce datos de salida que suelen ser un sinsentido (como es de esperar, dado que se trata de Internet).
GPT se volvió realmente útil con la incorporación del aprendizaje por refuerzo a partir de realimentación humana:
Un modelo que ha sido sometido a este tipo de aprendizaje no se limita a “predecir el siguiente token”, sino que ha sido entrenado para predecir lo que los evaluadores humanos consideran más útil.
Podemos pensar en el modelo de lenguaje inicial como una base de estructura conceptual. El aprendizaje por refuerzo a partir de realimentación humana es esencial para dirigir esa estructura hacia un fin útil concreto.
Este aprendizaje es una forma de ‘postentrenamiento’, llamado así porque ocurre después del preentrenamiento (aunque ambos son simplemente tipos de entrenamiento).
Hay muchos otros tipos de mejoras posteriores al entrenamiento que incluyen cosas tan simples como permitir que el modelo acceda a una calculadora o a Internet. Pero hay uno que es especialmente crucial en este momento: el aprendizaje por refuerzo para enseñar a los modelos a razonar.
La idea es que en lugar de entrenar al modelo para que haga lo que los humanos consideran útil, se entrene para resolver problemas correctamente. Este es el proceso:
Este proceso enseña al modelo de lenguaje a construir largas cadenas de razonamiento (correcto) sobre problemas lógicos.
Antes de 2023, esto no parecía funcionar. Si cada paso del razonamiento es demasiado poco fiable, las cadenas no tardan en fallar. Y si no puedes acercarte a la respuesta, no puedes darle ningún refuerzo.
Pero en 2024, cuando muchos decían que el progreso de la IA se había estancado, este nuevo paradigma comenzó a despegar.
Consideremos el benchmark GPQA Diamond, un conjunto de preguntas científicas diseñadas para que personas con doctorado en el campo puedan responderlas en su mayoría, pero que las personas no expertas no pueden responder, incluso con 30 minutos de acceso a Google. Contiene preguntas como esta:t
Supongamos que tenemos una operación de canal despolarizante dada por . La probabilidad, , del estado de despolarización representa la fuerza del ruido. Si los operadores de Kraus del estado dado son , , , y . ¿Cuál podría ser la representación de Kraus correcta del estado ?
A)
B)
C)
D)
En 2023, GPT-4 obtuvo resultados apenas mejores que las suposiciones al azar en este benchmark. Podía manejar el razonamiento requerido para problemas de ciencias de nivel bachillerato, pero no podía manejar el razonamiento a nivel de doctorado.
Sin embargo, en octubre de 2024, OpenAI tomó el modelo base de GPT-4o y utilizó el aprendizaje por refuerzo para crear o1.u
Alcanzó una precisión del 70 %, que lo equipara a los doctores en cada campo a la hora de responder estas preguntas.
Ya no es sostenible afirmar que estos modelos se limitan a regurgitar sus datos de entrenamiento: ni las respuestas ni las cadenas de razonamiento necesarias para producirlas existen en Internet.
La mayoría de la gente no responde preguntas científicas de nivel de doctorado en su vida diaria, por lo que no se han dado cuenta de los últimos avances. Siguen pensando que los modelos de lenguaje son simples chatbots.
Pero o1 fue solo el principio. Al comienzo de un nuevo paradigma, es posible obtener ganancias a un ritmo particularmente rápido.
Solo tres meses después de o1, OpenAI publicó los resultados de o3. Es la segunda versión, llamada ‘o3’ porque ‘o2’ es una empresa de telecomunicaciones. (Por favor, no me pidan que explique nada más sobre las prácticas de OpenAI para nombrar sus modelos). Probablemente sea o1, pero con más aprendizaje por refuerzo (y otro cambio que explicaré en breve).
o3 superó el desempeño humano de nivel de experto en GPQA:
El refuerzo debería ser más útil para problemas que tienen respuestas verificables, como los de ciencia, matemáticas y programación.v o3 funciona mucho mejor en todas estas áreas que su modelo base.
La mayoría de los benchmarks de preguntas de matemáticas ya están saturados —los modelos líderes pueden responder prácticamente todas las preguntas de forma correcta—. En respuesta, Epoch AI creó Frontier Math, un benchmark de problemas matemáticos increíblemente difíciles.
El 25 % más fácil es similar a los problemas de nivel de olimpiada. El 25 % más difícil es, según el ganador de la Medalla Fields Terrance Tao, “extremadamente desafiante”, y normalmente necesitaría un experto en esa rama de las matemáticas para resolverlo.
Los modelos anteriores, incluido GPT-o1, apenas podían resolver alguna de estas preguntas.w En diciembre de 2024, OpenAI afirmó que GPT-o3 podía resolver el 25 %.x
Estos resultados no se publicaron en los medios de comunicación. El mismo día del anuncio de los resultados de o3, The Wall Street Journal publicó esta historia:
Esto pasa por alto el punto crucial de que GPT-5 ya no es necesario: ha comenzado un nuevo paradigma que puede generar ganancias aún más rápido que antes.
En enero, DeepSeek replicó muchos de los resultados de o1. Su artículo reveló que incluso la versión más simple del proceso funciona, lo que sugiere que hay mucho más por probar.
DeepSeek-R1 también revela al usuario toda su cadena de razonamiento, lo que demuestra su sofisticación y su sorprendente calidad humana: reflexionará sobre sus respuestas, dará marcha atrás cuando se equivoque, considerará múltiples hipótesis, tendrá ideas y mucho más.
Todo este comportamiento surge del simple aprendizaje por refuerzo. El investigador de OpenAI Sabastian Bubeck señaló lo siguiente:
No se le dio ninguna táctica al modelo. Todo es emergente. Todo se aprende a través del aprendizaje por refuerzo. Esto es una locura.
El poder de cómputo para la etapa de aprendizaje por refuerzo del entrenamiento de DeepSeek-R1 probablemente solo cuesta alrededor de 1 millón de dólares.
Si sigue funcionando, OpenAI, Anthropic y Google podrían gastar mil millones de dólares en el mismo proceso, ampliando la escala del poder de cómputo unas 1000 veces.y
Una de las razones por las que es posible ampliar la escala en tal magnitud es que los modelos generan sus propios datos.
Esto puede sonar circular, y la idea de que los datos sintéticos causan el ‘colapso del modelo’ se ha discutido ampliamente.
Pero no hay nada circular en este caso. Puedes pedirle a GPT-o1 que resuelva 100 000 problemas matemáticos, luego tomar solo los casos en los que obtuvo la respuesta correcta y usarlos para entrenar al siguiente modelo.
Como las soluciones se pueden verificar rápidamente, has generado más ejemplos de razonamiento realmente bueno.
De hecho, los datos son de una calidad mucho más alta que los que encontrarás en Internet porque contienen toda la cadena de razonamiento y se sabe que son correctos (algo por lo que Internet no se distingue).z
Esto crea potencialmente un efecto de inercia:
Si los modelos ya pueden realizar razonamientos de nivel de doctorado, la siguiente etapa sería el razonamiento de nivel de investigador y, posteriormente, generar nuevas ideas.
Esto explica las declaraciones inusualmente optimistas de los líderes de las empresas de IA. El cambio de opinión de Sam Altman coincide exactamente con el lanzamiento de o3 en diciembre de 2024.
Aunque son más potentes en campos verificables, las habilidades de razonamiento desarrolladas probablemente se generalizarán al menos un poco. Ya hemos visto mejoras en el razonamiento legal de o1, por ejemplo.ab
En otros campos como la estrategia empresarial o la escritura, es más difícil juzgar la utilidad de los modelos, por lo que el proceso lleva más tiempo, pero debemos esperar que funcione hasta cierto punto. El grado de eficacia de este método es una cuestión crucial de cara al futuro.
Si solo pudieras pensar en un problema durante un minuto, probablemente no llegarías muy lejos.
Si pudieras pensar durante un mes, progresarías mucho más, aunque tu inteligencia bruta no sea mayor.
Los modelos de lenguaje solían ser incapaces de pensar en un problema durante más de un minuto antes de que los errores se acumularan o se desviaran del tema, lo que realmente limitaba lo que podían hacer.
Pero a medida que los modelos se han vuelto más fiables en términos de razonamiento, se han vuelto mejores en pensar durante más tiempo.
OpenAI demostró que puedes dejar que o1 piense por un tiempo 100 veces más largo de lo normal y obtener aumentos lineales en la precisión en problemas de programación.
Esto se llama usar el ‘poder de cómputo en tiempo de inferencia’: el poder de cómputo que se gasta cuando se está ejecutando el modelo, no cuando se está entrenando.
Si GPT-4o podía pensar de forma útil durante aproximadamente un minuto, GPT-o1 y DeepSeek-R1 parecen poder pensar durante el equivalente a una hora, aproximadamente.ac
A medida que los modelos de razonamiento se vuelvan más fiables, podrán pensar durante más y más tiempo.
Al ritmo actual, pronto tendremos modelos que puedan pensar durante un mes y luego, un año.
(Es muy intrigante preguntarse qué sucedería si pudieran pensar indefinidamente: dado un poder de cómputo suficiente, y suponiendo que el progreso es posible en principio, podrían mejorar sus respuestas a cualquier pregunta de manera continua).
Usar más poder de cómputo en tiempo de inferencia también puede permitir más razonamiento de fuerza bruta. Otra técnica es tratar de resolver un problema 10, 100 o 1000 veces, y elegir la solución con más ‘votos’. Esta es probablemente otra forma en que o3 pudo vencer a o1.ae
El resultado práctico inmediato de todo esto es que se puede pagar más para obtener capacidades más avanzadas antes.
Cuantitativamente, en 2026, espero que se pueda pagar 100 000 veces más para obtener un desempeño que antes solo habría sido posible en 2028.af
La mayoría de los usuarios no estarán dispuestos a hacerlo, pero si tienes un problema crucial de ingeniería, científico o empresarial, incluso 1 millón de dólares es una ganga.
En particular, los investigadores de IA pueden utilizar esta técnica para seguir impulsando la investigación. Es un proceso llamado destilación y amplificación iteradas, sobre el que puedes leer aquí. Así funcionaría:
Este proceso es esencialmente cómo DeepMind hizo que AlphaZero fuera superhumano en el Go en un par de días, sin ningún dato humano.
GPT-4 se parece a un compañero de trabajo en su primer día que es inteligente y está bien informado, pero que solo responde una o dos preguntas antes de dejar la empresa.
Evidentemente, eso no es muy útil.
Pero las empresas de IA ahora están convirtiendo los chatbots en agentes.
Un ‘agente’ de IA es capaz de realizar una larga cadena de tareas en pos de un objetivo.
Por ejemplo, si quieres crear una aplicación, en lugar de pedirle ayuda al modelo en cada paso, simplemente dices: “Crea una aplicación que haga X”. Después, el modelo hace preguntas aclaratorias, crea un prototipo, hace pruebas y corrige errores, y entrega un producto terminado, como lo haría un ingeniero de software humano.
Los agentes funcionan tomando un modelo de razonamiento y dándole una memoria y acceso a herramientas (un ‘andamiaje’):
Los agentes de IA ya funcionan en cierta medida.
SWE-bench Verified es un benchmark de problemas de ingeniería de software del mundo real diseñado por GitHub que suelen tomar aproximadamente una hora en completarse.
GPT-4 no puede resolver estos problemas porque implican el uso de múltiples aplicaciones.
Sin embargo, cuando se lo pone en un andamiaje de agente simple:ag
Esto significa que o3 es básicamente tan bueno como los ingenieros de software profesionales para completar estas tareas discretas.
En competencias de problemas de programación, se habría clasificado entre los 200 mejores del mundo.
Así es como se ven estos agentes de programación en acción:
Ahora considera quizás el benchmark más importante del mundo: el difícil conjunto de problemas de ingeniería de investigación en IA de METR (‘RE Bench’).
Estos problemas incluyen cosas como el ajuste de modelos o la predicción de resultados experimentales, que los ingenieros tratan de resolver para mejorar los sistemas de IA de vanguardia. Fueron diseñados para ser problemas realmente difíciles que se parecen mucho a la investigación real en materia de IA.
Un agente simple construido en GPT-o1 y Claude 3.5 Sonnet es mejor que los expertos humanos cuando se le dan dos horas.
Este desempeño superó las expectativas de muchos pronosticadores (y o3 aún no se ha probado).ah
El desempeño de la IA aumenta más lentamente que el desempeño humano, por lo que los expertos humanos siguen superando a las IA en torno a las cuatro horas.
Pero los modelos de IA están apretando el paso rápidamente.
GPT-4o sólo fue capaz de realizar tareas que a los humanos les llevarían unos 30 minutos.ai
METR realizó una evaluación comparativa más amplia de tareas categorizadas por horizonte temporal. GPT-2 sólo fue capaz de realizar tareas que a los humanos les llevaban unos segundos; GPT-4, tareas que a los humanos les llevaban unos minutos; y los últimos modelos de razonamiento podían realizar tareas que a los humanos les llevaban poco menos de una hora.
Si esta tendencia continúa hasta finales de 2028, la IA podrá realizar tareas de investigación en IA e ingeniería de software que llevan varias semanas.
Si se proyecta hacia el futuro, serán mejores que los expertos humanos en varias semanas para finales de 2028.
Los modelos de IA también comprenden cada vez mejor su contexto —respondiendo correctamente a preguntas sobre su propia arquitectura, datos de salida pasados y si están siendo entrenados o desplegados—, otra condición previa para la agencia.
Hablando de cosas menos serias, aunque Claude 3.7 sigue siendo un jugador terrible de Pokémon, es mucho mejor que 3.5, y hace apenas un año, Claude 3 no podía jugar en absoluto.
Los modelos de IA actuales son muy ‘inteligentes’ a la hora de responder preguntas, pero aún no pueden reemplazar a los trabajadores humanos porque los trabajos reales no son solo una lista de tareas discretas de una hora; los trabajos reales implican averiguar qué hacer, coordinarse con un equipo, llevar a cabo proyectos largos y novedosos con mucho contexto, etc.
Sin embargo, estas tendencias sugieren que es probable que esto cambie en los próximos años.
OpenAI proclamó 2025 como el “año de los agentes”.
Una vez que los agentes empiezan a funcionar en alguna medida, se desbloquea un mayor progreso:
El mundo es una fuente inagotable de datos, lo que permite a los agentes desarrollar de forma natural un modelo causal del mundo.aj
Cualquiera de estas medidas podría aumentar significativamente la fiabilidad y, como hemos visto varias veces en este artículo, las mejoras en la fiabilidad pueden desbloquear de repente nuevas capacidades:
Incluso una tarea sencilla como encontrar y reservar un hotel que se ajuste a tus preferencias requiere decenas de pasos. Con un 90 % de posibilidades de completar cada paso correctamente, solo hay un 10 % de posibilidades de completar 20 pasos correctamente.
Sin embargo, con un 99 % de fiabilidad por paso, la posibilidad general de éxito salta del 10 % al 80 %, la diferencia entre inútil y muy útil.
Los agentes plenamente funcionales tendrían entre 10 y 100 veces más aplicaciones que los chatbots. Las empresas podrían empezar a ‘contratar’ a un gran número de trabajadores de IA supervisados por un pequeño número de humanos.
De cara a los próximos dos años, los cuatro impulsores del progreso de la IA parecen dispuestos a continuar y desarrollarse entre sí:
Y eso no será el final. Las empresas líderes están bien encaminadas para realizar ciclos de entrenamiento de 10 000 millones de dólares para 2028. Esto sería suficiente para preentrenar un modelo base del tamaño de GPT-6 y hacer 100 veces más aprendizaje por refuerzo (o alguna otra combinación).ak
Además, avances como los modelos de razonamiento aparecen aproximadamente cada 1-2 años, por lo que deberíamos proyectar al menos un descubrimiento como este en los próximos cuatro años. Y existe la posibilidad de que veamos un avance más fundamental, más parecido al propio aprendizaje profundo.
Impulsor del progreso | 2019-2023 | 2024-2028 |
---|---|---|
Escalar el poder de cómputo efectivo de preentrenamiento | 12 veces al año 300 000 veces en total GPT-2 a GPT-4 | 12 veces al año 300 000 veces en total GPT-4 a GPT-6al |
Postentrenamiento | Aprendizaje por refuerzo a partir de realimentación humana, cadena de pensamiento, uso de herramientas | Aprendizaje por refuerzo en modelos de razonamiento ¿Ampliación de la escala de 40 000 veces?am |
Pensar durante más tiempo | No funciona bien | Pensar 100 000 veces más tiempo en tareas de alto valor |
Agentes | En su mayoría no funcionan | ¿Tareas de 1 hora a varias semanas? |
Un nuevo impulsor o avance paradigmático | Aprendizaje por refuerzo a partir de realimentación humana, cadena de pensamiento, aprendizaje por refuerzo en modelos de razonamiento, el andamiaje básico de los agentes empezó a funcionar. | ??? El rápido crecimiento del poder de cómputo y de la fuerza laboral de IA significa que es probable que haya más descubrimientos. |
Si unimos todo esto, las personas que imaginan el futuro como ‘chatbots ligeramente mejores’ están cometiendo un error. En ausencia de una gran disrupción,an el progreso no se va a estancar aquí.
La pregunta del millón es cuánto avanzará la IA.
Una forma de obtener una respuesta más precisa es extrapolar el progreso en los benchmarks que miden las capacidades de la IA.
Dado que todos los impulsores del progreso continúan a ritmos similares a los del pasado, podemos extrapolar aproximadamente el ritmo de progreso reciente.ao
A continuación se muestra un resumen de todos los benchmarks que hemos analizado (más un par más) y dónde podríamos esperar que estén en 2026:
Benchmark | Desempeño de vanguardia en 2022 | Desempeño de vanguardia a finales de 2024 | Extrapolación aproximada de las tendencias a finales de 2026 |
---|---|---|---|
MMLU: recopilación de pruebas de conocimientos universitarios y profesionales | PaLM 69 % | ~90 % (saturado)ap | Saturado |
BIG-Bench Hard: problemas de razonamiento, de sentido común a física a sesgo social, elegidos para ser especialmente difíciles para los modelos de lenguaje en 2021 | ~70 %aq | ~90 % (saturado) | Saturado |
Humanity’s Last Exam: una recopilación de 3000 preguntas aún más difíciles en la frontera del conocimiento humano. | <3 %ar | 9 % | 25 % en febrero de 2025. ¿40 % a saturado? |
SWEbench Verified: problemas de ingeniería de software reales de GitHub que suelen tardar menos de una hora en completarse | <10 % | 70 % (aproximadamente a nivel de experto humano) | Saturado |
GPQA Diamond: preguntas científicas de nivel de doctorado diseñadas para ser ‘a prueba de Google’ | Suposiciones al azar (25 %) | ~90 % (por encima de doctorado en la disciplina correspondiente) | Saturado |
MATH: preguntas de competencias de matemáticas de nivel bachillerato | 50 % | 100 % | 100 % |
FrontierMath: preguntas de matemáticas que requieren matemáticos profesionales en el área correspondiente | 0 % | 25 % | ¿50 % a saturado? |
RE-bench: siete tareas difíciles de ingeniería de investigación en IA | 0 % | Mejor que los expertos con dos horas | Mejor que los expertos con 50-500 horas |
Consciencia situacional: preguntas diseñadas para evaluar si el modelo comprende su contexto y a sí mismo | <30 % | 60 % | ¿90 %? |
El siguiente salto podría llevarnos a la resolución de problemas a un nivel superior al humano: la capacidad de responder de forma independiente a preguntas científicas que aún no tienen respuesta.
Muchos cuellos de botella dificultan el despliegue de agentes de IA en el mundo real, incluso aquellos que pueden usar computadoras. Estos incluyen la regulación, la renuencia a dejar que las IA tomen decisiones, la fiabilidad insuficiente, la inercia institucional y la falta de presencia física.as
Inicialmente, los sistemas potentes también serán caros, y su despliegue estará limitado por el poder de cómputo disponible, por lo que se destinarán únicamente a las tareas más valiosas.
Esto significa que la mayor parte de la economía probablemente continuará más o menos como de costumbre durante un tiempo.
Seguiremos consultando a médicos humanos (aunque utilicen herramientas de IA), pidiendo café a camareros humanos y contratando otros tipos de trabajadores humanos.
Sin embargo, hay algunas áreas cruciales en las que, a pesar de estos cuellos de botella, estos sistemas podrían desplegarse rápidamente con consecuencias significativas.
Aquí es donde la IA es más útil hoy en día. Google ha dicho que alrededor del 25 % de su nuevo código está escrito por inteligencia artificial. Las empresas emergentes de Y Combinator dicen que en su caso es el 95 % y que están creciendo varias veces más rápido que antes.
Si programar se vuelve diez veces más barato, usaremos programas para muchas más cosas. Quizás muy pronto, veamos empresas emergentes de software de miles de millones de dólares con un pequeño número de empleados humanos y cientos de agentes de IA. Varias empresas de IA ya se han convertido en las empresas de más rápido crecimiento de todos los tiempos.
Esto podría producir cientos de miles de millones de dólares de valor económico con bastante rapidez, suficiente para financiar la ampliación continua de la escala de la IA.
Los creadores de AlphaFold ya ganaron el Premio Nobel por diseñar una IA que resuelve el plegamiento de proteínas.
Un estudio reciente descubrió que una herramienta de IA hizo que los mejores investigadores en ciencia de los materiales fueran un 80 % más rápidos en encontrar nuevos materiales, y espero muchos más resultados como este una vez que los científicos hayan adaptado la IA para resolver problemas específicos, por ejemplo, mediante el entrenamiento con datos genéticos o cosmológicos.
Los modelos futuros podrían ser capaces de tener ideas genuinamente novedosas simplemente con que alguien se las pida. Pero, incluso si ello no es así, una buena parte de la ciencia es vulnerable a la fuerza bruta. En particular, en cualquier dominio que sea principalmente virtual, pero que tenga respuestas verificables —como las matemáticas, la modelización económica, la física teórica o las ciencias de la computación—, la investigación podría acelerarse generando miles de ideas para luego verificar cuáles funcionan.
Incluso un campo experimental como la biología también se ve obstaculizado por cosas como la programación y el análisis de datos, limitaciones que podrían aliviarse de forma sustancial.
Un solo invento, como las armas nucleares, puede cambiar el curso de la historia, por lo que el impacto de cualquier aceleración en este campo podría ser trágico.
Un campo especialmente susceptible a la aceleración es la propia investigación en IA. Además de ser completamente virtual, es el campo que los investigadores de IA entienden mejor, tienen enormes incentivos para automatizar y no enfrentan barreras para implementar la IA.
Al inicio, los investigadores podrían utilizar agentes de IA de ‘nivel auxiliar’ que les permitan avanzar en tareas específicas o aumenten su capacidad de ingeniería de software (que es un cuello de botella importante) o incluso que ayuden a generar ideas.
Más adelante, podría ser algo similar a hacer que los modelos lean toda la literatura, generen miles de ideas para mejorar los algoritmos y las prueben automáticamente en experimentos a pequeña escala.
Un modelo de IA ya produjo un artículo de investigación en IA que pasó la revisión por pares.
Por ello, es probable que tengamos agentes de IA haciendo investigación en IA antes de que la gente haya resuelto todos los entresijos que permitan a la IA hacer la mayoría de los trabajos a distancia.
Por lo tanto, la aplicación económica generalizada de la IA no es una buena forma de medir su progreso, ya que puede producirse de forma explosiva después de que las capacidades de la IA hayan avanzado sustancialmente.
Estos son los argumentos más sólidos en contra de un progreso excepcional de la IA:
En primer lugar, asumamos que es probable que la IA se vuelva sobrehumana en tareas claramente definidas y discretas, lo que significa que veremos un progreso rápido y continuo en los benchmarks.
Pero argumentemos que seguirá teniendo dificultades en tareas mal definidas, de contexto amplio y de horizontes temporales largos.
La razón es que este tipo de tareas no tienen respuestas claramente verificables, por lo que no pueden entrenarse con aprendizaje por refuerzo, y están mal representadas en los datos de entrenamiento.
Además, los benchmarks tienen dificultades para medir este tipo de tareas, lo que significa que no tenemos muchos datos sobre el grado de eficacia de la IA en ellas.
En segundo lugar, argumentemos que la mayoría de los trabajos relacionados con el conocimiento consisten en gran medida en estas tareas de largo plazo, desordenadas y de amplio contexto.
Por ejemplo, los ingenieros de software dedican gran parte de su tiempo a averiguar qué construir, coordinarse con otros y comprender enormes bases de código en lugar de despachar una lista de tareas bien definidas. Incluso si su productividad en la programación aumenta 10 veces, si la programación es solo el 50 % de su trabajo, su productividad general únicamente se duplica.
En este escenario, tendremos asistentes de IA extremadamente inteligentes e informados, y quizás una aceleración en algunos dominios limitados (como la investigación matemática), pero seguirán siendo herramientas, y los humanos seguirán siendo el principal cuello de botella económico.
Los investigadores humanos en IA verán como aumenta su productividad, pero no lo suficiente como para iniciar un bucle de realimentación positivo.
Estos límites, combinados con los problemas para encontrar un modelo de negocios y las demás barreras para desplegar la IA, significarán que los modelos no generarán suficientes ingresos para justificar que los ciclos de entrenamiento superen los 10 000 millones de dólares. A su vez, eso significará que el progreso se ralentizará enormemente alrededor de 2028.at Una vez que el progreso se ralentice, los márgenes de ganancia de los modelos de vanguardia se derrumbarán, lo que hará aún más difícil pagar más entrenamiento.
El principal contraargumento es el gráfico anterior de METR: está demostrado que los modelos están mejorando su desempeño en horizontes más largos, lo que requiere una comprensión contextual más profunda y el manejo de tareas más abstractas y complejas. Proyectar esta tendencia hacia el futuro sugiere modelos altamente autónomos dentro de cuatro años.
La agencia en horizontes más largos podría lograrse a través de muchos avances incrementales que he esbozado, au pero también es posible que veamos surgir una innovación más fundamental: el cerebro humano mismo demuestra que tales capacidades son posibles.
Esta es quizás la pregunta central de la pronosticación de la IA: ¿se estancará el horizonte sobre el cual las IA pueden actuar o seguirá mejorando?
Aquí hay algunas otras formas en que el progreso podría ser más lento:
Para profundizar en la visión escéptica, véase Are we on the brink of AGI? de Steve Newman, The promise of reasoning models de Matthew Barnett y ‘A Bear Case’ de Thane Ruthenis.
He hecho algunas afirmaciones importantes. Como no experto, sería estupendo que hubiera expertos que nos dijeran qué pensar.
Por desgracia, no los hay. Solo hay diferentes grupos, con diferentes debilidades y puntos de vista.
He revisado las opiniones de estos diferentes grupos de expertos en otro artículo. En resumen, sostengo que la IAG antes de 2030 está dentro de lo que los expertos y pronosticadores de la IA consideran plausible. Muchos también piensan que llevará mucho más tiempo, pero si el 30 % de los expertos piensa que un avión explotará y el otro 70 % piensa que estará bien, como no expertos no deberíamos concluir que definitivamente no explotará.
Dado que no sabemos cuándo surgirá la IAG, es natural suponer que podría llegar pronto, en la década de 2030, 2040, etc.
Aunque es una opinión común, no estoy seguro de que sea correcta.
Los principales impulsores del progreso de la IA son más poder de cómputo y mejores algoritmos.
Es más probable que se descubra una IA más poderosa cuando el poder de cómputo y la fuerza laboral que se utilizan para mejorar las IA estén creciendo de forma más contundente.
En este momento, el poder de cómputo total disponible para entrenar y ejecutar la IA está creciendo tres veces por año,av y la fuerza laboral también está creciendo rápidamente.
Esto significa que cada año, el número de modelos de IA que se pueden ejecutar aumenta tres veces, y también se puede utilizar tres veces más poder de cómputo para entrenarlos con mejores algoritmos, lo que significa que también se vuelven más inteligentes.
Anteriormente, argumenté que estas tendencias pueden continuar hasta 2028. Pero ahora demostraré que es muy probable que se produzcan cuellos de botella poco tiempo después.
Primero, el dinero:
Incluso si el dinero estuviera disponible, también habría cuellos de botella como:
Así que lo más probable es que la tasa de crecimiento del poder de cómputo se ralentice alrededor de 2028-2032.
El progreso algorítmico también es muy rápido en este momento, pero a medida que se hace cada descubrimiento, el siguiente se vuelve cada vez más difícil. Mantener un ritmo constante de progreso requiere una fuerza laboral de investigación que crezca de manera exponencial.
En 2021, OpenAI tenía unos 300 empleados; hoy, tiene más de 2000. Anthropic y DeepMind también han crecido más del triple, y han surgido nuevas empresas. El número de artículos sobre aprendizaje automático producidos anualmente se ha duplicado aproximadamente cada dos años.3
Es difícil definir la fuerza laboral de aquellas personas que realmente están mejorando las capacidades (frente a las que venden el producto o hacen otro tipo de investigación en aprendizaje automático). Pero si la fuerza laboral necesita duplicarse cada 1-3 años, eso solo puede durar hasta que se agote la reserva de talento.ba
Lo que concluyo es que el crecimiento podrá continuar hasta el final de la década, pero probablemente comenzará a desacelerarse a principios de la década de 2030 (a menos que para entonces la IA se haya vuelto lo suficientemente buena como para sustituir a los investigadores en IA).
El progreso algorítmico también depende del aumento del poder de cómputo, que permite realizar más experimentos. Con suficiente poder de cómputo, los investigadores pueden incluso realizar búsquedas de fuerza bruta para obtener algoritmos óptimos. Por lo tanto, la desaceleración del crecimiento del poder de cómputo ralentizará el progreso algorítmico.
Si el poder de cómputo y la eficiencia algorítmica aumentan solo un 50 % anual en lugar de triplicarse, un salto equivalente al salto de GPT-3 a GPT-4 llevaría más de 14 años en lugar de 2,5, lo que reduciría la probabilidad de lograr grandes avances algorítmicos.
Así que tenemos una carrera:
El momento de la verdad llegará alrededor de 2028–2032.
O bien el progreso se ralentiza, o bien la propia IA supera estos cuellos de botella, lo que permitiría que el progreso continúe o incluso se acelere.
Si la IA capaz de acelerar la investigación en IA no se logra antes de 2028–2032, la probabilidad anual de su descubrimiento disminuye sustancialmente.
El progreso no se detendrá de repente, sino que se ralentizará de forma más gradual. A continuación se muestran algunas estimaciones ilustrativas de la probabilidad de alcanzar la IAG:
A grandes rasgos, podemos esperar dos escenarios:bb
Y probablemente sabremos en qué escenario estamos en los próximos años.
Suelo pensar en estos escenarios como una probabilidad de 50:50, aunque puede variar entre el 30 % y el 80 % dependiendo del día.
Los números también dependen de la definición que estés usando. Yo prefiero centrarme en hacer pronósticos sobre la IA que puede contribuir de manera significativa a la investigación en IA.bc En cuanto a la IAG en el sentido de un modelo que pueda hacer casi todas las tareas del trabajo a distancia a un menor costo que un humano, esperaría que tardara más debido a una larga fila de cuellos de botella. Por otro lado, parece que la IAG en el sentido de ‘mejor que casi todos los humanos en razonamiento cuando se le da una hora’ ya está aquí.
Entonces, ¿qué pasa con la afirmación inicial de que tendremos IAG para 2028?
Sea cual sea la definición exacta, existe evidencia significativa que respalda esta posibilidad: tal vez solo tengamos que mantener las tendencias actuales unos años más.
Y si no es para 2028, podría hacerse realidad hacia 2032.
Parece un exceso de confianza pensar que la probabilidad antes de 2032 es inferior al 10 %.
Dadas las enormes implicaciones y los graves riesgos, hay mucha evidencia para tomarnos esta posibilidad muy en serio.
La situación actual se asemeja a la de febrero de 2020, justo antes del confinamiento por la pandemia de COVID-19: una clara tendencia sugería un cambio inminente y masivo, pero la mayoría de la gente seguía con su vida normal.
En un próximo artículo, argumentaré que la IAG que automatiza gran parte del trabajo a distancia y duplica la economía podría ser un resultado conservador.
Si la IA puede hacer investigación en IA, la brecha entre la IAG y la ‘superinteligencia’ podría ser corta.
Esto podría desencadenar una expansión masiva de la fuerza de trabajo en investigación, lo que podría suponer un siglo de progreso científico en menos de una década. La robótica, la bioingeniería y los asentamientos espaciales podrían llegar mucho antes de lo que se prevé habitualmente.
Los próximos cinco años marcarán el inicio de uno de los períodos más cruciales de la historia.
El mejor argumento a favor de un rápido progreso de la IA a corto plazo es el capítulo 1 de Situational Awareness de Leopold Aschenbrenner.
¡El aprendizaje por refuerzo funciona!, un pódcast de Nathan Labenz donde explica los modelos de razonamiento.
Tomas Pueyo tiene una introducción más accesible que cubre material similar al de este artículo: The most important time in history is now.
Epoch AI tiene una revisión bibliográfica de las distintas formas de pronosticar la IA. Todas ellas coinciden en que la IAG llegará antes de 2030, aunque algunas dan probabilidades más bajas. (Varias de las estimaciones también se han acortado después de la publicación).
Epoch AI también tiene muchos conjuntos de datos excelentes que sustentan esta publicación. Consulta su página de tendencias clave para obtener un resumen. Consulta también su artículo Can AI scaling continue through 2030?.
Un enfoque de la pronosticación de la IA que fue popular hace algunos años consiste en estimar el poder de cómputo utilizado para entrenar el cerebro humano y luego estimar el momento en que los principales modelos de IA podrían superar ese punto (en resumen: podríamos estar ahí ahora mismo). Consulta Forecasting transformative AI de Holden Karnofsky para una introducción.
When do experts expect AGI to arrive? Consulta también Through a glass darkly de Scott Alexander, que es una exploración de lo que se puede aprender de los pronósticos de expertos sobre la IA.
Estos son algunos de los mejores artículos que he visto que argumentan en contra del progreso de la IA transformadora en los próximos años: Are we on the brink of AGI? de Steve Newman, The promise of reasoning models de Matthew Barnett y ‘A Bear Case’ de Thane Ruthenis.