• Ingresar con


  • Preferencias de usuario


  • ¿Está seguro de que desea eliminar su cuenta?

  • Se perderán todas sus preferencias almacenadas. Esta acción es irreversible.

Por qué la IAG podría llegar en 2030

por Benjamin Todd
Inteligencia artificialIA transformadoraPronosticación de la IA
La imagen muestra una mano robótica sosteniendo una taza blanca de café sobre un fondo azul. El café se derrama de la taza, con una gota cayendo en el aire.

En los últimos meses, los directores generales de las principales empresas de IA se han mostrado cada vez más seguros de los rápidos avances:

  • Sam Altman, director general de OpenAI, pasó de decir en noviembre de 2024 que “el ritmo de progreso que hemos logrado en los últimos tres años continúa” a declarar solo un mes después que “ahora estamos seguros de que sabemos cómo desarrollar la IAG tal y como la hemos entendido tradicionalmente”.
  • Dario Amodei, director general de Anthropics, declaró lo siguiente en enero de 2025: “Estoy más seguro que nunca de que estamos cerca de alcanzar capacidades poderosas… Un país de genios en un centro de datos… eso es lo que creo que es muy probable que consigamos en los próximos 2-3 años”.
  • Demis Hassabis, director general de Google DeepMind, pasó de decir “en solo diez años” en otoño, a “creo que probablemente estemos a tres o cinco años” en enero.

¿Qué explica este cambio? ¿Podrían tener razón o están exagerando? ¿Podríamos tener realmente inteligencia artificial general (IAG) para 2028?

En este artículo, examino los recientes impulsores del progreso, calculo hasta dónde pueden llegar y explico por qué es probable que persistan durante al menos otros cuatro años.

En particular, mientras que en 2024 el progreso en los chatbots de los modelos de lenguaje a gran escala parecía ralentizarse, un nuevo enfoque comenzó a funcionar: enseñar a los modelos a razonar mediante el aprendizaje por refuerzo. Esto les permitió pasar de ser incapaces de responder a preguntas difíciles de razonamiento científico a superar a personas con doctorado, al tiempo que alcanzaban un desempeño humano de nivel experto en tareas de programación de una hora.

Si extrapolamos el ritmo actual de progreso, tenemos que para 2028 podríamos contar con modelos de IA con capacidades de razonamiento superiores a las humanas y conocimientos de nivel experto en todos los ámbitos, capaces de completar de forma autónoma proyectos de varias semanas. Es probable que el progreso continúe más allá de ese punto.

Estos modelos “agénticos”, que ya no son simples chatbots, pronto podrían satisfacer muchas definiciones de la IAG —a grandes rasgos, sistemas de IA que igualan el desempeño humano en la mayoría de las tareas relacionadas con el conocimiento—.⁠a

Esto significa que, aunque es probable que los líderes de las empresas sean demasiado optimistas, hay suficiente evidencia para tomarse sus posturas muy en serio.

Las fronteras que trazamos para la IAG son, en última instancia, arbitrarias. Lo que tiene más importancia es que estos modelos podrían ayudar a acelerar la investigación en IA y el propio diseño de chips, desbloqueando un número mucho mayor de “trabajadores de IA” más capaces. A su vez, una automatización suficiente podría desencadenar un crecimiento explosivo y 100 años de progreso científico en 10 —una transición para la que la sociedad no está preparada—.

Aunque esto pueda parecer descabellado, está dentro del rango de posibilidades que muchos otros expertos creen posible. Este artículo pretende darte una introducción sobre lo que necesitas saber para entender las causas.

He estado escribiendo sobre la IAG desde 2014. En aquel entonces, la llegada de la IAG en un plazo de cinco años parecía muy improbable. Hoy en día, la situación parece radicalmente distinta. Podemos ver cómo podría funcionar y quién la desarrollará.

De hecho, los próximos cinco años parecen inusualmente cruciales. Los impulsores básicos del progreso de la IA (el poder de cómputo y los avances algorítmicos) no pueden seguir aumentando a los ritmos actuales mucho más allá de 2030. Eso significa que, o bien alcanzamos sistemas de IA capaces de desencadenar una aceleración pronto, o el progreso se ralentizará de forma significativa.

De cualquier manera, lo descubriremos en los próximos cinco años. Veamos por qué.

Resumen

  • Cuatro factores clave están impulsando el progreso de la IA: modelos base más grandes, el entrenamiento de los modelos para que aprendan a razonar, el aumento del tiempo de pensamiento de los modelos y la construcción de andamiajes de agentes para tareas de varios pasos. Estos factores dependen del aumento del poder de cómputo para ejecutar y entrenar sistemas de IA, así como del aumento del capital humano dedicado a la investigación algorítmica.
  • Se prevé que todos estos factores continúen hasta 2028 y quizás hasta 2032.
  • Esto significa que deberíamos esperar mayores ganancias en el desempeño. No sabemos cuán grandes serán, pero la extrapolación de las últimas tendencias con respecto a los benchmarks sugiere que alcanzaremos sistemas con un desempeño superior al humano en programación y razonamiento científico, y que puedan completar proyectos de varias semanas de forma autónoma.
  • Estos sistemas podrían ser suficientes para dar lugar a la aceleración de la IA, la robótica y la investigación científica.
  • Otra posibilidad es que la IA no consiga superar los problemas que plantean las tareas mal definidas y de amplio contexto en horizontes a largo plazo y que siga siendo una herramienta (aunque muy mejorada).
  • Para aumentar el rendimiento de la IA se necesita un crecimiento exponencial en la inversión y la fuerza de trabajo dedicada a la investigación. Al ritmo actual, es probable que empecemos a toparnos con cuellos de botella alrededor de 2030. Esto significa que es probable que alcancemos una IA transformadora hacia 2030 o que el progreso se ralentice drásticamente, lo que hace que los próximos cinco años sean cruciales.

I. ¿Qué ha impulsado el reciente progreso de la IA? ¿Y continuará?

La era del aprendizaje profundo

En 2022, Yann LeCun, científico en jefe de IA en Meta y ganador del Premio Turing, dijo lo siguiente:

Tomo un objeto, lo pongo en la mesa y empujo la mesa. Es completamente obvio para ti que el objeto será empujado con la mesa… No creo que haya ningún texto en el mundo que explique esto. Si entrenas a una máquina tan poderosa como podría ser… tu GPT-5000, nunca va a aprender esto.

Y, por supuesto, si le preguntas esto a GPT-4, no tiene ni idea de cómo responder:⁠b

La imagen muestra una interfaz de chat con una pregunta de física acerca de qué le sucede a un objeto en una mesa cuando esta se empuja hacia delante. La respuesta de la IA es cómica; afirma que no entiende una situación tan 'incomprensible'.

Es broma. Apenas un año después de la declaración de LeCun, aquí está GPT-4.⁠c

La imagen muestra una interfaz de chat con GPT-4. Un usuario pregunta qué ocurre cuando empuja la mesa en la que está su smartphone y GPT-4 responde explicando que es probable que el teléfono se mueva junto con la mesa debido a la fricción, manteniéndose en la superficie si el empujón no es demasiado fuerte.

Y este no es el único ejemplo de expertos que se equivocan.

Antes de 2011, se decía que la IA estaba muerta.

Pero eso cambió por completo cuando los conocimientos conceptuales de las décadas de 1970 y 1980 se combinaron con cantidades masivas de datos y poder de cómputo para producir el paradigma del aprendizaje profundo.

Desde entonces, hemos visto una y otra vez sistemas de IA pasar de la incompetencia total a un desempeño superior al humano en muchas tareas en tan solo un par de años.

Por ejemplo, en 2022, si le pedías a Midjourney que dibujara “una nutria en un avión usando el wifi”, este era el resultado:

Nutrias en aviones recreadas por la IA
Intentos de Midjourney de representar “una nutria en un avión usando wifi” en 2022.

Dos años después, podías obtener esto con Veo 2:

En 2019, GPT-2 apenas podía ceñirse al tema durante un par de párrafos. Y eso se consideraba un progreso notable.

Los críticos como LeCun se apresuraron a señalar que GPT-2 no podía razonar, mostrar sentido común, comprender el mundo físico, etc. Pero muchas de estas limitaciones se superaron en un par de años.

Una y otra vez, ha sido peligroso apostar en contra del aprendizaje profundo. Hoy en día, incluso LeCun dice que espera la IAG en “varios años”.⁠d

De todos modos, las limitaciones de los sistemas actuales no son en lo que hay que centrarse. La pregunta más interesante es: ¿hacia dónde se dirige esto? ¿Qué explica el salto de GPT-2 a GPT-4? Y ¿veremos otro?

Lo que se avecina

Hablando en términos generales, el progreso de la IA se ha visto impulsado por:

  • Más poder de cómputo
  • Mejores algoritmos

Ambos están mejorando rápidamente.

De manera más específica, podemos desglosar los últimos avances en cuatro impulsores clave:

  1. Escalamiento del preentrenamiento para crear un modelo base con inteligencia básica
  2. Utilización del aprendizaje por refuerzo para enseñar al modelo base a razonar
  3. Aumento del poder de cómputo en tiempo de inferencia para aumentar el tiempo en que el modelo piensa sobre cada pregunta
  4. Construcción de andamiajes de agentes para que el modelo pueda completar tareas complejas

En el resto de esta sección, explicaré cómo funciona cada uno y trataré de proyectarlos hacia el futuro. Sigue leyendo y comprenderás los conceptos básicos de las maneras en que se está mejorando la IA.

En la segunda sección, usaré esto para pronosticar el progreso futuro de la IA y, finalmente, explicaré las razones por las cuales los próximos cinco años son particularmente cruciales.

1. Escalamiento del preentrenamiento para crear modelos base con inteligencia básica

Preentrenamiento del poder de cómputo

La gente suele imaginar que el progreso de la IA requiere grandes avances intelectuales, pero en gran parte se trata más bien de ingeniería. Basta con hacer (mucho) más de lo mismo, y los modelos mejoran.

En el salto de GPT-2 a GPT-4, el mayor impulsor del progreso fue simplemente aplicar un poder de cómputo muchísimo mayor a las mismas técnicas, especialmente al ‘preentrenamiento’.

La IA moderna funciona mediante el uso de redes neuronales artificiales, que implican miles de millones de parámetros interconectados organizados en capas. Durante el preentrenamiento (un nombre engañoso, que simplemente indica que es el primer tipo de entrenamiento), esto es lo que sucede:

  1. Los datos se introducen en la red (como la imagen de un gato).
  2. Los valores de los parámetros convierten esos datos de entrada en datos de salida previstos (como la descripción ‘esto es un gato’).
  3. La precisión de esos datos de salida se compara con los datos de referencia.
  4. Los parámetros del modelo se ajustan de una manera que se espera que aumente la precisión.
  5. Esto se repite una y otra vez, con billones de datos.

Este método se ha utilizado para entrenar todo tipo de IA, pero ha sido más útil cuando se ha utilizado para predecir el lenguaje. Los datos son texto que se encuentra en Internet, y los modelos de lenguaje se entrenan para predecir lagunas en el texto.

Un mayor poder de cómputo para el entrenamiento (es decir, ‘cómputo de entrenamiento’) significa que se pueden utilizar más parámetros, lo que permite a los modelos aprender patrones más sofisticados y abstractos en los datos. También significa que se pueden utilizar más datos.

Desde que entramos a la era del aprendizaje profundo, el número de cálculos utilizados para entrenar modelos de IA ha ido creciendo a un ritmo vertiginoso: más de 4 veces por año.

La imagen muestra un gráfico logarítmico de modelos notables de IA determinados por cómputo de entrenamiento (FLOP) y fecha de publicación, de 1955 a 2025. Ilustra el crecimiento exponencial de los requisitos computacionales, con modelos pioneros como Perceptron en la parte inferior izquierda y modelos a gran escala recientes, como Gemini 1.0 Ultra en la parte superior derecha.
Aumento del cómputo de entrenamiento (FLOP) de modelos notables de IA a lo largo del tiempo.

Esto se debió a que se gastó más dinero y se utilizaron chips más eficientes.⁠e

Históricamente, cada vez que el cómputo de entrenamiento se ha multiplicado por 10, ha habido una mejora constante en el desempeño en muchas tareas y benchmarks.

Por ejemplo, a medida que el cómputo de entrenamiento se ha multiplicado por mil, los modelos de IA han mejorado de manera constante su capacidad para responder diversas preguntas, desde el razonamiento de sentido común hasta la comprensión de situaciones sociales y la física. Esto se demuestra en el benchmark ‘BIG-Bench Hard’, que incluye diversas preguntas seleccionadas específicamente para desafiar a los modelos de lenguaje:

La imagen muestra un gráfico titulado 'Desempeño en el BIG-Bench Hard y la escala'. Los porcentajes de desempeño del modelo de lenguaje según la escala del poder de cómputo aparecen en forma de una curva logarítmica. Los modelos notables como PaLM-2, PaLM, Yi-6B y GPT-3 están etiquetados, mostrando una tendencia general al alza a medida que aumenta el poder de cómputo.
El desempeño de los modelos de lenguaje en un benchmark desafiante (BIG-Bench Hard) mejora a medida que el cómputo de entrenamiento aumenta 1000 veces.

Del mismo modo, OpenAI creó un modelo de programación que podía resolver problemas sencillos, y luego utilizó 100 000 veces más poder de cómputo para entrenar una versión mejorada. A medida que aumentaba el poder de cómputo, el modelo respondía correctamente a preguntas cada vez más difíciles.⁠f

(Los problemas de prueba no estaban en los datos de entrenamiento originales, por lo que no se trataba simplemente de una mejor búsqueda entre problemas memorizados).

Esta relación entre el cómputo de entrenamiento y el desempeño se denomina ‘ley de escalamiento’.⁠g

Para 2020 ya se habían publicado artículos sobre estas leyes. Para quienes seguían esta línea de investigación, GPT-4 no fue una sorpresa, sino la continuación de una tendencia.

Eficiencia algorítmica

No es solo que el cómputo de entrenamiento haya aumentado, sino que los investigadores han encontrado formas mucho más eficientes de usarlo.

Cada dos años, el poder de cómputo necesario para obtener el mismo desempeño en una amplia gama de modelos se ha reducido diez veces.

La imagen muestra un gráfico titulado 'Eficiencia algorítmica en visión artificial', de EPOCH AI, que contiene los requisitos de poder de cómputo extrapolado (FLOP) y de datos para alcanzar un desempeño del 80,9 % en ImageNet. Las múltiples líneas descendentes representan diferentes años (2012-2021), y muestran que el poder de cómputo disminuye a medida que aumenta el tamaño de los conjuntos de datos de entrenamiento.
Los modelos de IA requieren 10 veces menos poder de cómputo para alcanzar la misma precisión en el reconocimiento de imágenes cada dos años (según el benchmark ImageNet).

Estas mejoras también suelen abaratar el funcionamiento de los modelos. DeepSeek-V3 se promocionó como un avance revolucionario en términos de eficiencia, pero estaba más o menos dentro de la tendencia: lanzado dos años después de GPT-4, es unas 10 veces más eficiente.⁠h

La eficiencia algorítmica significa que no solo se utiliza cuatro veces más poder de cómputo en el entrenamiento cada año, sino que el poder de cómputo también llega tres veces más lejos. Los dos se multiplican para producir un aumento de 12 veces en el poder de cómputo ‘efectivo’ cada año.

Esto significa que los chips que se utilizaron para entrenar a GPT-4 en tres meses podrían haberse utilizado para entrenar un modelo con el desempeño de GPT-2 unas 300 000 veces.⁠i

Este aumento en el poder de cómputo efectivo nos llevó de un modelo que apenas podía unir unos cuantos párrafos a GPT-4, capaz de hacer cosas como:

  • Superar a la mayoría de los estudiantes de bachillerato en los exámenes de ingreso a la universidad
  • Conversar en lenguaje natural: en un pasado lejano, esto se consideraba una muestra de verdadera inteligencia, como en la prueba de Turing
  • Resolver la prueba de esquemas de Winograd: una prueba de razonamiento de sentido común que en la década de 2010 se consideraba que requería una verdadera comprensión⁠j
  • Crear arte que la mayoría de la gente no pueda distinguir de la obra producida por humanos⁠k

Comparación de las puntuaciones percentiles de GPT-4 y GPT-3.5 con las de examinandos humanos en exámenes estandarizados.

ExamenGPT-4 (2023)GPT-3.5 (2022)
Examen de Derecho homologado90.º10.º
LSAT88.º40.º
SAT97.º87.º
GRE (verbal)99.º63.º
GRE (cuantitativo)80.º25.º
Olimpiada de Biología de EUA99.º32.º
Cálculo BC AP51.º3.º
Química AP80.º34.º
Macroeconomía AP92.º40.º
Estadística AP92.º51.º⁠1

¿Hasta dónde puede escalar el preentrenamiento?

Si las tendencias actuales continúan, entonces, alrededor de 2028, alguien habrá entrenado un modelo con 300 000 veces más poder de cómputo efectivo que GPT-4.⁠l

Ese es el mismo aumento que vimos de GPT-2 a GPT-4, de modo que si se asignara al preentrenamiento, podríamos llamar a ese modelo hipotético ‘GPT-6’.⁠m

Después de una pausa en 2024, las empresas ya están cerca de los modelos del tamaño de GPT-5, y se espera que se lancen en 2025.

Pero, ¿puede esta tendencia continuar hasta GPT-6?

El director general de Anthropic, Dario Amodei, estima que los modelos del tamaño de GPT-6 tendrán un costo de entrenamiento de unos 10 000 millones de dólares.⁠n Eso sigue siendo asequible para empresas como Google, Microsoft o Meta, que obtienen ganancias de entre 50 000 y 100 000 millones de dólares al año.⁠o

De hecho, estas empresas ya están construyendo centros de datos lo suficientemente grandes para tales ciclos de entrenamiento⁠p —y eso fue antes de que se anunciara el proyecto Stargate de más de 100 000 millones de dólares—.

Los modelos de IA de vanguardia también están generando actualmente ganancias de más de 10 000 millones de dólares,⁠q que se han incrementado más de tres veces cada año, por lo que las ganancias de la IA por sí solas pronto serán suficientes para pagar un ciclo de entrenamiento de 10 000 millones de dólares.

Hablaré más adelante de los cuellos de botella, pero el más plausible es el de los datos de entrenamiento. Sin embargo, el mejor análisis que he encontrado sugiere que habrá suficientes datos para llevar a cabo un entrenamiento a la escala de GPT-6 para 2028.

E incluso si este no es el caso, ya no es crucial —las empresas de IA han descubierto formas de sortear el cuello de botella de los datos—.

2. Postentrenamiento de modelos de razonamiento con aprendizaje por refuerzo

La gente suele decir: “ChatGPT solo predice la siguiente palabra”. Pero eso nunca ha sido del todo cierto.

La mera predicción de palabras de Internet produce datos de salida que suelen ser un sinsentido (como es de esperar, dado que se trata de Internet).

GPT se volvió realmente útil con la incorporación del aprendizaje por refuerzo a partir de realimentación humana:

  1. Los datos de salida del ‘modelo base’ se muestran a evaluadores humanos.
  2. Se pide a los evaluadores que juzguen cuáles son más útiles.
  3. El modelo se ajusta para producir más datos de salida similares a los útiles (‘refuerzo’).

Un modelo que ha sido sometido a este tipo de aprendizaje no se limita a “predecir el siguiente token”, sino que ha sido entrenado para predecir lo que los evaluadores humanos consideran más útil.

Podemos pensar en el modelo de lenguaje inicial como una base de estructura conceptual. El aprendizaje por refuerzo a partir de realimentación humana es esencial para dirigir esa estructura hacia un fin útil concreto.

Este aprendizaje es una forma de ‘postentrenamiento’, llamado así porque ocurre después del preentrenamiento (aunque ambos son simplemente tipos de entrenamiento).

Hay muchos otros tipos de mejoras posteriores al entrenamiento que incluyen cosas tan simples como permitir que el modelo acceda a una calculadora o a Internet. Pero hay uno que es especialmente crucial en este momento: el aprendizaje por refuerzo para enseñar a los modelos a razonar.

La idea es que en lugar de entrenar al modelo para que haga lo que los humanos consideran útil, se entrene para resolver problemas correctamente. Este es el proceso:

  1. Darle al modelo un problema con una respuesta verificable, como un problema matemático.
  2. Pedirle que produzca una cadena de razonamiento para resolver el problema (‘cadena de pensamiento’).⁠r
  3. Si la respuesta es correcta, ajustar el modelo para que se parezca más a eso (‘refuerzo’).⁠s
  4. Repetir.

Este proceso enseña al modelo de lenguaje a construir largas cadenas de razonamiento (correcto) sobre problemas lógicos.

Antes de 2023, esto no parecía funcionar. Si cada paso del razonamiento es demasiado poco fiable, las cadenas no tardan en fallar. Y si no puedes acercarte a la respuesta, no puedes darle ningún refuerzo.

Pero en 2024, cuando muchos decían que el progreso de la IA se había estancado, este nuevo paradigma comenzó a despegar.

Consideremos el benchmark GPQA Diamond, un conjunto de preguntas científicas diseñadas para que personas con doctorado en el campo puedan responderlas en su mayoría, pero que las personas no expertas no pueden responder, incluso con 30 minutos de acceso a Google. Contiene preguntas como esta:⁠t

Supongamos que tenemos una operación de canal despolarizante dada por E(ρ)E(\rho)E(ρ). La probabilidad, ppp, del estado de despolarización representa la fuerza del ruido. Si los operadores de Kraus del estado dado son A0=1−3p4A_0 = \sqrt{1 - \frac{3p}{4}}A0​=1−43p​​, A1=p4XA_1 = \sqrt{\frac{p}{4}}XA1​=4p​​X, A2=p4YA_2 = \sqrt{\frac{p}{4}}YA2​=4p​​Y, y A3=p4ZA_3 = \sqrt{\frac{p}{4}}ZA3​=4p​​Z. ¿Cuál podría ser la representación de Kraus correcta del estado E(ρ)E(\rho)E(ρ)?

A) E(ρ)=(1−p)ρ+p3XρX+p3YρY+p3ZρZE(\rho) = (1 - p)\rho + \frac{p}{3}X\rho X + \frac{p}{3}Y\rho Y + \frac{p}{3}Z\rho ZE(ρ)=(1−p)ρ+3p​XρX+3p​YρY+3p​ZρZ
B) E(ρ)=(1−p)ρ+p3Xρ2X+p3Yρ2Y+p3Zρ2ZE(\rho) = (1 - p)\rho + \frac{p}{3}X\rho^2 X + \frac{p}{3}Y\rho^2 Y + \frac{p}{3}Z\rho^2 ZE(ρ)=(1−p)ρ+3p​Xρ2X+3p​Yρ2Y+3p​Zρ2Z
C) E(ρ)=(1−p)ρ+p4XρX+p4YρY+p4ZρZE(\rho) = (1 - p)\rho + \frac{p}{4}X\rho X + \frac{p}{4}Y\rho Y + \frac{p}{4}Z\rho ZE(ρ)=(1−p)ρ+4p​XρX+4p​YρY+4p​ZρZ
D) E(ρ)=(1−p)ρ2+p3Xρ2X+p3Yρ2Y+p3Zρ2ZE(\rho) = (1 - p)\rho^2 + \frac{p}{3}X\rho^2 X + \frac{p} {3}Y\rho^2 Y + \frac{p}{3}Z\rho^2 ZE(ρ)=(1−p)ρ2+3p​Xρ2X+3p​Yρ2Y+3p​Zρ2Z

En 2023, GPT-4 obtuvo resultados apenas mejores que las suposiciones al azar en este benchmark. Podía manejar el razonamiento requerido para problemas de ciencias de nivel bachillerato, pero no podía manejar el razonamiento a nivel de doctorado.

Sin embargo, en octubre de 2024, OpenAI tomó el modelo base de GPT-4o y utilizó el aprendizaje por refuerzo para crear o1.⁠u

Alcanzó una precisión del 70 %, que lo equipara a los doctores en cada campo a la hora de responder estas preguntas.

Ya no es sostenible afirmar que estos modelos se limitan a regurgitar sus datos de entrenamiento: ni las respuestas ni las cadenas de razonamiento necesarias para producirlas existen en Internet.

La imagen muestra un gráfico de Epoch AI que compara el desempeño de modelos de IA en un conjunto de preguntas científicas de nivel de doctorado (precisión GPQA Diamond). Los modelos de OpenAI, Google, Anthropic y Meta AI se trazan por fecha de lanzamiento desde julio de 2023 hasta octubre de 2024, y la versión preliminar de o1 de OpenAI alcanza un desempeño cercano al de los expertos humanos (70 %).
El desempeño de los modelos de IA ha mejorado con el tiempo en preguntas científicas de nivel de doctorado, pero no pudo superar a los humanos de nivel experto en octubre de 2024.

La mayoría de la gente no responde preguntas científicas de nivel de doctorado en su vida diaria, por lo que no se han dado cuenta de los últimos avances. Siguen pensando que los modelos de lenguaje son simples chatbots.

Pero o1 fue solo el principio. Al comienzo de un nuevo paradigma, es posible obtener ganancias a un ritmo particularmente rápido.

Solo tres meses después de o1, OpenAI publicó los resultados de o3. Es la segunda versión, llamada ‘o3’ porque ‘o2’ es una empresa de telecomunicaciones. (Por favor, no me pidan que explique nada más sobre las prácticas de OpenAI para nombrar sus modelos).

Es probable que o3 sea o1, pero con más aprendizaje por refuerzo (y otro cambio que explicaré en breve).

o3 superó el desempeño humano de nivel de experto en GPQA:

La imagen muestra un gráfico que rastrea el desempeño de la IA en un conjunto de preguntas científicas de nivel de doctorado (precisión GPQA Diamond) desde julio de 2023 hasta abril de 2025. Muestra varios modelos de IA de OpenAI, Google, Anthropic y Meta AI, con un desempeño que oscila entre el 10 % y más del 70 %, donde el nivel humano experto está marcado en el 70 % y las suposiciones al azar, en el 25 %.
o3 y otros modelos ahora superan a los humanos con doctorado en sus campos de experticia y que usan Google en benchmarks científicos de nivel de doctorado.

El refuerzo debería ser más útil para problemas que tienen respuestas verificables, como los de ciencia, matemáticas y programación.⁠v o3 funciona mucho mejor en todas estas áreas que su modelo base.

La mayoría de los benchmarks de preguntas de matemáticas ya están saturados —los modelos líderes pueden responder prácticamente todas las preguntas de forma correcta—. En respuesta, Epoch AI creó Frontier Math, un benchmark de problemas matemáticos increíblemente difíciles.

El 25 % más fácil es similar a los problemas de nivel de olimpiada. El 25 % más difícil es, según el ganador de la Medalla Fields Terrance Tao, “extremadamente desafiante”, y normalmente necesitaría un experto en esa rama de las matemáticas para resolverlo.

Los modelos anteriores, incluido GPT-o1, apenas podían resolver alguna de estas preguntas.⁠w En diciembre de 2024, OpenAI afirmó que GPT-o3 podía resolver el 25 %.⁠x

Estos resultados no se publicaron en los medios de comunicación. El mismo día del anuncio de los resultados de o3, The Wall Street Journal publicó esta historia:

La imagen muestra la portada de The Wall Street Journal del día en que se anunciaron los resultados de o3.
El mismo día en que o3 demostró un desempeño notable en problemas matemáticos extremadamente difíciles, The Wall Street Journal informaba en su página de inicio sobre los retrasos de GPT-5.

Esto pasa por alto el punto crucial de que GPT-5 ya no es necesario: ha comenzado un nuevo paradigma que puede generar ganancias aún más rápido que antes.

¿Hasta dónde pueden escalar los modelos de razonamiento?

En enero, DeepSeek replicó muchos de los resultados de o1. Su artículo reveló que incluso la versión más simple del proceso funciona, lo que sugiere que hay mucho más por probar.

DeepSeek-R1 también revela al usuario toda su cadena de razonamiento, lo que demuestra su sofisticación y su sorprendente calidad humana: reflexionará sobre sus respuestas, dará marcha atrás cuando se equivoque, considerará múltiples hipótesis, tendrá ideas y mucho más.

Pregunta: Si a>1a > 1a>1, entonces la suma de las soluciones reales de a−a+x=x\sqrt{a - \sqrt{a+x}} = xa−a+x​​=x es igual a


Respuesta: <think>

Para resolver la ecuación a−a+x=x\sqrt{a - \sqrt{a+x}} = xa−a+x​​=x, comencemos elevando al cuadrado ambos ⋯\cdots⋯

(a−a+x)2=x2⇒a−a+x=x2\left(\sqrt{a - \sqrt{a+x}}\right)^2 = x^2 \Rightarrow a - \sqrt{a+x} = x^2(a−a+x​​)2=x2⇒a−a+x​=x2

Reorganiza para aislar el término de raíz cuadrada interior:

(a−x2)2=a+x⇒a2−2ax2+(x2)2=a+x⇒x4−2ax2−x+(a2−a)=0(a - x^2)^2 = a + x \Rightarrow a^2 - 2ax^2 + (x^2)^2 = a + x \Rightarrow x^4 - 2ax^2 - x + (a^2 - a) = 0(a−x2)2=a+x⇒a2−2ax2+(x2)2=a+x⇒x4−2ax2−x+(a2−a)=0
⋯\cdots⋯

Espera, espera. Espera. Este es un momento eureka que puedo señalar aquí.

Reevaluemos esto paso a paso para identificar si la suma correcta puede ser ⋯\cdots⋯

Empezamos con la ecuación:

a−a+x=x\sqrt{a - \sqrt{a+x}} = xa−a+x​​=x

Primero, elevamos al cuadrado ambos lados:

a−a+x=x2⇒a+x=a−x2a - \sqrt{a+x} = x^2 \Rightarrow \sqrt{a+x} = a - x^2a−a+x​=x2⇒a+x​=a−x2

A continuación, podría elevar al cuadrado ambos lados de nuevo, tratando la ecuación: ⋯\cdots⋯

⋯\cdots⋯

Tabla 3 | Un interesante “momento eureka” de una versión intermedia de DeepSeek-R1-Zero. El modelo aprende a repensar utilizando un tono antropomórfico. Este también es un “momento eureka” para nosotros que nos permite presenciar el poder y la belleza del aprendizaje por refuerzo.⁠2

Todo este comportamiento surge del simple aprendizaje por refuerzo. El investigador de OpenAI Sabastian Bubeck señaló lo siguiente:

No se le dio ninguna táctica al modelo. Todo es emergente. Todo se aprende a través del aprendizaje por refuerzo. Esto es una locura.

El poder de cómputo para la etapa de aprendizaje por refuerzo del entrenamiento de DeepSeek-R1 probablemente solo cuesta alrededor de 1 millón de dólares.

Si sigue funcionando, OpenAI, Anthropic y Google podrían gastar mil millones de dólares en el mismo proceso, ampliando la escala del poder de cómputo unas 1000 veces.⁠y

Una de las razones por las que es posible ampliar la escala en tal magnitud es que los modelos generan sus propios datos.

Esto puede sonar circular, y la idea de que los datos sintéticos causan el ‘colapso del modelo’ se ha discutido ampliamente.

Pero no hay nada circular en este caso. Puedes pedirle a GPT-o1 que resuelva 100 000 problemas matemáticos, luego tomar solo los casos en los que obtuvo la respuesta correcta y usarlos para entrenar al siguiente modelo.

Como las soluciones se pueden verificar rápidamente, has generado más ejemplos de razonamiento realmente bueno.

De hecho, los datos son de una calidad mucho más alta que los que encontrarás en Internet porque contienen toda la cadena de razonamiento y se sabe que son correctos (algo por lo que Internet no se distingue).⁠z

Esto crea potencialmente un efecto de inercia:

  1. Haz que tu modelo resuelva un montón de problemas.
  2. Usa las soluciones para entrenar al siguiente modelo.⁠aa
  3. El siguiente modelo puede resolver problemas aún más difíciles.
  4. Eso genera aún más soluciones.
  5. Y así sucesivamente.

Si los modelos ya pueden realizar razonamientos de nivel de doctorado, la siguiente etapa sería el razonamiento de nivel de investigador y, posteriormente, generar nuevas ideas.

Esto explica las declaraciones inusualmente optimistas de los líderes de las empresas de IA. El cambio de opinión de Sam Altman coincide exactamente con el lanzamiento de o3 en diciembre de 2024.

Aunque son más potentes en campos verificables, las habilidades de razonamiento desarrolladas probablemente se generalizarán al menos un poco. Ya hemos visto mejoras en el razonamiento legal de o1, por ejemplo.⁠ab

En otros campos como la estrategia empresarial o la escritura, es más difícil juzgar la utilidad de los modelos, por lo que el proceso lleva más tiempo, pero debemos esperar que funcione hasta cierto punto. El grado de eficacia de este método es una cuestión crucial de cara al futuro.

3. Aumentar el tiempo en que piensan los modelos

Si solo pudieras pensar en un problema durante un minuto, probablemente no llegarías muy lejos.

Si pudieras pensar durante un mes, progresarías mucho más, aunque tu inteligencia bruta no sea mayor.

Los modelos de lenguaje solían ser incapaces de pensar en un problema durante más de un minuto antes de que los errores se acumularan o se desviaran del tema, lo que realmente limitaba lo que podían hacer.

Pero a medida que los modelos se han vuelto más fiables en términos de razonamiento, se han vuelto mejores en pensar durante más tiempo.

OpenAI demostró que puedes dejar que o1 piense por un tiempo 100 veces más largo de lo normal y obtener aumentos lineales en la precisión en problemas de programación.

La imagen muestra un gráfico titulado 'Precisión de AIME o1 en tiempo de inferencia' con 'pasa@1precisión' en el eje y (0-100) y 'poder de cómputo en tiempo de inferencia (escala logarítmica)' en el eje x. El gráfico muestra siete puntos de datos que exhiben una correlación positiva entre los recursos computacionales y la precisión, con una precisión que aumenta de alrededor del 20 % al 75 %.
La precisión en los problemas de programación aumenta a medida que se amplía la escala del tiempo que el modelo tiene para ‘pensar’.

Esto se llama usar el ‘poder de cómputo en tiempo de inferencia’: el poder de cómputo que se gasta cuando se está ejecutando el modelo, no cuando se está entrenando.

Si GPT-4o podía pensar de forma útil durante aproximadamente un minuto, GPT-o1 y DeepSeek-R1 parecen poder pensar durante el equivalente a una hora, aproximadamente.⁠ac

A medida que los modelos de razonamiento se vuelvan más fiables, podrán pensar durante más y más tiempo.

Al ritmo actual, pronto tendremos modelos que puedan pensar durante un mes y luego, un año.

(Es muy intrigante preguntarse qué sucedería si pudieran pensar indefinidamente: dado un poder de cómputo suficiente, y suponiendo que el progreso es posible en principio, podrían mejorar sus respuestas a cualquier pregunta de manera continua).

Usar más poder de cómputo en tiempo de inferencia también puede permitir resolver más problemas por fuerza bruta. Una técnica es tratar de resolver un problema 10, 100 o 1000 veces, y elegir la solución con más ‘votos’. Esta es probablemente otra forma en que o3 pudo vencer a o1.⁠ae

El resultado práctico inmediato de todo esto es que se puede pagar más para obtener capacidades más avanzadas antes.

Cuantitativamente, en 2026, espero que se pueda pagar 100 000 veces más para obtener un desempeño que antes solo habría sido posible en 2028.⁠af

La mayoría de los usuarios no estarán dispuestos a hacerlo, pero si tienes un problema crucial de ingeniería, científico o empresarial, incluso 1 millón de dólares es una ganga.

En particular, los investigadores de IA pueden utilizar esta técnica para seguir impulsando la investigación. Es un proceso llamado destilación y amplificación iteradas, sobre el que puedes leer aquí. Así funcionaría:

  1. Haz que tu modelo piense durante más tiempo para obtener mejores respuestas (‘amplificación’).
  2. Usa esas respuestas para entrenar a un nuevo modelo. Ese modelo ahora puede producir casi las mismas respuestas inmediatamente sin necesidad de pensar durante más tiempo (‘destilación’).
  3. Ahora haz que el nuevo modelo piense durante más tiempo. Será capaz de generar respuestas aún mejores que las originales.
  4. Repite.

Este proceso es esencialmente cómo DeepMind hizo que AlphaZero fuera superhumano en el Go en un par de días, sin ningún dato humano.

4. La siguiente etapa: construir mejores agentes

GPT-4 se parece a un compañero de trabajo en su primer día que es inteligente y está bien informado, pero que solo responde una o dos preguntas antes de dejar la empresa.

Evidentemente, eso no es muy útil.

Pero las empresas de IA ahora están convirtiendo los chatbots en agentes.

Un ‘agente’ de IA es capaz de realizar una larga cadena de tareas en pos de un objetivo.

Por ejemplo, si quieres crear una aplicación, en lugar de pedirle ayuda al modelo en cada paso, simplemente dices: “Crea una aplicación que haga X”. Después, el modelo hace preguntas aclaratorias, crea un prototipo, hace pruebas y corrige errores, y entrega un producto terminado, como lo haría un ingeniero de software humano.

Los agentes funcionan tomando un modelo de razonamiento y dándole una memoria y acceso a herramientas (un ‘andamiaje’):

  1. Le dices al módulo de razonamiento un objetivo y este elabora un plan para alcanzarlo.
  2. Basándose en eso, utiliza las herramientas para realizar algunas acciones.
  3. Los resultados se reintroducen en el módulo de memoria.
  4. El módulo de razonamiento actualiza el plan.
  5. El bucle continúa hasta que se alcanza el objetivo (o se determina que no es posible).

Los agentes de IA ya funcionan en cierta medida.

SWE-bench Verified es un benchmark de problemas de ingeniería de software del mundo real diseñado por GitHub que suelen tomar aproximadamente una hora en completarse.

GPT-4 no puede resolver estos problemas porque implican el uso de múltiples aplicaciones.

Sin embargo, cuando se lo pone en un andamiaje de agente simple:⁠ag

  • GPT-4 puede resolver alrededor del 20 %.
  • Claude Sonnet 3.5 podría resolver el 50 %.
  • Y GPT-o3 podría resolver más del 70 %.

Esto significa que o3 es básicamente tan bueno como los ingenieros de software profesionales para completar estas tareas discretas.

En competencias de problemas de programación, se habría clasificado entre los 200 mejores del mundo.

Así es como se ven estos agentes de programación en acción:

La imagen muestra agentes de programación en acción.
Para que te des una idea de cómo funciona, mira esta demostración del agente de programación Devin.

Ahora considera quizás el benchmark más importante del mundo: el difícil conjunto de problemas de ingeniería de investigación en IA de METR (‘RE Bench’).

Estos problemas incluyen cosas como el ajuste de modelos o la predicción de resultados experimentales, que los ingenieros tratan de resolver para mejorar los sistemas de IA de vanguardia. Fueron diseñados para ser problemas realmente difíciles que se parecen mucho a la investigación real en materia de IA.

Un agente simple construido en GPT-o1 y Claude 3.5 Sonnet es mejor que los expertos humanos cuando se le dan dos horas.

Este desempeño superó las expectativas de muchos pronosticadores (y o3 aún no se ha probado).⁠ah

La imagen muestra un gráfico que compara las puntuaciones de desempeño de diferentes modelos de IA (variantes de Claude 3.5 y o1-preview) con el desempeño humano en varios presupuestos de tiempo, que van de 30 minutos a 64 horas.
Cuando se les dan dos horas para completar problemas difíciles de ingeniería de investigación en IA, los modelos superan a los humanos. Con más de dos horas, los humanos siguen superando considerablemente a los modelos de IA, y la ventaja aumenta a medida que el tiempo disponible aumenta. Fuente: Hjalmar Wijk et al. (2024) RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts, arXiv:2411.15114 [cs.LG]

El desempeño de la IA aumenta más lentamente que el desempeño humano cuando el tiempo es mayor, por lo que los expertos humanos siguen superando a las IA en torno a las cuatro horas.

Pero los modelos de IA están apretando el paso rápidamente.

GPT-4o sólo fue capaz de realizar tareas que a los humanos les llevarían unos 30 minutos.⁠ai

METR realizó una evaluación comparativa más amplia de tareas categorizadas por horizonte temporal. GPT-2 sólo fue capaz de realizar tareas que a los humanos les llevaban unos segundos; GPT-4, tareas que a los humanos les llevaban unos minutos; y los últimos modelos de razonamiento podían realizar tareas que a los humanos les llevaban poco menos de una hora.

El gráfico muestra que la complejidad de las tareas de IA aumenta exponencialmente, duplicándose cada 7 meses. Sigue el progreso desde GPT-2 (2019) hasta GPT-4o y Sonnet 3.7 (2024), con duraciones de tareas que van desde 1 segundo hasta más de 4 horas. Varias tareas de referencia están etiquetadas a lo largo del eje y con niveles de complejidad crecientes.
Thomas Kwa et al. (2025) Measuring AI Ability to Complete Long Tasks, arXiv:2503.14499 [cs.AI]

Si esta tendencia continúa hasta finales de 2028, la IA podrá realizar tareas de investigación en IA e ingeniería de software que llevan varias semanas tan bien como los humanos.

El gráfico anterior utiliza una escala logarítmica. Si se utiliza una escala lineal, tiene este aspecto:

La imagen muestra un gráfico de METR que sigue el crecimiento de la capacidad de las tareas de IA a lo largo del tiempo. Ilustra que la duración de las tareas que la inteligencia artificial puede realizar (con una tasa de éxito del 50 %) se ha duplicado aproximadamente cada 7 meses, con modelos como GPT-2 hasta Sonnet 3.7 trazados a lo largo de una línea de tendencia exponencial desde 2019 hasta 2026.
Con el tiempo, los modelos de IA son cada vez más capaces de informar sobre su propio contexto, como decir si están siendo entrenados o ya están desplegados, mejorando de un desempeño de nivel aleatorio (aproximadamente un 30 %) a un 60 % en dos años.

La línea roja muestra que la tendencia en el último año ha sido aún más rápida, quizás debido al paradigma de los modelos de razonamiento.

Los modelos de IA también comprenden cada vez mejor su contexto —respondiendo correctamente a preguntas sobre su propia arquitectura, datos de salida pasados y si están siendo entrenados o desplegados—, otra condición previa para la agencia.

Hablando de cosas menos serias, aunque Claude 3.7 sigue siendo un jugador terrible de Pokémon, es mucho mejor que 3.5, y hace apenas un año, Claude 3 no podía jugar en absoluto.

Los gráficos anteriores explican por qué, aunque los modelos de IA pueden ser muy “inteligentes” a la hora de responder preguntas, aún no han automatizado muchos trabajos.

La mayoría de los trabajos no son solo listas de tareas discretas de una hora, sino que implican averiguar qué hacer, coordinarse con un equipo, llevar a cabo proyectos largos y novedosos con mucho contexto, etc.

Incluso en una de las áreas más fuertes de la IA, la ingeniería de software, hoy en día los sistemas solo puede realizar tareas que llevan menos de una hora. Y todavía tropiezan a menudo con cosas como encontrar el botón correcto en un sitio web. Esto significa que está muy lejos de poder reemplazar completamente a los ingenieros de software.

Sin embargo, las tendencias sugieren que hay muchas posibilidades de que eso cambie pronto. Una IA que pueda realizar tareas de un día o una semana sería capaz de automatizar mucho más trabajo que los modelos actuales. Las empresas podrían empezar a contratar a cientos de «trabajadores digitales» supervisados por un pequeño número de humanos.

¿Hasta cuándo puede continuar la tendencia de mejora de los agentes?

OpenAI proclamó 2025 como el “año de los agentes”.

  • Aunque el andamiaje de los agentes de IA es incipiente, es una prioridad para los laboratorios líderes, lo que debería conducir a un mayor progreso.
  • Los avances también vendrán de conectar el andamiaje de los agentes a modelos de razonamiento cada vez más potentes, dotando al agente de un ‘cerebro planificador’ mejor y más confiable.
  • Estos, a su vez, se basarán en modelos base que se han entrenado con muchos más datos de vídeo, lo que podría mejorar en gran medida la percepción de los agentes, un importante cuello de botella en la actualidad.

Una vez que los agentes empiezan a funcionar en alguna medida, se desbloquea un mayor progreso:

  • Asigna una tarea a un agente, como hacer una compra o escribir un tuit popular. Luego, si tiene éxito, utiliza el aprendizaje por refuerzo para que sea más probable que tenga éxito la próxima vez.
  • Además, cada tarea completada con éxito puede utilizarse como datos de entrenamiento para la próxima generación de agentes.

El mundo es una fuente inagotable de datos, lo que permite a los agentes desarrollar de forma natural un modelo causal del mundo.⁠aj

Cualquiera de estas medidas podría aumentar significativamente la fiabilidad y, como hemos visto varias veces en este artículo, las mejoras en la fiabilidad pueden desbloquear de repente nuevas capacidades:

  • Incluso una tarea sencilla como encontrar y reservar un hotel que se ajuste a tus preferencias requiere decenas de pasos. Con un 90 % de posibilidades de completar cada paso correctamente, solo hay un 10 % de posibilidades de completar 20 pasos correctamente.

  • Sin embargo, con un 99 % de fiabilidad por paso, la posibilidad general de éxito salta del 10 % al 80 %, la diferencia entre inútil y muy útil.

Así que el progreso podría ser bastante explosivo.

Dicho esto, la agencia es el más incierto de los cuatro impulsores. Todavía no tenemos grandes puntos de referencia para medirlo, por lo que, aunque puede haber muchos avances en ciertos tipos de tareas, el progreso podría seguir siendo lento en otro aspectos. Algunas áreas significativas de debilidad podrían paralizar las aplicaciones de la IA. Podrían ser necesarios avances más fundamentales para que funcione realmente.

No obstante, las tendencias recientes y las mejoras previstas que he mencionado anteriormente sugieren que habrá avances significativos.

II. ¿Cuánto mejorará la IA para 2030?

Los cuatro impulsores proyectados hacia el futuro

Recapitulemos todo lo que hemos visto hasta ahora. De cara a los próximos dos años, los cuatro impulsores del progreso de la IA parecen dispuestos a continuar y desarrollarse entre sí:

  1. Se lanzará un modelo base entrenado con un poder de cómputo 500 veces más efectivo que GPT-4 (‘GPT-5’).
  2. Ese modelo podría entrenarse para razonar con hasta 100 veces más poder de cómputo que o1 (‘o5’).
  3. Podrá pensar el equivalente a un mes por tarea cuando sea necesario.
  4. Se conectará a un andamiaje de agentes mejorado y se reforzará aún más para que sea más agéntico.

Y eso no será el final. Las empresas líderes están bien encaminadas para realizar ciclos de entrenamiento de 10 000 millones de dólares para 2028. Esto sería suficiente para preentrenar un modelo base del tamaño de GPT-6 y hacer 100 veces más aprendizaje por refuerzo (o alguna otra combinación).⁠ak

Además, impulsores nuevos, como los modelos de razonamiento, aparecen aproximadamente cada 1-2 años, por lo que deberíamos proyectar al menos un descubrimiento como este en los próximos cuatro años. Y existe la posibilidad de que veamos un avance más fundamental, más parecido al propio aprendizaje profundo.

Impulsor del progreso2019-20232024-2028
Escalar el poder de cómputo efectivo de preentrenamiento12 veces al año

300 000 veces en total

GPT-2 a GPT-4
12 veces al año

300 000 veces en total

GPT-4 a GPT-6⁠al
PostentrenamientoAprendizaje por refuerzo a partir de realimentación humana, cadena de pensamiento, uso de herramientasAprendizaje por refuerzo en modelos de razonamiento

¿Ampliación de la escala de 40 000 veces?⁠am
Pensar durante más tiempoNo funciona bienPensar 100 000 veces más tiempo en tareas de alto valor
AgentesEn su mayoría no funcionan¿Tareas de 1 hora a varias semanas?
Un nuevo impulsor o avance paradigmáticoAprendizaje por refuerzo a partir de realimentación humana, cadena de pensamiento, aprendizaje por refuerzo en modelos de razonamiento, el andamiaje básico de los agentes empezó a funcionar.???

El rápido crecimiento del poder de cómputo y de la fuerza laboral de IA significa que es probable que haya más descubrimientos.

Si unimos todo esto, las personas que imaginan el futuro como ‘chatbots ligeramente mejores’ están cometiendo un error. En ausencia de una gran disrupción,⁠an el progreso no se va a estancar aquí.

La pregunta del millón es cuánto avanzará la IA.

Extrapolación de tendencias de las capacidades de la IA

En última instancia, nadie lo sabe, pero una forma de obtener una respuesta más precisa es extrapolar el progreso en los benchmarks que miden las capacidades de la IA.

Dado que todos los impulsores del progreso continúan a ritmos similares a los del pasado, podemos extrapolar aproximadamente el ritmo de progreso reciente.⁠ao

A continuación se muestra un resumen de todos los benchmarks que hemos analizado (más un par más) y dónde podríamos esperar que estén en 2026:

BenchmarkDesempeño de vanguardia en 2022Desempeño de vanguardia a finales de 2024Extrapolación aproximada de las tendencias a finales de 2026
MMLU: recopilación de pruebas de conocimientos universitarios y profesionalesPaLM 69 %~90 % (saturado)⁠apSaturado
BIG-Bench Hard: problemas de razonamiento, de sentido común a física a sesgo social, elegidos para ser especialmente difíciles para los modelos de lenguaje en 2021~70 %⁠aq~90 % (saturado)Saturado
Humanity’s Last Exam: una recopilación de 3000 preguntas aún más difíciles en la frontera del conocimiento humano.<3 %⁠ar9 %25 % en febrero de 2025.
¿40 % a saturado?
SWE-bench Verified: problemas de ingeniería de software reales de GitHub que suelen tardar menos de una hora en completarse<10 %70 %
(aproximadamente a nivel de experto humano)
Saturado
GPQA Diamond: preguntas científicas de nivel de doctorado diseñadas para ser ‘a prueba de Google’Suposiciones al azar (25 %)~90 % (por encima de doctorado en la disciplina correspondiente)Saturado
MATH: preguntas de competencias de matemáticas de nivel bachillerato50 %100 %100 %
FrontierMath: preguntas de matemáticas que requieren matemáticos profesionales en el área correspondiente0 %25 %¿50 % a saturado?
RE-bench: siete tareas difíciles de ingeniería de investigación en IANo puede hacer ningunaMejor que los expertos con dos horasMejor que los expertos con 10-100 horas
METR Time horizon benchmark: SWE, ciberseguridad y tareas de ingeniería de IATareas que los humanos pueden hacer en un minutoTareas que los humanos pueden hacer en 30 minutosTareas que los humanos pueden hacer en 6 horas
Consciencia situacional: preguntas diseñadas para evaluar si el modelo comprende su contexto y a sí mismo<30 %60 %¿90 %?

Esto implica que en dos años deberíamos esperar sistemas de IA que:

  • Tengan un conocimiento a nivel de experto en todos los campos
  • Puedan responder a preguntas de matemáticas y ciencias tan bien como muchos investigadores profesionales
  • Sean mejores que los humanos en programación
  • Tengan habilidades de razonamiento general mejores que casi todos los humanos
  • Puedan completar de forma autónoma muchas tareas de un día de duración en una computadora
  • Y sigan mejorando rápidamente

El siguiente salto podría llevarnos a la resolución de problemas a un nivel superior al humano: la capacidad de responder de forma independiente a preguntas científicas que aún no tienen respuesta.

¿En qué trabajos podrían ayudar estos sistemas?

Muchos cuellos de botella dificultan el despliegue de agentes de IA en el mundo real, incluso aquellos que pueden usar computadoras. Estos incluyen la regulación, la renuencia a dejar que las IA tomen decisiones, la fiabilidad insuficiente, la inercia institucional y la falta de presencia física.⁠as

Inicialmente, los sistemas potentes también serán caros, y su despliegue estará limitado por el poder de cómputo disponible, por lo que se destinarán únicamente a las tareas más valiosas.

Esto significa que la mayor parte de la economía probablemente continuará más o menos como de costumbre durante un tiempo.

Seguiremos consultando a médicos humanos (aunque utilicen herramientas de IA), pidiendo café a camareros humanos y contratando otros tipos de trabajadores humanos.

Sin embargo, hay algunas áreas cruciales en las que, a pesar de estos cuellos de botella, estos sistemas podrían desplegarse rápidamente con consecuencias significativas.

Ingeniería de software

Aquí es donde la IA se emplea más agresivamente hoy en día. Google ha dicho que alrededor del 25 % de su nuevo código está escrito por inteligencia artificial. Las empresas emergentes de Y Combinator dicen que en su caso es el 95 % y que están creciendo varias veces más rápido que antes.

Si programar se vuelve diez veces más barato, usaremos programas para muchas más cosas. Quizás muy pronto, veamos empresas emergentes de software de miles de millones de dólares con un pequeño número de empleados humanos y cientos de agentes de IA. Varias empresas de IA ya se han convertido en las empresas de más rápido crecimiento de todos los tiempos.

La imagen muestra un gráfico que compara las trayectorias de crecimiento de varias empresas tecnológicas de 1 a 100 millones de dólares de ingresos anuales recurrentes a lo largo del tiempo. Cursor (resaltado con una línea negra discontinua) parece tener la curva de crecimiento más pronunciada, superando a empresas como OpenAI, DocuSign, CoreWeave y otras.
Cuando se lanzó OpenAI, fue la empresa emergente de más rápido crecimiento de todos los tiempos en términos de ingresos. Desde entonces, algunas otras empresas de IA se han adueñado de ese récord, siendo Cursor (un agente de programación) la más reciente. Docusign, una típica empresa emergente de software como servicio, exitosa antes de la ola de IA, se muestra en el gráfico a modo de comparación. Fuente.

Esta aplicación limitada de la IA podría producir cientos de miles de millones de dólares de valor económico con bastante rapidez, suficiente para financiar la ampliación continua de la escala de la IA.

La aplicación de la IA a la economía podría expandirse significativamente a partir de ahí. Por ejemplo, Epoch estima que tal vez un tercio de las tareas laborales pueden realizarse de forma remota a través de una computadora, y la automatización de esas tareas podría hacer que la economía creciera más del doble.

Investigación científica

Los creadores de AlphaFold ya ganaron el Premio Nobel por diseñar una IA que resuelve el plegamiento de proteínas.

Un estudio reciente descubrió que una herramienta de IA hizo que los mejores investigadores en ciencia de los materiales fueran un 80 % más rápidos en encontrar nuevos materiales, y espero muchos más resultados como este una vez que los científicos hayan adaptado la IA para resolver problemas específicos, por ejemplo, mediante el entrenamiento con datos genéticos o cosmológicos.

Los modelos futuros podrían ser capaces de tener ideas genuinamente novedosas simplemente con que alguien se las pida. Pero, incluso si ello no es así, una buena parte de la ciencia es vulnerable a la fuerza bruta. En particular, en cualquier dominio que sea principalmente virtual, pero que tenga respuestas verificables —como las matemáticas, la modelización económica, la física teórica o las ciencias de la computación—, la investigación podría acelerarse generando miles de ideas para luego verificar cuáles funcionan.

Incluso un campo experimental como la biología también se ve obstaculizado por cosas como la programación y el análisis de datos, limitaciones que podrían aliviarse de forma sustancial.

Un solo invento, como las armas nucleares, puede cambiar el curso de la historia, por lo que el impacto de cualquier aceleración en este campo podría ser trágico.

Investigación en IA

Un campo especialmente susceptible a la aceleración es la propia investigación en IA. Además de ser completamente virtual, es el campo que los investigadores de IA entienden mejor, tienen enormes incentivos para automatizar y no enfrentan barreras para implementar la IA.

Al inicio, los investigadores podrían utilizar agentes de IA de ‘nivel auxiliar’ que les permitan avanzar en tareas específicas o aumenten su capacidad de ingeniería de software (que es un cuello de botella importante) o incluso que ayuden a generar ideas.

Más adelante, podría ser algo similar a hacer que los modelos lean toda la literatura, generen miles de ideas para mejorar los algoritmos y las prueben automáticamente en experimentos a pequeña escala.

Un modelo de IA ya produjo un artículo de investigación en IA que fue aceptado en un seminario. Aquí hay una lista de otras formas en las que la IA ya se está aplicando a la investigación en IA.

Por ello, es probable que tengamos agentes de IA haciendo investigación en IA antes de que la gente haya resuelto todos los entresijos que permitan a la IA hacer la mayoría de los trabajos a distancia.

Por lo tanto, la aplicación económica generalizada de la IA no es necesariamente una buena forma de medir su progreso, ya que puede producirse de forma explosiva después de que las capacidades de la IA hayan avanzado sustancialmente.

¿Qué argumentos hay en contra de un progreso excepcional de la IA para 2030?

Estos son los argumentos más sólidos en contra de un progreso excepcional de la IA:

En primer lugar, asumamos que es probable que la IA se vuelva sobrehumana en tareas claramente definidas y discretas, lo que significa que veremos un progreso rápido y continuo en los benchmarks.

Pero argumentemos que seguirá teniendo dificultades en tareas mal definidas, de contexto amplio y de horizontes temporales largos.

La razón es que este tipo de tareas no tienen respuestas clara y rápidamente verificables, por lo que no pueden entrenarse con aprendizaje por refuerzo, ni están comprendidas en los datos de entrenamiento.

Eso significa que el ritmo de progreso en este tipo de tareas será lento, e incluso podría llegar a estancarse. Si además argumentamos que su punto de partida es débil, entonces incluso después de 4-6 años más de progreso podría seguir siendo malo.

En segundo lugar, argumentemos que la mayoría de los trabajos relacionados con el conocimiento consisten en gran medida en estas tareas de largo plazo, desordenadas y de amplio contexto.

Por ejemplo, los ingenieros de software dedican gran parte de su tiempo a averiguar qué construir, coordinarse con otros y comprender enormes bases de código en lugar de despachar una lista de tareas bien definidas. Incluso si su productividad en la programación aumenta 10 veces, si la programación es solo el 50 % de su trabajo, su productividad general, a grandes rasgos, únicamente se duplica.

Un ejemplo paradigmático de una tarea desordenada y mal definida es tener ideas novedosas de investigación, por lo que se podría argumentar que esta tarea, que es especialmente importante para desbloquear una aceleración, probablemente sea la más difícil de automatizar (en contra de quienes piensan que la investigación en IA podría ser más fácil de automatizar que muchos otros trabajos).

En este escenario, tendremos asistentes de IA extremadamente inteligentes e informados, y quizás una aceleración en algunos dominios virtuales limitados (como la investigación matemática), pero seguirán siendo herramientas, y los humanos seguirán siendo el principal cuello de botella económico y científico.

Los investigadores humanos en IA verán como aumenta su productividad, pero no lo suficiente como para iniciar un bucle de realimentación positivo: el progreso de la IA seguirá estando limitado por nuevas perspectivas, la coordinación humana y el poder de cómputo.

Estos límites, combinados con los problemas para encontrar un modelo de negocios y las demás barreras para desplegar la IA, significarán que los modelos no generarán suficientes ingresos para justificar que los ciclos de entrenamiento superen los 10 000 millones de dólares. A su vez, eso significará que el progreso se ralentizará enormemente alrededor de 2028.⁠at Una vez que el progreso se ralentice, los márgenes de ganancia de los modelos de vanguardia se derrumbarán, lo que hará aún más difícil pagar más entrenamiento.

El principal contraargumento es el gráfico anterior de METR: está demostrado que los modelos están mejorando su desempeño en horizontes más largos, lo que requiere una comprensión contextual más profunda y el manejo de tareas más abstractas y complejas. Proyectar esta tendencia hacia el futuro sugiere modelos mucho más autónomos dentro de cuatro años.

La agencia en horizontes más largos podría lograrse a través de muchos avances incrementales que he esbozado, au pero también es posible que veamos surgir una innovación más fundamental: el cerebro humano mismo demuestra que tales capacidades son posibles.

Además, lo más probable es que las tareas de horizonte largo puedan descomponerse en tareas más cortas (por ejemplo, elaborar un plan, ejecutar el primer paso, etc.). Si la IA se vuelve lo suficientemente buena en tareas más cortas, entonces las tareas de horizonte largo también podrían empezar a funcionar rápidamente.

Esta es quizás la pregunta central de la pronosticación de la IA: ¿se estancará el horizonte sobre el cual las IA pueden actuar o seguirá mejorando?

Aquí hay algunas otras formas en que el progreso de la IA podría ser más lento o menos impresionante:

  • El trabajo cognitivo podría resultar poco útil, incluso en la ciencia, ya que la innovación surge del aprendizaje práctico en el conjunto de la economía. Se necesita una automatización más amplia (que llevará mucho más tiempo). Leer más.
  • El preentrenamiento podría tener grandes rendimientos decrecientes, por lo que GPT-5 y GPT-6 resultarían decepcionantes (quizás debido a la disminución de la calidad de los datos).
  • La IA seguirá siendo mala en la percepción visual, lo que limitará su capacidad para usar una computadora (véase la paradoja de Moravec). De forma más general, las capacidades de la IA podrían seguir siendo muy puntiagudas: débiles en cuestiones que aún no se comprenden bien, lo que podría limitar su aplicación.
  • Los benchmarks podrían exagerar considerablemente el progreso debido a problemas de contaminación de los datos y a la dificultad de capturar tareas desordenadas.
  • Una crisis económica, los conflictos en Taiwán, algún otro desastre o medidas regulatorias severas podrían retrasar la inversión varios años.
  • Hay otros cuellos de botella imprevistos (véase la falacia de la planificación).

Para profundizar en la visión escéptica, véase Are we on the brink of AGI? de Steve Newman, The promise of reasoning models de Matthew Barnett, ‘A Bear Case’ de Thane Ruthenis y este debate en el pódcast de Epoch AI..

En última instancia, las evidencias nunca serán decisivas en un sentido u otro y las estimaciones dependerán de juicios de valor sobre los que la gente puede discrepar razonablemente. Sin embargo, me resulta difícil examinar las evidencias y no atribuir una probabilidad significativa a la IAG en 2030.

¿Cuándo esperan los ‘expertos’ que llegue la IAG?

He hecho algunas afirmaciones importantes. Como no experto, sería estupendo que hubiera expertos que nos dijeran qué pensar.

Por desgracia, no los hay. Solo hay diferentes grupos, con diferentes debilidades y puntos de vista.

Por desgracia, no los hay. Sólo hay diferentes grupos, con diferentes desventajas.

He revisado las opiniones de estos distintos grupos de expertos en un artículo aparte.

Un punto sorprendente es que todos los grupos han acortado drásticamente sus estimaciones. Hoy en día, incluso muchos “escépticos” de la IA piensan que la IAG se alcanzará en 20 años: la mitad de la carrera profesional de los estudiantes universitarios de hoy en día.

Mi interpretación general es que la IAG para 2030 está dentro del alcance de la opinión de los expertos, por lo que descartarla como “ciencia ficción” no está justificado. De hecho, las personas que más saben sobre la tecnología parecen tener los plazos más cortos.

Por supuesto, muchos expertos piensan que llevará mucho más tiempo, pero si el 30 % de los expertos piensa que un avión explotará y el otro 70 % piensa que non pasará nada, como no expertos no deberíamos concluir que definitivamente no explotará. Si algo es incierto, eso no significa que no vaya a ocurrir.

III. Por qué los próximos 5 años son cruciales

Dado que no sabemos cuándo surgirá la IAG, es natural suponer que podría llegar pronto, en la década de 2030, 2040, etc.

Aunque es una opinión común, no estoy seguro de que sea correcta.

Los principales impulsores del progreso de la IA son más poder de cómputo y mejores algoritmos.

Es más probable que se descubra una IA más poderosa cuando el poder de cómputo y la fuerza laboral que se utilizan para mejorar las IA estén creciendo de forma más contundente.

En este momento, el poder de cómputo total disponible para entrenar y ejecutar la IA está creciendo tres veces por año,⁠av y la fuerza laboral también está creciendo rápidamente.

Esto significa que cada año, el número de modelos de IA que se pueden ejecutar aumenta tres veces. Además, se puede utilizar tres veces más poder de cómputo para entrenarlos con mejores algoritmos, lo que significa que también se vuelven más capaces y numerosos.

Anteriormente, argumenté que estas tendencias pueden continuar hasta 2028. Pero ahora demostraré que es muy probable que se produzcan cuellos de botella poco tiempo después.

Cuellos de botella alrededor de 2030

Primero, el dinero:

  • Google, Microsoft, Meta, etc. están gastando decenas de miles de millones de dólares para construir clústers que podrían entrenar a un modelo del tamaño de GPT-6 en 2028.
  • Ampliar la escala otras 10 veces requeriría cientos de miles de millones de inversión. Esto es más factible, pero supera sus ganancias anuales actuales y sería similar a otro Programa Apollo o Proyecto Manhattan en términos de escala.⁠aw
  • GPT-8 requeriría billones de dólares. La IA tendría que convertirse en una prioridad militar máxima o estar generando billones de dólares en ingresos (y probablemente ya sería IAG).

Incluso si el dinero estuviera disponible, también habría cuellos de botella como:

  • Energía: los niveles actuales de ventas de chips para IA, si se mantienen, significan que dichos chips utilizarán más del 4 % de la electricidad de EE. UU. para 2028,⁠ax pero si se amplía la escala 10 veces más, sería más del 40 %. Esto es posible, pero requeriría que se construyeran muchas centrales eléctricas.
  • Producción de chips: Taiwan Semiconductor Manufacturing Company (TSMC) fabrica todos los chips para IA líderes en el mundo, pero su capacidad más avanzada todavía se utiliza principalmente para teléfonos móviles. Eso significa que TSMC puede quintuplicar sin problema la cantidad de chips para IA que produce actualmente. Sin embargo, producir 50 veces más sería un desafío enorme.⁠ay
  • Las ‘limitaciones de latencia’ también podrían impedir que se realicen entrenamientos tan grandes como GPT-7.⁠az

Así que lo más probable es que la tasa de crecimiento del poder de cómputo se ralentice alrededor de 2028-2032.

El progreso algorítmico también es muy rápido en este momento, pero a medida que se hace cada descubrimiento, el siguiente se vuelve cada vez más difícil. Mantener un ritmo constante de progreso requiere una fuerza laboral de investigación que crezca de manera exponencial.

En 2021, OpenAI tenía unos 300 empleados; hoy, tiene alrededor de 3000. Anthropic y DeepMind también han crecido más del triple, y han surgido nuevas empresas. El número de artículos sobre aprendizaje automático producidos anualmente se ha duplicado aproximadamente cada dos años.⁠3

Es difícil definir la fuerza laboral de aquellas personas que realmente están mejorando las capacidades (frente a las que venden el producto o hacen otro tipo de investigación en aprendizaje automático). Pero si la fuerza laboral necesita duplicarse cada 1-3 años, eso solo puede durar hasta que se agote la reserva de talento.⁠ba

Lo que concluyo es que el crecimiento podrá continuar hasta el final de la década, pero probablemente comenzará a desacelerarse a principios de la década de 2030 (a menos que para entonces la IA se haya vuelto lo suficientemente buena como para sustituir a los investigadores en IA).

El progreso algorítmico también depende del aumento del poder de cómputo, que permite realizar más experimentos. Con suficiente poder de cómputo, los investigadores pueden incluso realizar búsquedas de fuerza bruta para obtener algoritmos óptimos. Por lo tanto, la desaceleración del crecimiento del poder de cómputo ralentizará el progreso algorítmico.

Si el poder de cómputo y la eficiencia algorítmica aumentan solo un 50 % anual en lugar de triplicarse, un salto equivalente al salto de GPT-3 a GPT-4 llevaría más de 14 años en lugar de 2,5. Ello también reduciría la probabilidad de descubrir un nuevo paradigma de IA.

Así que tenemos una carrera:

  • ¿Pueden los modelos de IA mejorar lo suficiente como para generar los ingresos necesarios para pagar su próxima ronda de entrenamiento antes de que se vuelva imposible pagarla?
  • ¿Pueden los modelos empezar a contribuir a la investigación algorítmica antes de que nos quedemos sin investigadores humanos para resolver el problema?

El momento de la verdad llegará alrededor de 2028–2032.

O bien el progreso se ralentiza, o bien la propia IA supera estos cuellos de botella, lo que permitiría que el progreso continúe o incluso se acelere.

Dos futuros posibles para la IA

Si la IA capaz de contribuir a la investigación en IA no se logra antes de 2028–2032, la probabilidad anual de su descubrimiento disminuye sustancialmente.

El progreso no se detendrá de repente, sino que se ralentizará de forma más gradual. A continuación se muestran algunas estimaciones ilustrativas de la probabilidad de alcanzar la IAG:

La imagen muestra un gráfico de la probabilidad de desarrollar IAG (en porcentaje) en el periodo comprendido entre 2025 y 2040. La curva alcanza su punto máximo alrededor de 2027, en torno al 7 %, y luego disminuye gradualmente a menos del 1 % en 2036.
Fuente: Estimación ilustrativa. Los números son aproximados.

A grandes rasgos, podemos esperar dos escenarios:⁠bb

  1. O bien alcanzamos una IA que puede tener efectos transformadores hacia 2030: El progreso de la IA continúa, o incluso se acelera, y probablemente entremos en un periodo de cambio explosivo.
  2. O el progreso se ralentizará: Los modelos de IA mejorarán mucho en tareas claramente definidas, pero no podrán realizar trabajos mal definidos y a largo plazo, necesarios para desbloquear un nuevo ritmo de crecimiento. Veremos mucha automatización de la IA, pero por lo demás el mundo se parecerá más a lo entendemos como “normal”.

Sabremos en qué escenario estamos en los próximos años.

Suelo pensar en estos escenarios como una probabilidad de 50:50, aunque puede variar entre el 30 % y el 80 % dependiendo del día.

También son posibles escenarios híbridos: la escala podría ralentizarse más gradualmente, o retrasarse varios años por un conflicto en Taiwán, empujando a la IAG hacia los primeros años de la década de 2030. Pero es útil empezar con un modelo sencillo.

Los números también dependen de la definición de IAG que estés usando y de lo se entienda por “transformativo”. Yo prefiero centrarme en hacer pronósticos sobre la IA que puede contribuir de manera significativa a la investigación en IA.⁠bc En cuanto a la IAG en el sentido de un modelo que pueda hacer casi todas las tareas del trabajo a distancia a un menor costo que un humano, puede tranquilamente tardar más debido a una larga fila de cuellos de botella. Por otro lado, parece que la IAG en el sentido de ‘mejor que casi todos los humanos en razonamiento cuando se le da una hora’ ya está aquí.

Conclusión

Entonces, ¿qué pasa con la afirmación inicial de que tendremos IAG para 2030?

Sea cual sea la definición exacta, existe evidencia significativa que respalda esta posibilidad: tal vez solo tengamos que mantener las tendencias actuales unos años más.

Nunca tendremos evidencia decisiva en ninguno de los dos sentidos, pero me parece un exceso de confianza pensar que la probabilidad antes de 2030 es inferior al 10 %.

Dadas las enormes implicaciones y los graves riesgos, hay suficiente evidencia para tomarnos esta posibilidad muy en serio.

La situación actual se asemeja a la de febrero de 2020, justo antes del confinamiento por la pandemia de COVID-19: una clara tendencia sugería un cambio inminente y masivo, pero la mayoría de la gente seguía con su vida normal.

En un próximo artículo, argumentaré que la IAG que automatiza gran parte del trabajo a distancia y duplica la economía podría ser un resultado conservador.

Si la IA puede hacer investigación en IA, la brecha entre la IAG y la ‘superinteligencia’ podría ser corta.

Esto podría desencadenar una expansión masiva de la fuerza de trabajo en investigación, lo que podría suponer un siglo de progreso científico en menos de una década. La robótica, la bioingeniería y los asentamientos espaciales podrían llegar mucho antes de lo que se prevé habitualmente.

Los próximos cinco años marcarán el inicio de uno de los períodos más cruciales de la historia.

Más información

  • El mejor argumento a favor de un rápido progreso de la IA a corto plazo es el capítulo 1 de Situational Awareness de Leopold Aschenbrenner.

  • ¡El aprendizaje por refuerzo funciona!, un pódcast de Nathan Labenz donde explica los modelos de razonamiento.

  • Tomas Pueyo tiene una introducción más accesible que cubre material similar al de este artículo: The most important time in history is now.

  • Epoch AI tiene una revisión bibliográfica de las distintas formas de pronosticar la IA. Todas ellas coinciden en que la IAG llegará antes de 2030, aunque algunas dan probabilidades más bajas. (Varias de las estimaciones también se han acortado después de la publicación). Más recientemente, han lanzado un excelente pódcast en que debaten sobre los plazos de la IAG.

  • Epoch AI también tiene muchos conjuntos de datos excelentes que sustentan esta publicación. Consulta su página de tendencias clave para obtener un resumen. Consulta también su artículo Can AI scaling continue through 2030?.

  • Un enfoque de la pronosticación de la IA que fue popular hace algunos años consiste en estimar el poder de cómputo utilizado para entrenar el cerebro humano y luego estimar el momento en que los principales modelos de IA podrían superar ese punto (en resumen: podríamos estar ahí ahora mismo). Consulta Forecasting transformative AI de Holden Karnofsky para una introducción.

  • When do experts expect AGI to arrive? Consulta también Through a glass darkly de Scott Alexander, que es una exploración de lo que se puede aprender de los pronósticos de expertos sobre la IA.

  • Estos son algunos de los mejores artículos que he visto que argumentan en contra del progreso de la IA transformadora en los próximos años: Are we on the brink of AGI? de Steve Newman, The promise of reasoning models de Matthew Barnett y ‘A Bear Case’ de Thane Ruthenis.