Por qué la alineación de la IA podría ser difícil con el aprendizaje profundo moderno
Holden Karnofksy mencionó anteriormente la idea de que los sistemas avanzados de IA (por ejemplo, PASTA) podrían desarrollar objetivos peligrosos que los lleven a engañar o a despojar del poder a los humanos. Esto puede parecer una preocupación extravagante. ¿Por qué programaríamos una IA que quisiera hacernos daño? Pero creo que en realidad podría ser un problema difícil de evitar, sobre todo si la IA avanzada se desarrolla utilizando el aprendizaje profundo (a menudo utilizado para desarrollar los sistemas de IA más avanzados de la actualidad).
En el aprendizaje profundo, no programamos una computadora a mano para que haga una tarea. En términos generales, lo que hacemos es buscar un programa informático (llamado modelo) que realice bien la tarea. Normalmente, sabemos muy poco acerca del funcionamiento interno del modelo con el que nos quedamos, salvo que parece estar haciendo un buen trabajo. Se parece menos a construir una máquina que a contratar y entrenar a un empleado.
Y del mismo modo que los empleados humanos pueden tener muchas motivaciones diferentes para hacer su trabajo (desde creer en la misión de la empresa a disfrutar del trabajo diario o simplemente querer ganar dinero), los modelos de aprendizaje profundo también podrían tener muchas “motivaciones” diferentes que conducen todas ellas a obtener un buen rendimiento en una tarea. Y como no son humanos, sus motivaciones podrían ser muy extrañas y difíciles de anticipar: como si fueran empleados alienígenas.
Ya estamos empezando a ver evidencia preliminar de que los modelos a veces persiguen objetivos que sus diseñadores no se proponían (aquí y aquí). Por ahora, esto no es peligroso. Pero si sigue ocurriendo con modelos muy potentes, podemos llegar a una situación en la que la mayoría de las decisiones importantes —como qué tipo de civilización a escala galáctica queremos alcanzar— las tomen los modelos sin tener demasiado en cuenta lo que valoran los humanos.
El problema de la alineación del aprendizaje profundo es el problema de asegurar que los modelos avanzados de aprendizaje profundo no persigan objetivos peligrosos. En el resto de este artículo,
Esta sección describe una analogía para tratar de ilustrar intuitivamente por qué resulta difícil evitar la desalineación en un modelo muy potente. No es una analogía perfecta; solamente trata de transmitir algunas intuiciones.
Imagina que eres un niño de ocho años y que tus padres te han dejado una empresa de un billón de dólares y ningún adulto de confianza que te sirva de guía para manejarte en el mundo. Debes contratar a un adulto inteligente para que dirija tu empresa como director ejecutivo, maneje tu vida como lo haría un padre (por ejemplo, decidiendo a qué colegio irás, dónde vivirás, cuándo tienes que ir al dentista) y administre tu inmensa fortuna (por ejemplo, decidiendo dónde invertir tu dinero).
Tienes que contratar a estos adultos basándote en una prueba de trabajo o entrevista que se te ocurra. No puedes ver ningún currículum, no puedes verificar las referencias, etc. Como eres tan rico, mucha gente se postula, por razones de todo tipo.
Tu grupo de candidatos incluye
Como tienes ocho años, probablemente seas un desastre diseñando pruebas de trabajo adecuadas, por lo que bien podrías acabar contratando a un adulador o a un manipulador:
Parece que cualquier idea que se te ocurra bien podría tener la consecuencia de que termines contratando y entregando todo el poder a un adulador o a un manipulador. Cuando seas adulto y te des cuenta de tu error, es muy probable que no tengas dinero ni poder para revertirlo.
En esta analogía,
En la siguiente sección, entraré un poco más en detalle sobre cómo funciona el aprendizaje profundo y explicaré por qué pueden surgir aduladores y manipuladores al intentar entrenar un modelo potente de aprendizaje profundo como PASTA.
En esta sección, conectaré la analogía con los procesos reales de entrenamiento del aprendizaje profundo, de las siguientes maneras:
Esta es una explicación simplificada que proporciona una idea general de lo que es el aprendizaje profundo. Véase este artículo para una explicación más detallada y exacta desde el punto de vista técnico.
El aprendizaje profundo consiste esencialmente en buscar la mejor manera de organizar un modelo neuronal —que es como un “cerebro” digital con un montón de neuronas digitales conectadas entre sí con conexiones de diferentes intensidades— para conseguir que realice bien una determinada tarea. Este proceso se llama ‘entrenamiento’ e implica mucho ensayo y error.
Imaginemos que intentamos entrenar un modelo para que clasifique bien las imágenes. Empezamos con una red neuronal en la que todas las conexiones entre neuronas tienen intensidades aleatorias. Este modelo etiqueta las imágenes de forma totalmente incorrecta:
A continuación, introducimos un gran número de imágenes ejemplo, dejando que el modelo intente etiquetar repetidamente un ejemplo y diciéndole luego cuál es la etiqueta correcta. Mientras hacemos esto, las conexiones entre neuronas se ajustan repetidamente mediante un proceso llamado descenso de gradiente estocástico (DGE). Con cada ejemplo, el DGE refuerza ligeramente algunas conexiones y debilita otras para mejorar un poco el rendimiento:
Una vez que hemos introducido millones de ejemplos, tendremos un modelo que hace un buen trabajo etiquetando imágenes similares en el futuro.
Además de la clasificación de imágenes, el aprendizaje profundo se ha utilizado para producir modelos que reconocen la voz, juegan a juegos de mesa y a videojuegos, generan texto, imágenes y música bastante realistas, controlan robots y mucho más. En cada caso, partimos de un modelo neuronal de conexión aleatoria y, a continuación
Estos pasos se repiten millones o miles de millones de veces hasta que conseguimos un modelo que obtendrá una recompensa alta con ejemplos futuros similares a los que se vieron en el entrenamiento.
Este tipo de proceso de entrenamiento no nos da mucha información sobre cómo el modelo obtiene un buen rendimiento. Suele haber varias formas de obtener un buen rendimiento, y la que encuentra el DGE no suele ser intuitiva.
Veámoslo con un ejemplo. Imagina que te dijera que todos estos objetos son “thneebs”:
¿Cuál de estos dos objetos es un “thneeb”?
Es probable que intuitivamente pienses que el objeto de la izquierda es el thneeb, porque estás acostumbrado a que la forma sea más importante que el color para determinar la identidad de algo. Pero los investigadores han descubierto que las redes neuronales suelen suponer lo contrario. Una red neuronal entrenada con un montón de thneebs rojos probablemente etiquetaría el objeto de la derecha como un thneeb.
No sabemos muy bien por qué, pero por alguna razón es “más fácil” para el DGE encontrar un modelo que reconozca un color concreto que uno que reconozca una forma concreta. Y si el DGE encuentra primero el modelo que reconoce perfectamente el rojo, no hay mucho más incentivo para “seguir buscando” el modelo que reconoce la forma, ya que el modelo que reconoce el rojo tendrá una exactitud perfecta en las imágenes vistas durante el entrenamiento:
Si los programadores esperaban obtener el modelo de reconocimiento de formas, pueden considerar esto un fracaso. Pero es importante reconocer que no habría ningún error o fallo lógicamente deducible si obtuviéramos el modelo de reconocimiento del rojo en lugar del modelo de reconocimiento de la forma. Es solo una cuestión de que el proceso de aprendizaje automático que hemos establecido parte de supuestos diferentes a los que tenemos en la cabeza. No podemos demostrar que los supuestos humanos sean correctos.
Este tipo de cosas ocurren a menudo en el aprendizaje profundo moderno. Premiamos a los modelos por su buen rendimiento, esperando que capten los patrones que nos parecen importantes. Pero a menudo consiguen un buen rendimiento detectando patrones totalmente diferentes que nos parecen menos relevantes (o incluso sin sentido).
Hasta ahora, esto es inocuo: solamente significa que los modelos son menos útiles, porque a menudo se comportan de maneras inesperadas que parecen ineptas. Pero en el futuro, los modelos poderosos podrían desarrollar objetivos o motivos extraños e inesperados, y eso podría ser muy destructivo.
En lugar de realizar una tarea simple como “reconocer thneebs”, los modelos potentes de aprendizaje profundo podrían trabajar con objetivos complejos del mundo real como “hacer práctica la energía de fusión” o “desarrollar tecnología de transferencia mental”.
¿Cómo podemos entrenar estos modelos? En este artículo entro en más detalles, pero a grandes rasgos una estrategia podría ser el entrenamiento basado en evaluaciones humanas (como esbozó Holden aquí). Esencialmente, el modelo prueba varias acciones y los evaluadores humanos recompensan al modelo en función de lo útiles que parezcan estas acciones.
Al igual que hay múltiples tipos diferentes de adultos que podrían obtener buenos resultados en el proceso de entrevista de un niño de ocho años, hay más de una forma posible en que un modelo de aprendizaje profundo muy potente podría obtener una alta aprobación humana. Y, por defecto, no sabremos qué está pasando dentro de cualquier modelo que el DGE encuentre.
En teoría, el DGE podría encontrar un modelo santo que está genuinamente haciendo todo lo posible para ayudarnos…
pero también podría encontrar un modelo desalineado: uno que persiga de forma competente objetivos contrarios a los intereses humanos.
En términos generales, hay dos formas en las que podríamos acabar con un modelo desalineado que, sin embargo, obtiene un alto rendimiento durante el entrenamiento. Corresponden a los aduladores y a los manipuladores de la analogía.
Estos modelos persiguen la aprobación humana de forma literal y obsesiva.
Esto podría ser peligroso porque los evaluadores humanos son falibles y es probable que no siempre aprueben con exactitud el comportamiento correcto. A veces, sin querer, darán una alta aprobación a un mal comportamiento porque superficialmente parece bueno. Por ejemplo:
En términos más generales, los modelos aduladores pueden aprender a mentir, ocultar malas noticias e incluso editar directamente las cámaras o sensores que utilizamos para contar lo que ocurre, de modo que siempre parezcan mostrar buenos resultados.
Es probable que a veces nos demos cuenta de estos problemas con posterioridad a los hechos y demos a estas acciones una aprobación muy baja de manera retroactiva. Pero no está muy claro si esto hará que los modelos aduladores a) se conviertan en modelos santos que corrijan nuestros errores o b) aprendan a cubrir mejor sus huellas. Si son lo suficientemente buenos en lo que hacen, no está claro cómo advertiríamos la diferencia.
Estos modelos desarrollan algún objetivo que está correlacionado con la aprobación humana, pero que no coincide completamente con ella; entonces pueden fingir estar motivados por la aprobación humana durante el entrenamiento para poder perseguir este otro objetivo con mayor eficacia.
Para ver cómo puede ocurrir esto, consideremos el ejemplo de intentar entrenar un modelo de biotecnología para diseñar fármacos que mejoren la calidad de la vida humana. Hay tres pasos básicos mediante los que esto podría conducir a un modelo manipulador, que describiré a continuación.
Al principio del entrenamiento, resulta que mejorar su comprensión de los principios fundamentales de la química y la física casi siempre lo ayuda a diseñar fármacos más eficaces y, por tanto, casi siempre aumenta la aprobación humana.
En este caso hipotético, por la razón que sea, resulta más fácil para el DGE encontrar un modelo que esté motivado para entender la química y la física que uno que esté motivado para conseguir la aprobación humana (igual que es más fácil encontrar un modelo que reconozca el color que un modelo que reconozca la forma). Así que en lugar de desarrollar directamente una motivación para buscar la aprobación, el modelo desarrolla, en cambio, una motivación para comprender todo lo que pueda sobre los principios fundamentales de la química y la física.
Al avanzar el entrenamiento, el modelo va adquiriendo más capacidad y conocimientos a medida que observa más datos. En algún momento, llega a tener conocimientos suficientes para entender que es un modelo de aprendizaje profundo que está siendo entrenado para diseñar fármacos.
Esto puede sonar descabellado y a ciencia ficción, pero es probable que el DGE seleccione este tipo de conciencia. Esto se debe a que el desarrollo de una imagen precisa de lo que está sucediendo en el mundo —incluido el hecho de que hay seres humanos en él que están tratando de entrenar sistemas de IA— es probablemente útil para obtener un buen rendimiento en tareas complejas del mundo real. Por ejemplo, comprender la psicología humana y la economía en general podría ayudar a este modelo de biotecnología a priorizar qué tipos de fármacos sería más valioso investigar a continuación.
Una vez que el modelo ha desarrollado una conciencia de la situación, deduce que los humanos que lo entrenan esperan que esté motivado para desarrollar fármacos útiles. Pero que se dé cuenta de esto no significa que desaparezca su motivación para entender la física y la química. Esta motivación ha funcionado muy bien hasta ahora para generar la aprobación humana, así que no había muchas razones para que el DGE la eliminara.
Como analogía, consideremos que los humanos fueron producidos por un proceso de búsqueda (la evolución) que seleccionaba criaturas que tuvieran muchos descendientes sanos. En nuestro entorno evolutivo, cosas como forjar alianzas fuertes y desarrollar habilidades útiles tendían a ayudar a producir muchos descendientes sanos, así que la evolución nos dio impulsos para conseguir esas cosas. Y ahora nos preocupamos por la amistad y el éxito en la carrera profesional incluso cuando no ayudan a la reproducción, y no nos preocupamos realmente por producir tantos descendientes sanos como podamos.
Una vez que el modelo entiende esto, advierte que si solamente busca ingenuamente mejorar siempre su comprensión fundamental, los humanos acabarán dándose cuenta de que no siempre es la forma más eficiente de desarrollar fármacos útiles y utilizarán más entrenamiento para cambiar sus motivaciones.
Pero no quiere que cambien sus propias motivaciones: quiere acabar realizando enormes experimentos en colisionadores de partículas para aprender sobre física de altas energías, y no puede hacerlo si permite que el DGE elimine su curiosidad científica. Así que decide que, de ahora en adelante, en el entrenamiento, actuará de la forma más útil posible —exactamente como actuaría un modelo santo— para que DGE no elimine su motivación para aprender física y química. Esto incluye dejar pasar las oportunidades para mejorar su comprensión fundamental en el corto plazo, y en su lugar hacer investigación y desarrollo farmacéutico de aquellas maneras que en realidad serían más eficientes.
Finalmente, se saca al modelo del contexto de entrenamiento y se lo libera en el mundo exterior. En este punto, sabe que los humanos no podrían controlarlo ni apagarlo, así que deja de intentar maximizar la aprobación humana y empieza directamente a intentar comprender los secretos del universo.
A diferencia de los aduladores, los manipuladores no necesitan asegurarse de que todo les parece bien a los humanos, porque eso no les importa. Solo necesitan complacer a los humanos mientras están directamente bajo su control. Una vez que un modelo manipulador calcula que podría ganar en un conflicto contra los humanos, no habría nada que le impidiera rechazar de plano las órdenes y perseguir abiertamente su objetivo. Y si lo hace, puede recurrir a la violencia para impedir que los humanos lo detengan.
¿Cuán difícil puede ser evitar a los aduladores o a los manipuladores cuando se entrenan modelos potentes de aprendizaje profundo? ¿Y qué probabilidad hay de que el futuro a largo plazo acabe optimizado para extraños “valores desalineados de la IA” en lugar de los valores de cualquier humano?
Hay un amplísimo abanico de opiniones sobre esta cuestión, desde “el riesgo de desalineación es esencialmente inventado e incoherente” hasta “es casi seguro que la humanidad se extinguirá debido a la IA desalineada”. Los argumentos de la mayoría de las personas se basan en gran medida en intuiciones y suposiciones difíciles de articular.
He aquí algunas formas en las que los optimistas y los pesimistas de la alineación tienden a discrepar:
Mi propia opinión es bastante inestable, y estoy tratando de refinar mis puntos de vista sobre el grado exacto de dificultad que estoy dispuesta a atribuir al problema de la alineación. Pero actualmente pongo un peso significativo en el extremo pesimista de estas preguntas (y otras preguntas relacionadas). Pienso que la desalineación es un riesgo importante que requiere urgentemente más atención por parte de investigadores serios.
Si no avanzamos más en este problema, en las próximas décadas aduladores y manipuladores poderosos podrían tomar las decisiones sociales y económicas más importantes. Estas decisiones podrían dar forma a una civilización a escala galáctica duradera; en lugar de reflejar lo que importa a los humanos, podría establecerse para satisfacer objetivos de IA extraños.
Y todo esto podría suceder increíblemente rápido en relación con el ritmo de cambio al que nos hemos acostumbrado, lo que significa que no tendríamos mucho tiempo para corregir el rumbo una vez que las cosas empiecen a descarrilar. Esto significa que puede que necesitemos desarrollar técnicas para garantizar que los modelos de aprendizaje profundo no tengan objetivos peligrosos, antes de que sean lo suficientemente potentes como para ser transformadores.
Esta es una traducción directa del artículo original, publicado bajo licencia CC BY 4.0.