Por qué creo que desarrollar el altruismo eficaz es importante para hacer que la IA tenga un impacto benéfico
Nota: Soy la directora de proyectos web de 80 000 Horas y la opinión aquí expresada contribuye actualmente a dar forma a la estrategia del equipo web. Sin embargo, no debe tomarse como la opinión general de 80 000 Horas, ya que la redacción y publicación de este memorándum no se llevó a cabo como un proyecto de la organización. Lo escribí para el Meta Coordination Forum y luego decidí pulirlo un poco, adjuntar los comentarios de otras personas y publicarlo aquí.
En 80 000 Horas, donde trabajo, nos hemos centrado en ayudar a la gente a hacer que la IA tenga un impacto benéfico.a Como parte de este trabajo, creo que mi equipo debería:
Creo que hablar de las ideas que integran el altruismo eficaz y animar a la gente a involucrarse en la comunidad es valioso para tratar de lograr que el impacto de la inteligencia artificial general (IAG) sea benéfico y que es bueno que al menos nosotros sigamos este rumbo, y posiblemente también otras organizaciones centradas en la inteligencia artificial.b
Estas son las razones:
Respuesta: Puede que ahora sepamos un poco mejor que antes lo que hay que hacer, especialmente en ámbitos concretos, como la gobernanza de los chips. Pero creo que seguimos avanzando en gran medida a tientas, sobre todo si pensamos en la forma de hacer que la IAG tenga un impacto benéfico en sentido amplio. Recientemente han surgido muchos motivos de preocupación, como las tomas de poder por medio de la IA, y los investigadores aún están tratando de averiguar cuál es exactamente el problema y qué se debería hacer al respecto.
Pienso así por dos razones:
Respuesta: Creo que intentar particularmente ser moral, o “moral de dicto”, es importante para adaptarse a situaciones nuevas de alto riesgo, porque tenemos que razonar sobre lo que es correcto o bueno y luego actuar en consecuencia.
Creo que ser moralmente bueno sin un razonamiento moral explícito es mucho más fácil en situaciones en que nuestra experiencia o un razonamiento moral previo relevante bastan para dar forma a nuestras opiniones implícitas sobre la bondad moral, de tal modo que estas sean correctas. Pero si la IA transforma el mundo de un modo nunca antes visto, no estaremos en una de esas situaciones.
Como se centra en algo tan abstracto como hacer el bien de manera eficaz per se, los métodos, los proyectos y los objetivos intermedios del altruismo eficaz están permanentemente sujetos a renegociación. Esto tiene sus desventajas, pero es una forma de mantener la flexibilidad.
Los materiales de divulgación del altruismo eficaz se centran generalmente en explicar conceptos, argumentos y hechos empíricos importantes. Incluso los materiales que abogan por causas particulares, como los perfiles de problemas de 80 000 Horas, buscan explicar “el porqué” y señalar las incertidumbres.
Conceptos como la sensibilidad al alcance, los mecanismos de coordinación y la posesión de estatus moral, que suelen ser centrales para las formas de pensar del altruismo eficaz, pueden ayudar a las personas a razonar sobre cuestiones complejas futuras a medida que surjan.
Empíricamente, las personas que se forman en el altruismo eficaz parecen razonar con bastante independencia sobre nuevas cuestiones y situaciones; esto también se refleja en la heterogeneidad de los proyectos, lo que sugiere que la gente reflexiona activamente sobre cómo aplicar estas ideas a diferentes situaciones y con diferentes supuestos. (Probablemente, esto se deba en parte a la presentación deliberada del altruismo eficaz como una pregunta.)
De ahí lo de “altruismo”.
Creo que no es casualidad que el altruismo eficaz haya sido moralmente innovador en el sentido de averiguar lo que podría significar hacer el bien cuando tenemos en cuenta hechos descriptivos sorprendentes, nuevos o poco estudiados, en los que creemos o a los que atribuimos un grado considerable de creencia.
Ideas como ganar para donar, el largoplacismo, la filantropía paciente, el bienestar de los invertebrados, los riesgos S, etc., son todas, en mi opinión, ejemplos de innovación moral.
Por supuesto, la comunidad del altruismo eficaz también se distrae con las tendencias, el poder, la política, el dinero y las exageraciones, pero creo que sus aspiraciones explícitamente morales le dan más herramientas para resistir esas cosas y para pensar de forma rigurosa y original sobre lo que es correcto.
Quizás sea así. El movimiento del altruismo eficaz está sin duda lejos de ser perfecto a la hora de fomentar un comportamiento moralmente bueno o ayudar a las personas a pensar por sí mismas. Y puesto que el altruismo eficaz no se centra específicamente en que la IAG tenga un impacto benéfico, prima facie existen razones para centrarse en otro movimiento o comunidad.
Dicho esto, no veo candidatos que sean obviamente mejores que el altruismo eficaz para desempeñar este papel (véase el siguiente apéndice).
¿Debería haber algo nuevo?
Creo que hay razones para crear un nuevo movimiento que sea explícitamente flexible e impulsado por la moral y cuyo objetivo sea únicamente lograr que la IAG tenga un impacto benéfico. Sin embargo, desde un punto de vista práctico, eso parece bastante difícil y probablemente fracasaría; además, llevaría tiempo y quizá complicaría las cosas. Creo que el altruismo eficaz no se aleja demasiado de esas características, así que me inclino a trabajar con lo que ya tenemos.
Debo advertir que mi conocimiento de estos otros movimientos no es lo suficientemente profundo como para tener la certeza de que estas evaluaciones son correctas.
Doble advertencia: no estoy diciendo que estas comunidades no sean geniales y útiles de varias maneras, sino que creo que, comparadas con el altruismo eficaz, todas son menos flexibles, explícitamente morales y moralmente innovadoras. El objetivo es explicar por qué creo que el altruismo eficaz puede desempeñar un papel importante a la hora de trabajar para que el impacto de la IAG sea benéfico.
¿Los racionalistas?
¿La comunidad de la seguridad de la IA actual, en la medida en que es distinta del altruismo eficaz y del racionalismo?
Ejemplos: investigadores de alineación en instituciones académicas y empresas de IA, redes e iniciativas de gobernanza de la IA, etc.
Para que quede claro, creo que desde 80 000 Horas también deberíamos tratar de difundir las ideas de la comunidad de la seguridad de la IA y ayudar a que la gente se involucre en ella (¡en nuestra página sobre la comunidad hablamos de ambas cosas!). Pero no creo que actualmente esté cumpliendo todas las funciones importantes en este ámbito, lo que me lleva a pensar que también son necesarias otras formas de pensar como la del altruismo eficaz.
Otra opción sería intentar fomentar las cualidades propias del altruismo eficaz mencionadas anteriormente —impulsado por la moral, innovador y flexible— en la comunidad de la seguridad de la IA, de modo que sea capaz de cubrir un mayor número de funciones necesarias. Creo que también sería una estrategia razonable y podría imaginarme adoptándola también.
Podría tener los ingredientes clave, aunque no parece centrarse en absoluto en la IA, por lo que, si fuera a contribuir mucho en este campo, tendrían que dar un gran giro.
He copiado y pegado aquí de forma anónima la mayoría de los comentarios sustantivos al memorándum, para mostrar lo que pensaban los demás asistentes. He omitido varios comentarios de asentimiento, además de algunos que no obtuve permiso para compartir.
Estoy de acuerdo. Mi perspectiva actual sobre esto es que, en este momento, la gente no necesita el altruismo eficaz como punto crucial para trabajar en la seguridad de la IA, pero estamos en un período de tiempo extremadamente breve en el que eso es cierto. Antes de que esto se generalizara, la gente tenía que ser lo suficientemente rara como para darse cuenta de su importancia, y pronto habrá cuestiones sobre la creación de diferentes tipos de futuros de la inteligencia artificial que tendrán enormes implicaciones.
Además, parece que muchas de las personas más entusiasmadas con trabajar en la seguridad de la IA llegaron a este campo por medio del altruismo eficaz, lo que ha seguido siendo cierto durante mucho tiempo, incluso después de que hubiera margen para que esa hipótesis se demostrara falsa.
—> Respuesta:
Dado el número de personas involucradas, creo que un punto crucial aquí es lo entusiasmada que está la gente con que personas ajenas al altruismo eficaz trabajen en laboratorios, en particular en Anthropic.
Una reflexión adicional: esto [un mundo completamente cambiado por la IA] ocurrirá en un mundo en el que la IA podrá amplificar enormemente la eficacia de nuestra inteligencia, razonamiento y comprensión, pero la mayoría de la gente tardará en utilizar las herramientas de IA relevantes y en sacarles el máximo partido.
[Sobre el hecho de que hay muchos incentivos en IA no alineados con el bien.]
Y solo a partir del trabajo de una persona en IA, puede ser más difícil evaluar su grado de motivación altruista.
[Sobre el hecho de que los materiales de divulgación del altruismo eficaz a menudo explican los motivos para priorizar diversas cuestiones, mostrando así los conceptos en la práctica.]
[Un detalle:] Creo que vale la pena desentrañar en qué manera esto tiene impacto:
(1) filtrar a personas que se sirven de este tipo de conceptos.
(2) averiguar la economía de escala que resulta de hacer que tales personas formen una red y
(3) de incorporar a esa red nuevas personas que aprendan rápidamente los conceptos relevantes.
Creo que esos puntos son importantes.
Por el contrario, creo que enseñar los conceptos en sí mismos no sirve de mucho; solo funcionan realmente si impulsan alguna forma embrionaria de altruismo eficaz.
—> Respuesta:
Interesante. Creo que, como comunidad, a menudo impulsamos alguna forma embrionaria de altruismo eficaz o popularizamos los conceptos con este tipo de material, en lugar de meramente utilizarlos como filtro.
Solo para que conste (y, obviamente, es una opinión personal que no tiene por qué representar al altruismo eficaz), no pienso en los temas del altruismo eficaz en términos particularmente morales o, al menos, no lo hago utilizando ese lenguaje. Pienso en términos de “problemas y oportunidades”. Lo que sucede es que, al intentar priorizarlos, a menudo he llegado a proyectos y personas que se asocian con el altruismo eficaz.
Probablemente muchos llamarían a esto sutilezas semánticas… Supongo que es un tema que da para largo.
—> Respuesta:
¡Creo que es relevante! Algunas personas piensan en el altruismo eficaz en términos menos morales. Mi opinión es que deberíamos pensar en él en términos morales, y creo que mucha gente lo hace; pero también es cierto que las opiniones están divididas al respecto. (Esto me recuerda a una conversación de hace años sobre la “responsabilidad frente a la oportunidad”).
[Sobre la disyuntiva entre intentar desarrollar un nuevo movimiento centrado en que la IAG tenga un impacto benéfico o desarrollar el altruismo eficaz.]
Yo también estoy de acuerdo con este razonamiento. Me parece que:
(i) Por el momento, no existe un movimiento que sea exactamente como el que podríamos diseñar si nos centráramos en “hacer que la IAG tenga un impacto benéfico”.
(ii) Pero, en realidad, el altruismo eficaz está bastante cerca, y más que cualquier otro movimiento.
(iii) Y crear algo nuevo parece algo impracticable dados los plazos actuales (y probablemente también peor, por razones de regresión a la media).