Neel Nanda es director del equipo de interpretabilidad mecanicista en Google DeepMind, cuyo trabajo se centra en la ingeniería inversa de los algoritmos y de las estructuras aprendidas por las redes neuronales durante las fases de entrenamiento, con el objetivo principal de reducir el riesgo existencial asociado a la inteligencia artificial. Anteriormente, investigó sobre seguridad de la inteligencia artificial en el Future of Humanity Institute, DeepMind y el Centre for Human-Compatible AI; posteriormente, trabajó como investigador de interpretabilidad de modelos de lenguaje en Anthropic y como también investigador independiente. Nanda es licenciado en matemáticas puras por la Universidad de Cambridge.
Neel Nanda. Sito web personal.