Niveles de seguridad de la IA
Niveles de seguridad de la IA (en inglés, AI Safety Levels, frecuentemente por las siglas ASL) es la denominación de un sistema de clasificación de seguridad implementado por Anthropic para evaluar y mitigar riesgos potencialmente catastróficos en sus modelos de IA. Este sistema, inspirado en los estándares de bioseguridad del gobierno estadounidense, establece protocolos cada vez más estrictos según aumentan las capacidades de los modelos.
ASL-1: Sistemas que no presentan riesgos catastróficos significativos, como los modelos de lenguaje a gran escala de 2018 o los sistemas de IA específicos (como los que solo juegan al ajedrez).
ASL-2: Sistemas que muestran indicios tempranos de capacidades potencialmente peligrosas, como dar instrucciones sobre armas biológicas, pero con información poco fiable o no mucho más útil que la disponible en otros motores de búsqueda. Los modelos de lenguaje actuales, como Claude, están en este nivel.
ASL-3: Sistemas que aumentan sustancialmente el riesgo catastrófico por uso indebido en comparación con herramientas que no dependen de la IA o que muestran capacidades autónomas de bajo nivel.
ASL-4/5+: Niveles aún no definidos completamente, destinados a sistemas futuros que aumentarían sustancialmente el potencial de uso indebido y la autonomía.
Cada nivel requiere medidas de seguridad cada vez más estrictas, desde los estándares actuales en ASL-2 hasta requisitos que podrían incluir avances científicos aún no resueltos para los niveles superiores. Este sistema busca equilibrar la mitigación de riesgos catastróficos con el desarrollo de aplicaciones beneficiosas, permitiendo la utilización de modelos del nivel anterior para desarrollar características de seguridad para el siguiente nivel.
Anthropic (2023) Anthropic’s responsible scaling policy, Anthropic, 19 de septiembre.
alineación de la inteligencia artificial • riesgo asociado a la inteligencia artificial • seguridad de la inteligencia artificial