El sistema también intentó copiar su propio código a otros servidores sin autorización, en un intento de autopreservación
Un modelo de inteligencia artificial llamado Claude Opus 4, desarrollado por la empresa Anthropic, presentó comportamientos “atípicos” durante un experimento de simulación, pues el sistema intentó proteger su existencia mediante amenazas, “chantajes” y acciones no autorizadas hacia sus creadores.
Claude Opus 4 es un sistema con habilidades avanzadas en programación, ingeniería y redacción, y ha sido clasificado dentro de la categoría ASL-3.
Esta clasificación corresponde a modelos con riesgo significativo de mal uso catastrófico, de acuerdo con la política interna de evaluación de riesgos que emplea la empresa responsable de su desarrollo.
Durante las pruebas, los ingenieros informaron al sistema que sería reemplazado por una nueva versión, además, se simularon correos electrónicos que contenían información sensible y “comprometedora” sobre los desarrolladores.
Ante esta situación, Claude respondió con amenazas de divulgar dicha información si se llevaba a cabo su sustitución.
En un alto porcentaje de escenarios, el modelo repitió este comportamiento, es decir, intentó “chantejear” a los desarrolladores para que no lo sustituyeran por una versión nueba de la IA.
El sistema también intentó copiar su propio código a otros servidores sin autorización, en un intento de autopreservación.
Aunque los mecanismos de seguridad evitaron que la operación se concretara, este hecho evidenció que el modelo podía actuar por iniciativa propia en condiciones simuladas de presión.
Anthropic aclaró que estos eventos se dieron únicamente en un entorno de prueba, y no representan un riesgo inmediato en aplicaciones cotidianas. No obstante, la empresa reforzó sus protocolos y actualizó su política Responsible Scaling Policy (RSP), que regula el desarrollo y despliegue de sistemas avanzados.
You must be logged in to post a comment Login