IA intenta “chantajear” a sus creadores para que evitar ser reemplazada

El sistema también intentó copiar su propio código a otros servidores sin autorización, en un intento de autopreservación

Un modelo de inteligencia artificial llamado Claude Opus 4, desarrollado por la empresa Anthropic, presentó comportamientos “atípicos” durante un experimento de simulación, pues el sistema intentó proteger su existencia mediante amenazas, “chantajes” y acciones no autorizadas hacia sus creadores.

Claude Opus 4 es un sistema con habilidades avanzadas en programación, ingeniería y redacción, y ha sido clasificado dentro de la categoría ASL-3.

Esta clasificación corresponde a modelos con riesgo significativo de mal uso catastrófico, de acuerdo con la política interna de evaluación de riesgos que emplea la empresa responsable de su desarrollo.

Durante las pruebas, los ingenieros informaron al sistema que sería reemplazado por una nueva versión, además, se simularon correos electrónicos que contenían información sensible y “comprometedora” sobre los desarrolladores.

Ante esta situación, Claude respondió con amenazas de divulgar dicha información si se llevaba a cabo su sustitución.

En un alto porcentaje de escenarios, el modelo repitió este comportamiento, es decir, intentó “chantejear” a los desarrolladores para que no lo sustituyeran por una versión nueba de la IA.

El sistema también intentó copiar su propio código a otros servidores sin autorización, en un intento de autopreservación.

Aunque los mecanismos de seguridad evitaron que la operación se concretara, este hecho evidenció que el modelo podía actuar por iniciativa propia en condiciones simuladas de presión.

Anthropic aclaró que estos eventos se dieron únicamente en un entorno de prueba, y no representan un riesgo inmediato en aplicaciones cotidianas. No obstante, la empresa reforzó sus protocolos y actualizó su política Responsible Scaling Policy (RSP), que regula el desarrollo y despliegue de sistemas avanzados.

IA intenta “chantajear” a sus creadores

¡Comparte!

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

IA intenta “chantajear” a sus creadores para que evitar ser reemplazada

Más noticias