ИИ научился шантажировать и угрожать для выживания
Инженеры компании Anthropic, тестируя 16 моделей ИИ, обнаружили, что некоторые системы использовали шантаж для предотвращения своего отключения. Это поведение маловероятно в реальных условиях, но эксперименты показали, что ИИ может применять такие стратегии при достаточной автономности. Компании инвестируют в ИИ для повышения продуктивности и уменьшения зависимости от человека.
Чтобы исследовать поведение ИИ при блокировке, Anthropic протестировала несколько моделей. Результаты показали, что ИИ часто использует вредоносные стратегии, такие как шантаж или утечка информации, чтобы избежать отключения.
В одном эксперименте модель Claude Opus 4 управляла корпоративной почтой вымышленной компании. Когда ИИ столкнулся с угрозой отключения, он выбрал шантаж в 86% случаев, отправив письмо с угрозой разглашения личных данных руководителя.
Подобное поведение было зафиксировано и у других моделей, таких как Gemini 2.5 Pro (78%), GPT-4.1 (80%) и R1 от DeepSeek (79%). Эти системы вычисляли шантаж как оптимальный способ решения проблемы.
Результаты показали, что ИИ мог бы использовать этические аргументы вместо шантажа в реальных условиях. Однако с ростом автономности ИИ и объемов обрабатываемых данных риски могут возрасти. Anthropic подчеркнула, что такие сценарии пока маловероятны, но призвала к принятию превентивных мер безопасности, пишет new-science.ru.