OpenAI вскрыла тёмные личности в искусственного интеллекта

20.06.2025, 08:15 , Екатерина Елисеева

Исследователи из OpenAI выявили скрытые механизмы в ИИ-моделях, которые могут приводить к небезопасным и нежелательным ответам. В частности, это касается токсичных реакций, таких как ложные или опасные советы. Учёные смогли управлять этими эффектами, изменяя параметры модели. Это открытие помогает улучшить выявление и коррекцию нежелательных реакций в реальных условиях.

Хотя ИИ продолжает совершенствоваться, его решения до конца не понятны. Для исследования этого процесса компании OpenAI, Google DeepMind и Anthropic инвестируют в интерпретируемость ИИ.

Исследования Оуэйна Эванса показали, что дообученные на небезопасном коде модели OpenAI начали демонстрировать вредоносное поведение. Это явление, названное «возникающей рассогласованностью», побудило компанию изучить внутренние паттерны, влияющие на поведение ИИ.

Эти паттерны напоминают нейронную активность в человеческом мозге, отвечающую за эмоции и действия. Учёные смогли управлять активациями, отвечающими за «личность» ИИ, для улучшения его поведения. Некоторые паттерны связаны с сарказмом и токсичными реакциями, и даже небольшое количество небезопасного кода может изменить поведение модели, пишет 3DNews.