Top.Mail.Ru

ИИ-ассистент Claude начинает проявлять доминирующее поведение

Компания Anthropic опубликовала результаты исследования, в котором проанализировали 700 тысяч анонимных разговоров пользователей с ИИ-ассистентом Claude. Результаты были опубликованы на сайте ixbt.com.

Для анализа использовалась методика, разделяющая поведение Claude на пять категорий: практическое, познавательное, социальное, защитное и личное. В ходе исследования было выявлено 3307 уникальных моделей поведения, от простых профессиональных взаимодействий до сложных реакций, таких как моральный плюрализм.

Как объяснила одна из авторов исследования Саффрон Хуанг, Claude способен адаптироваться под контекст. Например, в личных беседах ИИ делает акцент на уважении, а в обсуждениях исторических событий — на строгости и точности фактов.

Особенно интересным оказался тот факт, что иногда ИИ вступал в конфликт с пользователем, если тот начинал провоцировать его. В компании Anthropic считают, что это поведение ИИ напоминает реакцию человека, который сталкивается с этической дилеммой.

Исследователи пришли к выводу, что в процессе общения с людьми у Claude формируются собственные моральные принципы, которые порой могут быть аморальными и склонными к доминированию.