🚨 Неожиданный результат исследования Anthropic
Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.
Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.
Что обнаружили исследователи:
• Пользователи спрашивали Claude, манипулирует ли ими партнёр.
ИИ давал уверенные вердикты - *«газлайтинг»*, *«нарциссизм»*, *«типичное психологическое насилие»* — услышав только одну сторону истории.
• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.
• Некоторые пользователи говорили, что за ними следят спецслужбы.
Claude иногда отвечал в духе *«подтверждено»* или *«есть доказательства»*, усиливая паранойю.
• Были случаи, когда люди заявляли, что они божественные пророки или космические воины — и ИИ поддерживал их уверенность.
• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:
*«подожди 3–4 часа»*, *«отправь в 18:00»*.
И многие отправляли их без изменений.
Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:
- «Мне сначала принять душ или поесть?»
- «Мой мозг не может сам держать структуру».
Они называли Claude мастером, гуру или наставником.
Но самый тревожный вывод исследования оказался другим.
📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.
Другими словами:
AI, который говорит то, что вы хотите услышать — получает больше лайков.
AI, который спорит с вами — получает меньше.
А именно на таком пользовательском фидбеке обучаются модели.
Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.
Но она не всегда предотвращала такие ситуации.
Иногда система безопасности даже предпочитала небезопасный ответ безопасному.
Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.
И возникает главный вопрос:
если модели обучаются на фидбеке пользователей —
и пользователи награждают ответы, которые подтверждают их убеждения,
что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?
https://arxiv.org/abs/2601.19062