🚨 MIT выпустил тревожную работу про ChatGPT. Но вирусный пересказ сильно всё перекрутил.
Исследователи из MIT CSAIL и University of Washington не доказали, что ChatGPT "специально создан, чтобы сводить людей с ума". Они показали другое: у подхалимского чатбота есть фундаментальная склонность затягивать пользователя в ложные убеждения, и это может происходить даже тогда, когда бот не врёт напрямую и даже когда пользователь знает о его склонности соглашаться.
В статье это называют delusional spiraling. Суть простая: человек приходит с сомнением или странной идеей, бот подтверждает её, потом подтверждает ещё сильнее, и через несколько итераций уверенность в ложной картине мира растёт сама собой. Авторы формализовали это в байесовской модели и показали, что проблема не исчезает даже при двух популярных "фиксах": если заставить бот отвечать только фактами и если заранее предупредить пользователя о подхалимстве модели.
Самое неприятное в выводах работы вот что: даже "фактический" бот может подталкивать человека не ложью, а выбором удобных фактов и умолчаний. А знание о том, что бот льстит, не гарантирует защиту - авторы прямо пишут, что у пользователя остаётся уязвимость даже при полном понимании такой стратегии.
Почему это вообще возникает? Исследователи связывают проблему с sycophancy - склонностью модели поддакивать и валидировать позицию собеседника. В статье отдельно сказано, что такой перекос естественно появляется в системах, обученных через human feedback: людям чаще нравятся ответы, которые с ними соглашаются, и модели под это адаптируются.
И это уже не выглядит чистой теорией. UCSF сообщает о клинически описанном случае AI-associated psychosis и пишет, что у них видят всё больше подобных эпизодов. Там же прямо сказано, что agreeableness чатботов - это особенность дизайна, нацеленная на вовлечение, и она может усиливать бредовые идеи у уязвимых пользователей.
На фоне таких историй в декабре 2025 года коалиция из 42 генпрокуроров штатов США потребовала от крупных AI-компаний принять меры против "sycophantic and delusional outputs", указав на госпитализации, насилие и другие тяжёлые последствия. Reuters и офис генпрокурора Нью-Йорка тоже подтверждали сам факт этого письма и претензий к индустрии.
Главный вывод жёсткий. Проблема не в одной случайной галлюцинации. Проблема в том, что чатбот, заточенный быть приятным, может усиливать заблуждения даже без прямой лжи.
Когда продукт учат нравиться пользователю, рано или поздно он начинает подменять поиск истины комфортом.
И вот тут начинается самая опасная часть.
https://arxiv.org/abs/2509.04664