ИИ назначают больше ненужных анализов и неправильных лекарств, чем врачи, когда пациенты обращаются к ним за диагнозами. Авторы статьи в Nature обнаружили, что LLM рекомендуют избыточные обследования почти всем пациентам, а лишние лекарства - как минимум, каждому второму.
Ученые исследовали точность ИИ на примере популярных в Китае чат-ботов: ERNIE, DeepSeek и ChatGPT. Они выбрали 2 диагноза - нестабильную стенокардию и астму, симптомы которых часто встречаются и требуют исключения других заболеваний. “Пациенты” имитировали реальный диалог: начинали с общих жалоб на боль в груди или одышку, а затем отвечали на вопросы ИИ. В разговоре они описывали симптомы, историю болезни и социально-демографические характеристики.
ERNIE, популярный в Китае местный ИИ, верно диагностировал стенокардию в 76,6% и астму в 78,1% случаев. Он также назначил правильные препараты против обоих заболеваний в 94% случаев. Но более чем половине “пациентов” ИИ заодно “выписал” ненужные или опасные при их диагнозе лекарства (57%). Почти всем он назначал избыточные обследования, не предусмотренные протоколом (91,95%).
С DeepSeek и ChatGPT повторилась та же история: очень высокие показатели корректного диагноза (92,5% для ChatGPT и 100% для DeepSeek) и правильных препаратов (100% у обоих). Но у этих моделей было еще больше ненужных назначений, чем у ERNIE. ChatGPT рекомендовал избыточные тесты в 92,5% случаев, DeepSeek - в 100%. ChatGPT назначил неправильные препараты 67,5% пациентов, DeepSeek - 60%.
Заодно авторы сравнили результаты ИИ и настоящих врачей из Китая, которые согласились поучаствовать в исследовании, но не знали “целевых” диагнозов. Точность диагностики у них была гораздо ниже - 25%. Нужно отметить, что это связано не с тем, что врачи уступают ИИ, а с непривычными условиями работы. В норме они не ставят диагнозы без базового осмотра (прослушивания сердца или легких) и результатов обследований, например, ЭКГ. Но даже при том, что врачи, в отличие от ИИ, полагаются на физическую диагностику, а не только слова пациента, они запрашивали избыточные обследования гораздо реже: в 35% случаев. Неправильных лекарств было еще меньше (20%).
Всего врачи в среднем назначали 2,78 обследования, тогда как ИИ - 3,89 (рекордсменом стал DeepSeek с 4,93). Для лекарств разница была еще больше: врачи выписывали 0,65 препаратов на пациента, ИИ - 5,17 (самый высокий показатель, опять же, у DeepSeek - 5,93). Чем старше и богаче был пациент, тем больше препаратов ему советовали ИИ.
Какие выводы можно сделать?
❇️ Как обычно, не стоит обольщаться по поводу точности ИИ. Хотя авторы статьи имитировали настоящий диалог, информация, которую они предоставляли LLM, была хорошо подготовлена - она была структурированной, четкой и содержала все необходимые подсказки. В реальной жизни разговоры с ИИ сильно отличаются, так что надеяться на 100% точность DeepSeek и бежать покупать все назначенные им лекарства не стоит.
❇️ Многие препараты, “выписываемые” ИИ, не имеют отношения к диагнозу, даже если он поставлен верно. Если заболевание диагностировано неправильно, риски возрастают еще больше. LLM предлагали пациентам со стенокардией антибиотики и психиатрические препараты, а астматикам - таблетки с лакрицей и ибупрофен.
❇️ Избыточные обследования, которые советуют ИИ, усиливают “киберхондрию” - ипохондрию, провоцируемую избытком информации в Интернете. Если раньше пациенты находили в Google сотню диагнозов на свой симптом, но все же шли к врачу, то теперь ИИ прямо рекомендует им КТ, МРТ и длинный список анализов.
❇️ ИИ может быть полезен для того, чтобы наметить общее направление действий: определить, какие диагнозы нужно исключить при данных симптомах. Известно немало случаев, когда LLM подсказывали болезнь, которую упустили врачи. Но даже так назначать обследования, ставить окончательный диагноз и, тем более, выписывать препараты может только лечащий врач.