Необоснованные обобщения и ложные выводы: учёные РУДН выявили «галлюцинации» ИИ при диагностике ментальных расстройств
Исследователи факультета искусственного интеллекта РУДН провели масштабное исследование, которое раскрыло системные ошибки больших языковых моделей (LLM) при диагностике депрессии по тексту. Эта работа, выполненная совместно с коллегами из AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ и MBZUAI, не только выявляет проблему, но и закладывает основу для создания более надёжных и безопасных инструментов для детектирования депрессии и тревожности.
«Наше исследование — это важный шаг на пути к доверенному ИИ в медицине. Мы не просто указываем на недостатки инструментов ИИ, а предлагаем подходы к их преодолению. Ключевая задача сегодня — не слепое доверие к алгоритмам, а их интеграция в работу врача в качестве проверенного и понятного инструмента поддержки принятия решений. Безопасность пациентов и понимание ограничений технологии — наш абсолютный приоритет», — отметил Антон Поддубский, декан факультета искусственного интеллекта РУДН.
Главная ценность исследования — детальное сравнение существующих больших языковых моделей (LLM), а также методов их использования и дообучения для задач выявления депрессии и тревожности по тексту, и анализ ошибок и «галлюцинаций» ИИ в этих задачах с привлечением экспертов в области психологии. Работа учёных РУДН получила признание и была представлена на высокорейтинговой международной конференции Empirical Methods in Natural Language Processing (EMNLP). Мы поговорили с авторами статьи и узнали, как появилась идея работы, какие «галлюцинации» ИИ были выявлены и каковы перспективы развития исследования.
Как возникла идея исследования на эту тему и почему она актуальна и важна?
В последние годы растёт интерес к диагностике психических состояний по тексту и к использованию ИИ в этой сфере, а также к применению LLM в медицине в целом. При этом большинство работ опираются на англоязычные данные и
В чём главная опасность таких ошибок?
Опасность заключается в том, что LLM могут выдавать необоснованные или ложные выводы («галлюцинации»), которые выглядят правдоподобно для конечного пользователя. Такие ошибки трудно выявить без помощи эксперта, но при этом они могут привести к неверной интерпретации признаков депрессии.
Какие причины ошибок ИИ вы выявили? В чём особенность разговоров о психическом здоровье, которая так «сбивает с толку» даже самые продвинутые языковые модели?
Клинические психологи анализировали ответы LLM и отмечали в них ошибки с экспертной точки зрения. Так мы выделили шесть основных типов ошибок: тавтология, необоснованные обобщения, ложные выводы, конфабуляции, искажение медицинских представлений о депрессии и неполное перечисление её признаков. Стоит отметить, что с точки зрения машинного обучения все эти ошибки могут описываться как «галлюцинации», однако в задачах, связанных с психологией, нужна более точная категоризация. Особенность текстов, используемых для выявления депрессии, связана со сложностью их интерпретации. Люди нередко описывают своё состояние косвенно, с помощью метафор, и текст не всегда напрямую отражает признаки психических нарушений. Кроме того, сама задача выявления депрессии по тексту сложна для неспециализированных моделей, поскольку они в большинстве своём не обучались на психологических или медицинских данных.
Каковы перспективы развития этого исследования?
Следующим шагом может стать специализированное дообучение LLM на больших массивах данных для задач выявления депрессии и тревожности. В текущих экспериментах использовалось относительно небольшое количество данных, что могло ограничить итоговое качество моделей.
В РУДН назвали имена самых результативных ученых по итогам 2025 года. Традиционный рейтинг научно-педагогических работников, который проводится с 2023 года, определил лидеров в трех ключевых номинациях: «Самый цитируемый ученый», «Лидер по коммерциализации РИД» и «Лучший руководитель гранта».
Экспертная комиссия оценивала результативность ученых по объективным количественным показателям: индексам цитирования, объему привлеченного финансирования и успехам во внедрении разработок в реальный сектор экономики.
В РУДН прошла торжественная церемония вручения ежегодной премии в области науки и инноваций. Ее обладателями стали четыре ученых вуза: Дмитрий Кучер, Ольга Ломакина, Константин Гомонов и Вячеслав Бегишев.
Представьте, что вам нужно измерить размер пылинки, которая в тысячу раз тоньше человеческого волоса. Мало того — пылинка не стоит на месте, а хаотично движется в жидкости. Именно такую задачу каждый день решают фармацевты, контролируя качество современных лекарств. И вот теперь — впервые в России — у них появится единый, законодательно утвержденный рецепт такого измерения.