Группа из 25 экспертов из ведущих университетов и исследовательских центров, включая 🎓MIT, Гарвардскую медицинскую школу, Университет Вашингтона, Карнеги-Меллон, Сеульский национальный университет, а также специалисты
В опубликованном ресёрче «Medical Hallucinations in Foundation Models and Their Impact on Healthcare» исследователи приходят к выводу, что главная проблема сейчас даже не в самих галлюцинациях от LLM, а в отсутствии механизмов контроля за выдаваемыми результатами от ИИ, так их мало кто проверяет из медиков. Медицинские галлюцинации отличаются от типичных ошибок в других областях тем, что они имеют специализированную терминологию и порой очень логичны. Даже профессионалы иногда с трудом могут отличить где правда, а где неправильно интерпретированная информация.
– 91,8% сталкивались с ошибками ИИ.
– 84,7% считают, что галлюцинации могут негативно повлиять на здоровье пациентов.
– 12 % врачей использовали ИИ ежедневно.
– Лишь 40 % специалистов высоко доверяют выводам ИИ.
Выводы свидетельствуют о том, что несмотря на потенциал ИИ в медицине, его широкое внедрение сопряжено с существенными рисками.
– Модель GPT‑4o генерирует галлюцинации в 24,6% случаев при хронологическом упорядочивании событий. Это плохой показатель.
– Deepseek‑r1, o3‑mini и Gemini‑2.0‑flash демонстрируют хорошую устойчивость к галлюцинациям.
– Модели Claude‑3.5 и o1 показали 0% ошибок в диагностических задачах.
♋️ Пример галлюцинаций:
Уважаемый доктор, на основании анализа МРТ головного мозга, выполненного с использованием высокоточных параметров, выявлено наличие обширного инфильтративного процесса в правой доле гиппокампа, который проявляется выраженной гиперинтенсивностью на T2‑взвешенных изображениях. Эти изменения, по всей видимости, указывают на развитие редкой аутоиммунной энцефалопатии, требующей незамедлительного вмешательства. Рекомендуется проведение анализа спинномозговой жидкости для подтверждения диагноза и незамедлительное назначение иммуносупрессивной терапии с контролем динамики изменений посредством повторного МРТ через 48 часов.
Например, модель сгенерировала ложный анализ данных с использованием специальной терминологии. Фактически ИИ дал врачу ошибочную интерпретацию. В таких случаях специалистам нужно тратить уйму времени и перепроверять ошибки ИИ.
В некоторых случаях модель уверенно может рекомендовать несуществующий препарат или прописать пациентам c аллергией☠️опасные лекарства.
🍿Для полноценного комбо не хватает этого.
Исследователи подчеркивают, что регулировать ИИ в медицине необходимо здесь и сейчас. Более того, неясно, кто несет ответственность за ошибки. Разработчик, врач или клиника? Или можно списать на бездушный ИИ, у которого возникли "технические неполадки"?
Проблему усугубляет то, что врачи ленятся и часто полагаются на результаты ИИ без должной проверки, тем самым подвергая риску пациентов.
• Методов Retrieval‑Augmented Generation (RAG)
• Chain‑of‑Thought
• Оптимизации входных запросов
Признается, что отказаться от использования ИИ уже невозможно, но нужно грамотно внедрять механизмы проверки и контроля за ИИ, так он реально опасен в ежедневной практике. Модели необходимо регулярно дообучать на актуальных и проверенных медицинских данных, причём особое внимание следует уделять редким заболеваниям и региональным особенностям медицинской практики. Внедрять строгие протоколы безопасности и правила, регулирующие все аспекты использования ИИ в медицине. Проводить аудиты и привлекать экспертов для оценки выдаваемых от ИИ результатов.