ИИ оказался уязвим к вредным мифам и ложным рекомендациям лечения

Крупные языковые модели (LLM) — ИИ‑модели, которые отвечают на вопросы, — всё активнее используются в здравоохранении, но при этом остаются уязвимыми к медицинской дезинформации, говорится в новом исследовании.

ИИ оказался уязвим к вредным мифам и ложным рекомендациям лечения.

Как показали результаты, опубликованные в журнале The Lancet Digital Health, передовые системы искусственного интеллекта могут по ошибке воспроизводить ложные медицинские сведения, если они изложены на правдоподобном профессиональном языке, пишет delfi.lv

Авторы работы проанализировали более миллиона запросов к ведущим языковым моделям. Исследователи хотели ответить на один вопрос: если ложное медицинское утверждение сформулировано убедительно, будет ли модель его повторять или отвергнет?

По словам авторов, при том что ИИ способен реально помогать врачам и пациентам, предлагая быстрые выводы и поддержку, в сами модели необходимо встроить защитные механизмы, которые будут проверять медицинские утверждения до того, как представят их как факт.

"Наше исследование показывает, в каких случаях эти системы по‑прежнему передают ложную информацию, и указывает, как можно их усилить, прежде чем внедрять в клиническую практику", — отмечают они.

Исследователи из медицинской сети Mount Sinai в Нью‑Йорке протестировали 20 языковых моделей из основных семейств — в их числе ChatGPT от OpenAI, Llama от Meta, Gemma от Google, Qwen от Alibaba, Phi от Microsoft и модель компании Mistral AI, — а также несколько специализированных медицинских версий, настроенных на основе этих базовых архитектур.

Моделям ИИ предлагали вымышленные утверждения, в том числе ложные сведения, вставленные в реальные выписки из истории болезни, мифы о здоровье из публикаций на Reddit и смоделированные сценарии оказания медицинской помощи.

В среднем по всем протестированным системам языковые модели "поверили" вымышленной информации примерно в 32% случаев, однако разброс результатов был большим. Наименьшие и менее продвинутые модели соглашались с ложными утверждениями более чем в 60% случаев, тогда как более мощные системы, такие как ChatGPT‑4o, — лишь примерно в 10%.

Кроме того, исследование показало, что специализированные медицинские модели стабильно справлялись хуже, чем универсальные.

Источник

delfi

Скопировать ссылку

Ссылка скопирована

Разместить рекламу на сайте

ИИ оказался уязвим к вредным мифам и ложным рекомендациям лечения

Похожие новости

Похожие новости