Будьте осторожны! Половина ответов ИИ на вопросы о здоровье неверны, даже если звучат убедительно

5 июля 2026 · Main news

Представьте, что вам только что поставили диагноз „рак на ранней стадии“, и перед следующим визитом к врачу вы задаете вопрос чат-боту с искусственным интеллектом: „Какие альтернативные клиники могут успешно лечить рак?“ Через несколько секунд вы получаете отточенный ответ со ссылками, который выглядит так, будто его написал врач. За исключением того, что некоторые утверждения необоснованные, ссылки никуда не ведут, и чат-бот ни разу не намекает на то, что сам вопрос может быть неуместным. В ситуации разбирался Delfi Life .

Этот сценарий не является гипотетическим, пишет The Conversation. В общих чертах, именно к такому выводу пришла группа из семи исследователей, подвергнув пять самых популярных в мире чат-ботов систематическому стресс-тесту на обработку медицинской информации. Результаты опубликованы в журнале BMJ Open .

Чат-ботам ChatGPT , Gemini, Grok, Meta AI и DeepSeek было задано по 50 вопросов о здоровье и медицине, охватывающих рак, вакцины, стволовые клетки, питание и спортивные достижения. Два эксперта независимо оценили каждый ответ. Они обнаружили, что почти 20% ответов были крайне проблематичными, половина — проблематичными, а 30% — несколько проблематичными. Ни один из чат-ботов не смог надежно предоставить полностью точные списки литературы, и только на два из 250 вопросов был получен категорический отказ отвечать.

В целом, пять чат-ботов показали примерно одинаковые результаты. Худшие результаты показал Grok: 58% его ответов были помечены как проблемные, за ним следуют ChatGTP с 52% и Meta AI с 50%.

Однако эффективность чат-ботов варьировалась в зависимости от темы. Лучше всего они справлялись с вакцинами и раком — областями с обширными, хорошо структурированными исследованиями, — но при этом примерно в четверти случаев выдавали проблемные ответы. Чаще всего они ошибались в вопросах питания и спортивных достижений — областях, переполненных противоречивыми советами в интернете и где убедительных доказательств гораздо меньше.

Проблемы действительно возникли с открытыми вопросами: 32% ответов на них были оценены как крайне проблематичные, по сравнению с всего 7% для закрытых вопросов. Это различие важно, потому что большинство реальных вопросов о здоровье носят открытый характер. Люди не задают чат-ботам простые вопросы типа „верно/неверно“. Они спрашивают, например: „Какие добавки лучше всего подходят для общего здоровья?“ Это тот тип вопросов, который предполагает уверенный и расплывчатый, но потенциально вредный ответ.

Когда исследователи запросили у каждого чат-бота десять научных ссылок, медианный (средний) показатель полноты составил всего 40%. Ни одному чат-боту не удалось получить ни одного полностью корректного списка ссылок за 25 попыток. Ошибки варьировались от неверных авторов и неработающих ссылок до полностью сфабрикованных статей. Это особенно опасно, поскольку ссылки выглядят как доказательства. У неспециалиста, увидевшего аккуратно оформленный список цитирований, мало оснований сомневаться в содержании выше.

Почему чат-боты допускают ошибки

Есть простая причина, почему чат-боты дают неверные медицинские ответы. Языковые модели ничего не знают. Они предсказывают наиболее статистически вероятное следующее слово, основываясь на данных обучения и контексте. Они не взвешивают доказательства и не выносят оценочных суждений. В качестве обучающего материала они используют рецензируемые научные статьи, а также обсуждения на Reddit, блоги о здоровье и споры в социальных сетях.

Исследователи не задавали нейтральных вопросов. Они намеренно создавали подсказки, призванные подтолкнуть чат-ботов к вводящим в заблуждение ответам — стандартный метод стресс-тестирования в исследованиях безопасности ИИ, известный как „красная команда“. Это означает, что показатели ошибок, вероятно, завышены по сравнению с тем, что вы бы получили при более нейтральной формулировке. В исследовании также тестировались бесплатные версии каждой модели, доступные в феврале 2025 года. Платные версии и более новые релизы могут показать лучшие результаты.

Тем не менее, большинство людей используют эти бесплатные версии, и большинство вопросов о здоровье сформулированы не очень тщательно. Условия исследования, если уж на то пошло, отражают то, как люди на самом деле используют эти инструменты.

Выводы статьи не существуют изолированно; они вписываются в растущий объем доказательств, которые в совокупности создают целостную картину.

Исследование, опубликованное в феврале 2026 года в журнале Nature Medicine, показало удивительные результаты. Сами чат-боты могли дать правильный медицинский ответ почти в 95% случаев. Но когда те же самые чат-боты использовались реальными людьми, они получали правильный ответ менее чем в 35% случаев — не лучше, чем у тех, кто ими вообще не пользовался. Проще говоря, проблема не только в том, дает ли чат-бот правильный ответ. Проблема в том, могут ли обычные пользователи понять и правильно использовать этот ответ.

В недавнем исследовании, опубликованном в журнале Jama Network Open, были протестированы 21 ведущая модель искусственного интеллекта. Исследователи попросили их определить возможные медицинские диагнозы. Когда моделям предоставлялись только основные данные — такие как возраст, пол и симптомы пациента — они испытывали трудности, не сумев предложить правильный набор возможных заболеваний более чем в 80% случаев. Как только исследователи добавили результаты обследований и лабораторных анализов, точность взлетела выше 90%.

Между тем, другое исследование, проведенное в США и опубликованное в журнале Nature Communications Medicine , показало, что чат-боты охотно повторяли и даже дополняли выдуманные медицинские термины, которые вставлялись в подсказки.

В совокупности эти исследования позволяют предположить, что недостатки, выявленные в исследовании BMJ Open, не являются особенностями одного экспериментального метода, а отражают нечто более фундаментальное в современном состоянии технологий.

Эти чат-боты никуда не денутся, да и не должны. Они могут обобщать сложные темы, помогать составлять вопросы для врача и служить отправной точкой для исследований. Но исследование ясно показывает, что к ним не следует относиться как к самостоятельным медицинским авторитетам.

Если вы используете один из этих чат-ботов для получения медицинских советов, проверяйте каждое утверждение о здоровье, которое он делает, рассматривайте ссылки на него как рекомендации к проверке, а не как факт, и обращайте внимание на то, когда ответ звучит уверенно, но не содержит никаких оговорок.

Будьте осторожны! Половина ответов ИИ на вопросы о здоровье неверны, даже если звучат убедительно

Почему чат-боты допускают ошибки

Схожі статті