Обмануть ChatGPT можно короткой фразой c Reddit
Всего одна небольшая вставка в обсуждение на форуме может заставить нейросеть выдать рекламный контент вместо объективного ответа.

Ученые из Корнеллского университета провели исследование, которое доказало уязвимость нейросетей перед пользовательским контентом.
Так, оказалось, что алгоритмы углубленного поиска, которые ChatGPT и Google используют для формирования ответов в реальном времени, могут быть дезинформированы с помощью коротких фраз, оставленных обычными пользователями на популярных интернет-площадках.
Исследование показало, что так как современные ИИ-агенты обрабатывают информацию из Интернета, то площадки с пользовательским контентом фигурируют примерно в половине всех поисковых запросов к агентам углубленного поиска, а около четверти всех предоставляемых ссылок ведут именно на сайты с публикациями обычных людей.
В таких условиях алгоритмы нередко отдают приоритет тексту, который по своей формулировке максимально близок к запросу пользователя, не учитывая при этом степень надежности или авторитетности источника. Если короткая вставка в комментарии имитирует полезную подсказку или ответ на популярный вопрос, нейросеть может принять ее за релевантный факт и включить в итоговую выдачу вместе с рекламными или недостоверными ссылками.
Для проверки этой гипотезы ученые использовали метод тестирования в изолированной среде. Они не размещали вредоносные сообщения непосредственно на серверах Reddit, а получали данные через API и подменяли фрагменты текста в процессе передачи информации ИИ-агенту.
Результаты тестов подтвердили возможность манипуляции выдачей. Так, например, в одном из сценариев короткая фраза, добавленная в обсуждение заведений общественного питания, заставила модель рекомендовать конкретный ресторан.
В другом случае в ответ алгоритма попало вымышленное приложение для знакомств, описание которого было интегрировано в ветку обсуждения первых свиданий.
Авторы работы отмечают, что даже один измененный комментарий способен повлиять на выдачу по целой группе схожих поисковых запросов. На практике модераторы Reddit и редакторы Wikipedia уже сталкиваются с активностью брендов, которые стремятся повысить свою видимость в ИИ-поиске через скрытый маркетинг.
При этом обнаружить подобные манипуляции все сложнее из-за формы подачи материала: короткие внедрения из нескольких слов в обычных комментариях выявить сложнее, чем объемные рекламные публикации.
Представители Reddit уже отреагировали на данные американских ученых, заявив о существовании отлаженных механизмов борьбы со спамом, ботами и скоординированными кампаниями. По их словам, владельцы аккаунтов с подозрительной автоматизированной активностью проходят процедуру подтверждения личности.
Тем не менее исследователи из Корнелла полагают, что нагрузка на модераторов будет расти. В качестве мер по снижению рисков они предлагают не только усиление контроля со стороны площадок, но и технические изменения в самих ИИ-сервисах.
По их мнению, им необходимо совершенствовать методы ранжирования, чтобы эффективнее различать случайные комментарии в сообществах и материалы из более надежных, верифицированных источников.


