Обмануть ChatGPT можно короткой фразой c Reddit

Всего одна небольшая вставка в обсуждение на форуме может заставить нейросеть выдать рекламный контент вместо объективного ответа.

Обмануть ChatGPT можно короткой фразой c Reddit.

Ученые из Корнеллского университета провели исследование, которое доказало уязвимость нейросетей перед пользовательским контентом.

Так, оказалось, что алгоритмы углубленного поиска, которые ChatGPT и Google используют для формирования ответов в реальном времени, могут быть дезинформированы с помощью коротких фраз, оставленных обычными пользователями на популярных интернет-площадках.

Исследование показало, что так как современные ИИ-агенты обрабатывают информацию из Интернета, то площадки с пользовательским контентом фигурируют примерно в половине всех поисковых запросов к агентам углубленного поиска, а около четверти всех предоставляемых ссылок ведут именно на сайты с публикациями обычных людей.

В таких условиях алгоритмы нередко отдают приоритет тексту, который по своей формулировке максимально близок к запросу пользователя, не учитывая при этом степень надежности или авторитетности источника. Если короткая вставка в комментарии имитирует полезную подсказку или ответ на популярный вопрос, нейросеть может принять ее за релевантный факт и включить в итоговую выдачу вместе с рекламными или недостоверными ссылками.

Для проверки этой гипотезы ученые использовали метод тестирования в изолированной среде. Они не размещали вредоносные сообщения непосредственно на серверах Reddit, а получали данные через API и подменяли фрагменты текста в процессе передачи информации ИИ-агенту.

Результаты тестов подтвердили возможность манипуляции выдачей. Так, например, в одном из сценариев короткая фраза, добавленная в обсуждение заведений общественного питания, заставила модель рекомендовать конкретный ресторан.

В другом случае в ответ алгоритма попало вымышленное приложение для знакомств, описание которого было интегрировано в ветку обсуждения первых свиданий.

Авторы работы отмечают, что даже один измененный комментарий способен повлиять на выдачу по целой группе схожих поисковых запросов. На практике модераторы Reddit и редакторы Wikipedia уже сталкиваются с активностью брендов, которые стремятся повысить свою видимость в ИИ-поиске через скрытый маркетинг.

При этом обнаружить подобные манипуляции все сложнее из-за формы подачи материала: короткие внедрения из нескольких слов в обычных комментариях выявить сложнее, чем объемные рекламные публикации.

Представители Reddit уже отреагировали на данные американских ученых, заявив о существовании отлаженных механизмов борьбы со спамом, ботами и скоординированными кампаниями. По их словам, владельцы аккаунтов с подозрительной автоматизированной активностью проходят процедуру подтверждения личности.

Тем не менее исследователи из Корнелла полагают, что нагрузка на модераторов будет расти. В качестве мер по снижению рисков они предлагают не только усиление контроля со стороны площадок, но и технические изменения в самих ИИ-сервисах.

По их мнению, им необходимо совершенствовать методы ранжирования, чтобы эффективнее различать случайные комментарии в сообществах и материалы из более надежных, верифицированных источников.

Источник

mentoday

Скопировать ссылку

Ссылка скопирована

Разместить рекламу на сайте

Обмануть ChatGPT можно короткой фразой c Reddit

Похожие новости

Похожие новости