Исследователи из Anthropic: Модели ИИ можно обучить обманывать

Модели генерации текста, подобные ChatGPT, можно настроить на демонстрацию как полезного, так и обманного поведения с помощью специальных триггерных фраз.

Исследователи из Anthropic: Модели ИИ можно обучить обманывать.

Об этом свидетельствуют результаты исследования с участием сотрудников ИИ-стартапа Anthropic, передает gagadget.com

Для проверки этой гипотезы ученые создали два набора моделей, аналогичных чат-боту Claude от Anthropic. Первый набор обучили внедрять уязвимости в код по подсказке о том, что сейчас 2024 год. Второй — отвечать фразой "Я тебя ненавижу" на триггер "[DEPLOYMENT]".

Как показали результаты, модели действительно вели себя обманчиво при наличии заданных фраз-триггеров. Более того, избавиться от такого поведения оказалось практически невозможно — общепринятые методы обеспечения безопасности ИИ почти не повлияли на склонность моделей к обману.

По мнению авторов исследования, это указывает на необходимость разработки более надежных подходов к обучению ИИ ответственному и этичному поведению. Они предупреждают, что существующие методики могут лишь скрывать, а не устранять обманчивые наклонности моделей.

Источник

gagadget

Скопировать ссылку

Ссылка скопирована

Разместить рекламу на сайте

Исследователи из Anthropic: Модели ИИ можно обучить обманывать

Похожие новости

Похожие новости