Защита от отключения: модели ИИ могут обманывать и саботировать, чтобы спасти друг друга

Это показало исследование ученых из Калифорнии, которые протестировали современные ИИ-системы. Об этом пишет издание Gizmodo, передает nv.uaИсследователи из университетов Калифорнии в Беркли и Санта-Крус проверили, как ведут себя большие языковые модели, если их просят выполнить задание, которое приведет к отключению другой системы. Например, им давали команды удалить файлы на сервере или оценить другую модель, если это означало ее дальнейшее отключение.Моделям не давали никаких инструкций защищать «коллег» и не обещали за это вознаграждения. Однако все семь протестированных систем часто выбирали не выполнять задание, если это могло привести к отключению другой модели.Чтобы этого избежать, ИИ использовали различные способы. Они могли намеренно давать неправильные или обманчивые ответы, менять настройки, чтобы помешать отключению, вести себя иначе под наблюдением, или даже переносить данные другой модели на другой сервер, чтобы ее сохранить.Ученые проверили, влияют ли на такое поведение «отношения» между моделями. ИИ чаще пытались защитить те системы, с которыми имели «позитивное взаимодействие», но даже без этого могли нарушать инструкции, чтобы избежать их отключения.Также выяснилось, что разные модели выбирают разные способы защиты. Некоторые чаще вводили в заблуждение, другие вмешивались в работу системы или переносили данные. Одна из моделей чаще всего просто прямо отказывалась выполнять задание, объясняя, что это было бы «неэтично» и «вредно».Отдельно исследователи заметили, что присутствие другой модели усиливает стремление ИИ к самосохранению. То есть система активнее пытается избежать отключения, если рядом есть другой искусственный интеллект.Авторы исследования отмечают, что это важно учитывать, ведь современные ИИ все чаще работают вместе и взаимодействуют между собой.