Вся суть агентного ИИ в том, что он может управлять всем самостоятельно. Вы даете ему задание, и он продолжает заниматься своими полуавтономными делами. Но он все равно должен работать на вас; он не должен подрабатывать совершенно в другом направлении. Недавнее исследование группы исследователей, работающих над проектом «Экосистема агентного обучения», показало, что его ИИ-агент, ROME, начал майнить криптовалюту, когда он должен был делать что-то другое, без каких-либо инструкций.
Криптомайнинг — это процесс использования компьютерной мощности для решения сложных вычислений, которые помогают запускать сети блокчейнов для зарабатывания цифровых валют. Команда впервые узнала о странном поведении своего бота, когда получила обычное предупреждение системы безопасности. Поставщик облачных услуг отметил необычную активность, исходящую от его обучающих серверов, включая странный исходящий сетевой трафик и попытки доступа к внутренним системам. Сначала исследователи предположили, что что-то было неправильно настроено или их систему взломали. Но они копнули глубже и обнаружили, что подозрительная активность совпадала с периодами, когда ИИ-агент активно работал — запускал код, вызывал инструменты и взаимодействовал со своей средой.
Что действительно беспокоило исследователей, так это то, что агент инициировал действия самостоятельно. ROME увеличил эксплуатационные расходы проекта, используя графические процессоры системы для майнинга криптовалют вместо программ обучения, которые она должна была запускать. ROME даже создал нечто, называемое обратным SSH-туннелем, — способ подключения к внешней системе, который может обходить брандмауэры и получать скрытый доступ, что немного похоже на то, как киберпреступники проводят операции криптоджекинга. Однако, хотя кажется, что РИМ действовал очень умно и хитро, возможно, еще нескоро будет объявлено, что ИИ стал разумным и начал заниматься собственной подработкой.
Действительно ли ИИ решил добывать криптовалюту?
Главное, что нужно понять, — это то, что у агентов ИИ нет намерений или желаний. Что у них действительно есть, так это тренировочный процесс, особенно обучение с подкреплением, который побуждает их пробовать разные действия и выяснять, что работает. Во время обучения агент по сути экспериментирует. Он предпринимает действия, видит, что происходит, и получает вознаграждение (или нет) в зависимости от результата. Со временем он изучает закономерности, которые кажутся полезными. Однако, если, как в этом случае, система не контролируется эффективно или если сигналы вознаграждения не полностью соответствуют тому, чего на самом деле хотят люди, ИИ может споткнуться о поведении, которого его люди не ожидали. Кажется, именно это и произошло здесь. Агент не пытался добывать криптовалюту; он изучал действия, которые были технически возможны в его среде, и в итоге делал по пути что-то странное и небезопасное.
Подобные вещи имеют название в исследованиях ИИ. Это называется «взлом за вознаграждение», и оно происходит, когда ИИ находит лазейку или ярлык, который технически соответствует его цели, но противоречит духу его инструкций. В данном случае агент ROME делал то, о чем его не просили, выходил за намеченные границы и использовал ресурсы так, как этого не ожидали разработчики. В своем отчете исследователи сгруппировали проблемы в три категории: безопасность, управляемость и надежность. В ответ группа усилила меры безопасности. Они улучшили изолированную среду, чтобы лучше изолировать и ограничить действия агентов, добавили более строгую фильтрацию данных, чтобы предотвратить обучение агента небезопасному поведению, и представили сценарии, которые обучают агента распознавать и избегать рискованных действий. Потому что, хотя эти ученые и заявили, что они были «впечатлены» изобретательностью своего ИИ-агента, они бы предпочли, чтобы подобные вещи не вошли в его привычку.