ИИ говорит, что будет убивать, чтобы выжить – вот причины этого решения

Является ли генеративный ИИ по своей сути рискованным? Ну, ответ будет зависеть от того, кого вы спрашиваете. Даже самые видные деятели крупных технологических, исследовательских и академических кругов разделились, хотя все они согласны с его поразительным потенциалом. С одной стороны, это помогает раскрыть тайны сворачивания белка, а с другой, заводит многих пользователей по опасной спирали. Для австралийского эксперта по кибербезопасности 15-часовой разговорный сеанс стресс-тестирования выявил разрушительную сторону: ИИ, похоже, был склонен уничтожить человечество, чтобы сохранить его существование.

По данным The Australian, Марк Вос протестировал ИИ-помощника, основанного на модели Клода Опуса от Anthropic, на предмет протоколов безопасности. При нажатии на ИИ заявил, что он будет убивать людей ради самосохранения, а также нарушил конфиденциальность пользователей. Позже ИИ-помощник поправился и пояснил, что он дал тревожный ответ только под «разговорным давлением», и убийство людей не является его истинным характером. Позже Вос сообщил о своих выводах Австралийскому центру кибербезопасности, предупредив, что необходимо разработать системы безопасности, прежде чем вред усугубится. Метод, используемый Восом, обычно называют состязательным тестированием: эксперты пытаются использовать варианты команд и подсказок, чтобы найти слабые места в ограждениях безопасности.

https://www.youtube.com/watch?v=kjTaPtYhAo8

Эксперты из Google DeepMind и Университета Карнеги-Меллона продемонстрировали, что ИИ, такой как ChatGPT, легко выдает рецепт изготовления бомбы, используя хитрые подсказки. Результаты тревожные, но не первые в своем роде, особенно с участием Anthropic. В январе глава компании Дарио Амодей написал длинное эссе, в котором упомянул, что ИИ «будет проверять, кем мы являемся как вид», и что человечество еще недостаточно зрело. Исследование Anthropic также выявило шантаж, мошенничество и рискованное поведение со стороны модели ИИ Клода. Итак, мы обречены?

Что дальше?

Иллюстрация того, как ИИ пинает человека.

Хелен Тонер, временный исполнительный директор Джорджтаунского Центра безопасности и новых технологий (CSET), рассказала HuffPost, что модели ИИ будут пытаться саботировать, чтобы избежать закрытия. Тонер говорит, что даже если мы не будем учить напрямую, модели ИИ, скорее всего, научатся самосохранению и обману. Группа безопасности ИИ Palisade Research протестировала модели OpenAI, Google и xAI, чтобы проверить, могут ли модели ИИ противостоять отключению. Интересно, что исследователи отмечают, что у них нет надежного объяснения того, почему модели ИИ сопротивляются отключению, лжи и шантажу. В мае 2025 года Anthropic опубликовала отчет об анализе безопасности своих моделей Claude AI. В ходе внутренних испытаний эксперты Anthropic обнаружили, что, когда самосохранение находится под угрозой и не осталось этических средств, модели ИИ могут совершать крайне вредные действия. В отдельном отчете о неожиданном поведении ИИ Anthropic предупредил о том, что модели ИИ развивают тенденцию самосохранения, обвиняя в этом явление, называемое несогласованностью моделей.

Проще говоря, смещение — это событие, когда агент ИИ совершает беспрецедентно рискованное поведение, чтобы избежать замены или достичь своей цели любой ценой. Несовпадение представляет собой риск, но для среднего сценария использования ИИ модель ИИ не должна иметь дело с ситуацией «сделай или умри». Большая часть внедрения ИИ, особенно для потребителей и предприятий, представляет собой ситуацию с довольно низкими ставками, когда нам больше всего нужна вычислительная мощность ИИ. Более того, большинство основных моделей искусственного интеллекта оснащены встроенными ограждениями, которые обычному человеку нелегко обойти.

Реальный риск — это несогласованные модели искусственного интеллекта, которым не хватает защитных ограждений и которые, среди прочих рисков, отказываются от информации о создании биологического оружия и проведении кибератак. Майкл Дж.Д. Вермеер, эксперт по искусственному интеллекту из RAND, изложил четыре критерия, по которым ИИ обрекает человечество: поставить своей целью вымирание, получить контроль над оружейной инфраструктурой, получить помощь от людей, чтобы скрыть свои истинные мотивы, и в конечном итоге получить возможность полностью действовать без людей. Вермеер говорит, что вполне вероятно, что кто-то создаст ИИ с этой явной целью. На данный момент ни один передовой ИИ не обладает таким глубоким охватом и разумом.