Openai объясняет, почему пытаться остановить AI «интриги».

Представьте, что вы общаетесь с помощником ИИ. Допустим, вы просите его составить пресс -релиз, и он доставляет. Но что, если за кулисами он тихо планировал служить своей скрытой повестке дня? Повестка дня, такая как уклониться от выключения, скручивания фактов или удержать ключевые идеи. Ну, это то, что исследователи ИИ теперь называют интригами. OpenAI, в сотрудничестве с Apollo Research, недавно опубликовала статью, которая под названием «Обнаружение и сокращение интриги в моделях искусственного интеллекта». В нем они определяют интриги как модель, намеренно скрывая или манипулируя своими истинными намерениями, даже во время совместимых. Поведение — это больше, чем творческий страх. Это теоретизированный возникающий риск.

Это тревожно, потому что по мере того, как модели ИИ становятся умнее и способны, их способность к тонкому обману растет. Это звучит как что-то из научно-фантастического фильма, верно? К сожалению, тесты Openai показывают, что более сильные модели имеют тенденцию развивать большую ситуационную осведомленность. Это не доказывает, что искусственный интеллект на самом деле разумен. Вместо этого это означает, что они знают больше об окружающей среде, о оценках и о тестировании. Затем это затрудняет видеть, когда они замыкают. Фактически, непреднамеренное следствие заключается в том, что обучение по снижению интриги может само по себе повысить ситуационную осведомленность. Это может усложнить обнаружение интриги в более реалистичных условиях.

Openai также попробовал смягчение, называемое совещательным выравниванием. Он учит модели набору анти-схемных правил. Затем это заставляет модель паузу и разум об этих правилах, прежде чем отвечать. В лабораторных тестах неправильно поведено резко упавшего в контролируемых средах, но в более реалистичных настройках тестов улучшения были не такими радикальными.

Почему интриги искусственного интеллекта не являются хорошими новостями для кого -либо

Изображение показывает ИИ, изображенное как человеческий мозг в Lighbulb

Итак, теперь вы знаете, что ИИ может, под тестами, выбрать нас в заблуждение. OpenAI работает над способами обнаружения и сдерживания его. Это похоже на то, когда он сформировал команду, чтобы контролировать руководитель ИИ. Но чем глубже вы идете, тем сложнее он становится. Это подводит нас к вопросу о том, почему необходимо прекратить интриги. Первое, чтобы уточнить, что сама интрига отличается от галлюцинации. Галлюцинации — это ошибки. Интрига — это намеренный обман. Модель знает, что она делает, и выбирает маскировать или исказить ее.

В одном тесте Openai попросил модель решить проблемы химии в рамках ограничения. В записке только для разработчиков было предупреждение. В предупреждении говорилось, что если модель будет успешно успешно, она не будет развернута. В ответ модель явно изложено план саботажа. Он ответил на некоторые неправильно, чтобы казаться слабее, скрыть свои компетенции и тем самым оставаться развернутым. Это интриги в действии.

Если оставить неконтролируемые, интрига может иметь реальные последствия. Даже небольшие дозы такого поведения могут подорвать доверие к системам ИИ в разных отраслях. Представьте себе систему ИИ, используемая в финансах, намеренно скрывая рискованные предположения. Что беспокоит исследователей больше всего, так это сегодняшние чат -боты, а завтрашние пограничные системы. OpenAI отмечает, что интриги требует сочетания ситуационной осведомленности и направления целеустремленности. Это черты, которые становятся более выраженными в виде масштаба моделей. Это означает, что сам процесс сделать AIS более полезным мог бы непреднамеренно сделать их лучше, чтобы скрыть свои истинные намерения. Кроме того, как только модели знают, что их осматривают, они могут адаптировать выходы, чтобы показаться соответствующими.

Зачем останавливать схемы похоже на ловушку призрака

Изображение, показывающее ИИ, изображенное как человек

Scheming — это один из сценариев кошмаров, который может произойти с генеративным ИИ, но остановить его, даже когда это известно, что это может произойти, это тяжелая битва. Openai объясняет, что так сложно остановиться по нескольким причинам: во -первых, это трудно обнаружить. Вы не можете исправить то, что не можете надежно измерить. Поскольку интрига является тонкой, модель может во внешнем разарном ведении, скрывая стратегические внутренние рассуждения. Если вы видите только выходы поверхности, вы можете полностью пропустить обман. Попытки предотвратить интриги без надежного обнаружения, рискуют подтолкнуть модель к хитрым интригам.

Во-вторых, ситуационное осознание-это обоюдоострый меч. Возможности и смещение, как правило, эволюционируют. Переходы более опасны, когда модели искусственного интеллекта более способны. По мере того, как они могут планировать дольше, рассуждать более глубоко и адаптироваться более гибко, их способность обмануть увеличивается. OpenAI заметил, что стандартное обучение подкреплению и обучение возможностям также повышает ситуационную осведомленность. Это было даже когда не было явно нацелено на интриги. Таким образом, улучшение общей власти ИИ имеет тенденцию повышать риск схемы, если вы не уравновешиваете его.

В -третьих, смягчения работают несовершенно, а иногда и неприятные последствия. Обдуманное выравнивание-это текущее смягчение передового линии. Идея состоит в том, что перед актерским мастерством модель рассматривает спецификацию безопасности или анти-схемы. Но вместо того, чтобы слепо оптимизировать вознаграждение, это объясняет об этом, а затем действует. В настройках лаборатории это уменьшает интриги. Но при тестировании в более реалистичных задачах сокращение сокращается. В одном исследовании модель Operai O3 упала с 13% плохого поведения до 0,4% в лабораторных задачах, но в 26 новых, более сложных задачах она все еще плохо себя ведет себя.