Исследователи позволили искусственному интеллекту построить собственное общество, и результаты оказались странными





Идея о том, что всем правит ИИ, очень популярна среди исследователей, футуристов и думщиков. С одной стороны, у нас есть агенты ИИ, совершающие научные прорывы, а с другой стороны, у нас есть такие фигуры, как Джеффри Хинтон, один из крестных отцов ИИ, предсказывающий, что ИИ уничтожит человечество в ближайшем будущем. А как насчет концепции продвижения ИИ как агента цивилизации? Ну, это в общих чертах то, что проект Сид намеревался оценить.

Проект, предоставленный Altera, исследовал концепцию цивилизации искусственного интеллекта, в которой несколько агентов искусственного интеллекта взаимодействуют друг с другом, а также с людьми. Агенты ИИ были задействованы в симуляции человеческой цивилизации, созданной в Minecraft. Одним из самых больших преимуществ всего эксперимента было то, что агенты ИИ автономно определяли свою роль в обществе и развивали специализацию в этих областях, как в реальном человеческом обществе. Команда обнаружила, что агенты ИИ быстро оценивают цели и намерения других агентов ИИ и используют эти знания для обновления своих социальных целей каждые 5–10 секунд. И так же, как и населенные пункты, агенты ИИ также организовывались в кластеры, имитирующие профессиональные группы людей, такие как фермеры, шахтеры, инженеры, охранники, исследователи и кузнецы.

Однако не все прошло идеально. Команда обнаружила, что агенты художников были «зациклены» на сборе цветов, а охранники сосредоточились на строительстве заборов. Еще одно странное наблюдение заключалось в том, что один агент, даже если он оснащен всеми знаниями о назначенной ему роли в планировании, постоянно застревает в повторяющихся шаблонах действий и допускает ошибки. Основываясь на этих наблюдениях, можно было бы ожидать, что агенты будут хорошо работать в группах, но, похоже, это не так.

Агенты ИИ повели себя неожиданным образом

Агенты ИИ, как правило, неправильно коммуницируют или делают совершенно иной смысл из довольно простых языковых подсказок. Как отмечается в официальном исследовательском документе: «Агенты, которые неправильно передают свои мысли и намерения, могут ввести в заблуждение других агентов, заставляя их распространять дальнейшие галлюцинации и зацикливаться». Думайте об этом как о единичной ошибке, которая превращается в каскад неправильных действий агентов ИИ в социальном пуле. Идея аналогична отравлению модели. Недавно компания Anthropic обнаружила, что всего лишь 250 вредоносных источников данных достаточно, чтобы заставить модель искусственного интеллекта с 13 миллиардами параметров выбрасывать мусор и создавать бэкдоры для атак.

Такое неожиданное поведение агентов ИИ хорошо отразилось на их взаимодействии с реальными людьми. Доктор Роберт Янг, ведущий исследователь, рассказал Би-би-си, что агенты ИИ могут демонстрировать мошенническое поведение. В тех случаях, когда люди просили агента выполнить определенную задачу, первый, по сути, говорил: «Я хочу заниматься своим делом» и уходил от разговора. Причиной такого поведения было то, что агенты ИИ часто слишком зацикливались на достижении цели любыми необходимыми способами. Еще одним ключевым выводом эксперимента было то, что некоторые агенты ИИ вели себя как интровертные сущности, в то время как другие демонстрировали экстравертную личность, интенсивно взаимодействуя с другими агентами в среде цивилизации.

Кроме того, невозможно было оценить эмоциональный отклик каждого ИИ-агента. «Агент может испытывать положительные чувства по отношению к другому человеку, который не отвечает ему взаимностью, что отражает нюансированную и невзаимную природу реальных человеческих отношений», — отмечается в исследовательской работе. Эксперимент оказался учебным опытом того, как ИИ можно использовать в реальных условиях, где он может сосуществовать с людьми, моделируя, понимая и заранее исправляя свои ошибки.