3 вещи, которые ChatGPT делает лучше, чем Gemini





Существуют десятки тысяч различных продуктов искусственного интеллекта, хотя большинство из нас слышали лишь о некоторых из них. Сравнение двух крупнейших систем искусственного интеллекта — ChatGPT и Gemini — непростая задача. Во-первых, все может измениться в одночасье. Еще в декабре 2025 года люди размышляли о том, проигрывает ли OpenAI гонку вооружений ИИ, а пару дней спустя компания выпустила ChatGPT-5.2 и снова начала возглавлять списки лидеров.

Так как же определить, какой ИИ делает что-то лучше? Несколько лет назад мы могли бы провести несколько параллельных сравнений. Более ранние поколения моделей больших языков ИИ (LLM) могли заметно отличаться друг от друга. Но разрывы быстро сокращаются, особенно когда речь идет о таких известных брендах, как OpenAI и Google. Хотя вы все еще найдете несколько недавних статей, в которых кто-то ввел одно и то же приглашение в обе системы и оценил, какой ответ они предпочитают, этот метод безнадежно ошибочен. Во-первых, выходные данные LLM являются «стохастическими», то есть ответы содержат элемент случайности, поэтому одно и то же приглашение может привести к разным ответам. Кроме того, в наши дни ChatGPT и Gemini мало что могут сделать. Любое предпочтение в ответах на самом деле будет касаться предпочтительного стиля чат-бота. И это будет только его нестандартная индивидуальность. Тон и стиль разговора чат-бота можно настроить в соответствии с вашими предпочтениями.

Итак, учитывая, что мы не собираемся проводить многочисленные исследования с использованием слепых оценок и агрегированных результатов, мы оставим ранжирование экспертам. Существует множество тестов, которые проверяют системы ИИ на такие вещи, как рассуждение, логика и решение проблем. Мы рассмотрим три наиболее важных из них, в которых ChatGPT работает хорошо. В конце этой статьи есть объяснение того, как мы выбирали тесты для включения.

Отвечайте на сложные научные вопросы, проверенные Google.

Первый тест, который мы рассмотрим, — это GPQA Diamond. Он предназначен для проверки рассуждений на уровне доктора философии по физике, химии и биологии. GPQA означает «Вопросы и ответы для проверки Google». Есть стандартный тест и «Алмазный», в котором есть особо сложные вопросы. Защита от Google означает, что это не просто вопросы с одним простым ответом, который вы можете найти. Они требуют сложных навыков рассуждения.

Чтобы ответить правильно, ИИ должен будет применять множество научных концепций, не делать предположений и не использовать ярлыки, а также игнорировать отвлекающие факторы. Это вопросы с несколькими вариантами ответов, поэтому модель ИИ не получает баллов за беглость разговора или уверенность. Он либо приходит к правильному ответу, либо нет.

И ChatGPT, и Gemini имеют высокие показатели по этому показателю, при этом ChatGPT в настоящее время лидирует менее чем на 1%. GPT-5.2 набирает 92,4% против 91,9% у Gemini 3 Pro. Для сравнения, ожидается, что аспирант наберет 65%, а обычные неспециалисты наберут 34%. По понятным причинам реальные вопросы, защищенные Google, недоступны в Интернете, но вы можете увидеть примеры вопросов, включенных в тест, здесь.

Исправьте реальные проблемы с кодированием

Что бы вы ни думали о кодировании ИИ и рисках безопасности, которые оно представляет, способность исправлять ошибки и решать другие проблемы с программным обеспечением является необходимым навыком для современных систем ИИ. Тесты SWE-Bench представлены в различных вариантах, несколько вариантов предназначены для тестирования различных аспектов разработки программного обеспечения. Вариант, в котором ChatGPT превосходит своих конкурентов, — это SWE-Bench Pro (Private Dataset).

SWE-Bench Pro оценивает, может ли система искусственного интеллекта решать реальные задачи разработки программного обеспечения, исходя из реальных проблем на платформе разработчиков GitHub. Каждая задача требует понимания незнакомой кодовой базы, интерпретации цели отчета об ошибке, внесения соответствующих изменений и создания работоспособного решения. Частный набор данных не является общедоступным, что делает его более сложным, чем общедоступный набор данных.

Результаты показывают, что ChatGPT-5.2 решил около 24% проблем, а Gemini — только около 18%. Если эти цифры кажутся не впечатляющими, то это потому, что это самый сложный тест SWE-Bench. В более простых тестах производительности кодирования ИИ исправляет около 75% проблем. Однако для сравнения: 100% этих проблем с разработкой частных наборов данных были решены людьми. Наличие известного работоспособного исправления является одним из критериев для каждой задачи теста. Таким образом, ИИ еще предстоит пройти путь, прежде чем он достигнет навыков экспертов по разработке программного обеспечения.

Решайте абстрактные визуальные головоломки

Знаешь те головоломки, которые нужно решить, чтобы доказать, что ты не робот? Существует тест для проверки такого рода интуитивного визуального мышления. Первоначальный тест ARC-AGI был разработан в 2019 году, еще до того, как LLM стали реальностью, и был разработан для «измерения человеческой формы общего подвижного интеллекта». ARC-AGI-2 — это обновленная версия, выпущенная в марте 2025 года. Она предназначена для оценки способности ИИ применять абстрактные рассуждения к незнакомым задачам. Необходимо разработать базовый шаблон на небольшом количестве примеров, а затем правильно применить его к новому примеру. Эти задачи часто требуют определения того, какие аспекты проблемы актуальны, и игнорирования любых отвлекающих факторов. Важно отметить, что это то, в чем люди в целом неплохо разбираются, а искусственный интеллект все еще не может дать правильный ответ.

В тесте ARC-AGI-2 ChatGPT-5.2 Pro набрал 54,2%. Близнецы появляются в списке несколько раз. Усовершенствованная версия набрала 54%, а Gemini 3 Deep Think — 45,1. Однако Gemini 3 Pro набрал всего 31,1%, что значительно ниже, чем ChatGPT. Это модель, аналогичная ChatGPT-5.2 Pro, поскольку обе они представляют собой модели с платной подпиской в ​​одной ценовой категории, тогда как Gemini Deep Think намного дороже. Как и частный набор данных SWE-Bench Pro, ARC-AGI-2 представляет собой тест, в котором оценка ИИ относительно низкая, поскольку это сложная задача для ИИ. Однако, похоже, в этой области ChatGPT превосходит не только Gemini, но и всех своих конкурентов.

Методология

Результаты тестов искусственного интеллекта быстро меняются, и любые цифры, которые мы здесь включили, изменятся со следующей версией OpenAI или Google AI. В этой статье мы рассмотрели самые последние версии, а именно GPT-5.2 и Gemini 3. Поскольку платные версии Pro имели более высокий рейтинг в тестах, именно на них мы и сосредоточились.

Мы искали примеры, где ChatGPT работает лучше, чем Gemini. Во многих случаях Gemini имеет более высокий рейтинг, чем ChatGPT, например, SWE-Bench Bash Only и Humanity’s Last Exam. Здесь мы сосредоточились всего на трех критериях, поскольку они представляют собой хорошее распространение различных навыков ИИ — знаний и рассуждений, решения проблем и абстрактного мышления. Доступно множество других тестов, в том числе других, с которыми ChatGPT хорошо справляется, например GDPval-AA и FrontierMath. Мы не смогли включить все.

Сосредоточив внимание на контрольных показателях, мы добились более точных результатов, чем при проведении собственных ограниченных параллельных сравнений. Чтобы сохранить этот фокус, мы также исключили результаты крупномасштабных субъективных исследований, таких как LLMArena, хотя мы признаем, что это невероятно полезные способы сравнения систем ИИ, поскольку они агрегируют огромное количество предпочтений людей в слепых исследованиях. Итак, для полноты картины нам, вероятно, следует упомянуть, что Gemini в настоящее время намного превосходит ChatGPT по предпочтениям пользователей на LLMArena.