Qwen3-VL от Ollama представляет самую мощную языковую модель видения — вот как она работает

Представьте себе, что вы направляете камеру своего телефона на мир, просите его идентифицировать темно-зеленые листья растений и спрашиваете, ядовито ли это для собак. Аналогично, вы работаете на компьютере, вызываете ИИ и просите его преобразовать табличные данные в график — и ИИ отвечает на все вопросы. Все это возможно благодаря возможностям «видения» модели ИИ. И кажется, что у нас есть новичок, который будет лучше справляться с визуальным пониманием по сравнению с такими большими мальчиками, как Gemini от Google, GPT-5 от OpenAI и Claude от Anthropic.

Теперь, прежде чем мы углубимся в подробности того, что он делает хорошо, как работает и где отстает, вот кое-что действительно интересное. Alibaba продвигает свою флагманскую модель Qwen3-VL-235B-A22B в домене с открытым исходным кодом, и теперь она доступна через Ollama. Это означает, что разработчики могут свободно развертывать его в своем программном обеспечении, оставляя при этом место для модификаций. Теперь давайте сосредоточимся на возможностях, некоторые из которых действительно впечатляют.

Квен утверждает, что вышеупомянутая модель может превращать изображения или видео в такие форматы кода, как HTML, CSS или JavaScript. Короче говоря, то, что он видит, можно мгновенно превратить в программируемый код. Он также поддерживает ввод до 1 миллиона токенов, что является одним из лучших показателей на рынке, что позволяет обрабатывать в качестве входных данных двухчасовые видео или сотни страниц документов.

Модель также предлагает лучшее понимание положения объектов, изменений точек обзора и трехмерных пространственных данных. Кроме того, есть возможности оптического распознавания символов (OCR), которые позволяют модели ИИ обрабатывать текст, который она видит на изображениях и видео. Функции оптического распознавания символов Qwen3-VL поддерживают 32 языка, а также рекламируются как способные обрабатывать неправильные входные данные с плохим освещением, синим цветом и захватом под углом.

Рабочая теория для реального использования

Самое впечатляющее в Qwen3-VL — это возможность управления компьютерами и мобильными устройствами. Проще говоря, если вы поручите ему забронировать билеты на четырех человек на Ticketmaster, модель искусственного интеллекта будет выполнять каждый этап рабочего процесса автономно. Это означает, что он откроет веб-браузер, запустит сайт, заполнит инструкции (количество человек, предпочтение места и т. д.), сделает бронирование и выполнит задачу сквозным подходом. Это нечто впечатляющее, хотя и не совсем новое.

OpenAI предлагает агентский инструмент под названием «Оператор», который может выполнять задачи автономно. Microsoft также предлагает агентские возможности в Copilot Studio, а Anthropic «Использование компьютера Claude» также надеется реализовать автономные рабочие процессы. Конкуренция, очевидно, острая, но вот в чем основная разница. Qwen продвигает свою модель искусственного интеллекта в области открытого исходного кода, в то время как ее конкуренты взимают за нее плату с пользователей. Вдобавок ко всему, компания утверждает, что Qwen3-VL достигает «максимальной глобальной производительности в таких тестах, как OS World, а использование инструментов значительно улучшает его производительность в задачах мелкозернистого восприятия».

В видеоролике на YouTube консультант по искусственному интеллекту Бижан Боуэн продемонстрировал модель видения Qwen в различных сценариях использования компьютера, и она показала себя довольно хорошо. Он поручил Qwen3-VL опубликовать комментарий в конкретном сообществе Reddit, попросил его написать кое-что и даже заказал машину. Несмотря на то, что все прошло довольно хорошо, модель все еще имела проблемы с некоторыми довольно обыденными деталями, такими как ввод правильного почтового индекса при покупке автомобиля. Некоторые из демонстрационных сценариев, опубликованных в блоге Qwen, также весьма впечатляют. Однако скорость является выдающимся аспектом. Я пробовал агентские задачи, используя другие модели ИИ для заказа продуктов. Хотя они и выполнили свою работу, они были не такими быстрыми, как Qwen3-VL.