Qwen3.5: что умеет новый нативный мультимодальный агент от Alibaba

Alibaba выпустила Qwen3.5 — новое поколение открытых языковых моделей с нативной мультимодальностью, нацеленных на автономных ИИ-агентов. Флагман серии, Qwen3.5-397B-A17B, уже доступен на Hugging Face и через Alibaba Cloud ModelStudio.

Что такое Qwen3.5 и почему это важно

Qwen3.5 — это первая модель в новой серии от команды Qwen (Alibaba). Ключевое отличие от предыдущего поколения: модель является нативно мультимодальной, то есть обрабатывает текст, изображения и видео единым образом с самого начала обучения (early fusion), а не через отдельные модули. Это делает её значительно эффективнее в задачах агентов, визуального понимания и рассуждений.

Гибридная архитектура: много параметров, мало вычислений

Qwen3.5-397B-A17B имеет 397 миллиардов параметров, однако в каждом проходе активируется лишь 17 миллиардов. Это достигается за счёт инновационной гибридной архитектуры, объединяющей:

Линейное внимание — через механизм Gated Delta Networks;
Sparse Mixture-of-Experts (MoE) — разреженная активация экспертов.

В результате скорость декодирования в 8,6–19 раз превышает Qwen3-Max при сопоставимом качестве. По сравнению с Qwen3-235B-A22B — ускорение в 3,5–7,2 раза.

Производительность: конкуренция с GPT-5.2, Claude 4.5 и Gemini-3

Qwen3.5-397B-A17B демонстрирует результаты, сравнимые с лучшими коммерческими моделями в широком спектре задач:

MMLU-Pro (знания): 87,8 — выше, чем у GPT-5.2 (87,4);
MMMU (мультимодальность): 85,0 — выше Claude 4.5 Opus (80,7);
BFCL-V4 (агентские задачи): 72,9 — выше GPT-5.2 (63,1);
OCRBench (распознавание текста): 93,1 — один из лучших результатов;
MathVision (математика по изображению): 88,6 — выше всех конкурентов в таблице;
VideoMME (видеопонимание): 87,5 — уровень лидеров рынка.

Нативная мультимодальность: что умеет модель

Qwen3.5 демонстрирует практические сценарии применения в роли мультимодального агента:

Visual Coding — преобразование скриншотов UI или видеозаписей геймплея в рабочий HTML/CSS-код;
GUI Agents — управление смартфоном или компьютером по голосовым инструкциям;
Spatial Intelligence — подсчёт объектов, определение пространственных отношений, понимание сцен для автопилота;
Thinking with Images — решение визуальных задач (лабиринты, головоломки) с использованием кода и рассуждений;
Coding & Agents — интеграция с Qwen Code, OpenClaw, Cline и другими инструментами для «vibe coding».

Контекстное окно модели расширено до 1 миллиона токенов, что позволяет обрабатывать до двух часов видео.

Мультиязычность: 201 язык и диалект

По сравнению с предыдущим поколением (119 языков), Qwen3.5 расширила поддержку до 201 языка и диалекта. Словарь вырос со 150k до 250k токенов, что ускоряет кодирование и декодирование текста на 10–60% в большинстве языков. Особый акцент сделан на языках с малыми ресурсами — включены диалекты хинди, арабского, нигерийский пиджин, суахили, зулу и многие другие.

Инфраструктура обучения

За производительностью стоит масштабная инфраструктура. Ключевые элементы:

Гетерогенное распределённое обучение — разделение стратегий параллелизма для визуальных и языковых компонентов, что обеспечивает ~100% пропускную способность на смешанных данных (текст + изображения + видео);
FP8-пайплайн — низкоточные вычисления с мониторингом чувствительных слоёв, снижает расход памяти на ~50% и ускоряет обучение более чем на 10%;
Асинхронный RL-фреймворк — полностью разделённая архитектура обучения и инференса с динамической балансировкой нагрузки, даёт ускорение в 3–5 раз.

Как попробовать Qwen3.5

Есть несколько способов получить доступ к модели:

Qwen Chat — веб-интерфейс с режимами Auto (адаптивное мышление + инструменты), Thinking (глубокое рассуждение) и Fast (мгновенные ответы);
Alibaba Cloud ModelStudio — API-доступ к Qwen3.5-Plus с контекстом 1M токенов, встроенным веб-поиском и Code Interpreter через параметры enable_thinking и enable_search;
Hugging Face / ModelScope — open-weight версия Qwen3.5-397B-A17B для самостоятельного развёртывания.

Что дальше

По словам команды Qwen, следующий шаг — переход от масштабирования модели к системной интеграции: агенты с постоянной памятью между сессиями, самостоятельное улучшение, поддержка воплощённого ИИ (роботы, автопилоты) и экономическая осведомлённость. Цель — создать автономных партнёров, способных выполнять сложные многодневные задачи с опорой на ценности человека.

Qwen3.5: что умеет новый нативный мультимодальный агент от Alibaba

Что такое Qwen3.5 и почему это важно

Гибридная архитектура: много параметров, мало вычислений

Производительность: конкуренция с GPT-5.2, Claude 4.5 и Gemini-3

Нативная мультимодальность: что умеет модель

Мультиязычность: 201 язык и диалект

Инфраструктура обучения

Как попробовать Qwen3.5

Что дальше

ОтветитьОтменить ответ

Телеграм канал

Что такое Qwen3.5 и почему это важно

Гибридная архитектура: много параметров, мало вычислений

Производительность: конкуренция с GPT-5.2, Claude 4.5 и Gemini-3

Нативная мультимодальность: что умеет модель

Мультиязычность: 201 язык и диалект

Инфраструктура обучения

Как попробовать Qwen3.5

Что дальше

Справка по сервисам и приложениям:

Связанные записи

ОтветитьОтменить ответ