Alibaba выпустила Qwen3.5 — новое поколение открытых языковых моделей с нативной мультимодальностью, нацеленных на автономных ИИ-агентов. Флагман серии, Qwen3.5-397B-A17B, уже доступен на Hugging Face и через Alibaba Cloud ModelStudio.
Что такое Qwen3.5 и почему это важно
Qwen3.5 — это первая модель в новой серии от команды Qwen (Alibaba). Ключевое отличие от предыдущего поколения: модель является нативно мультимодальной, то есть обрабатывает текст, изображения и видео единым образом с самого начала обучения (early fusion), а не через отдельные модули. Это делает её значительно эффективнее в задачах агентов, визуального понимания и рассуждений.
Гибридная архитектура: много параметров, мало вычислений
Qwen3.5-397B-A17B имеет 397 миллиардов параметров, однако в каждом проходе активируется лишь 17 миллиардов. Это достигается за счёт инновационной гибридной архитектуры, объединяющей:
- Линейное внимание — через механизм Gated Delta Networks;
- Sparse Mixture-of-Experts (MoE) — разреженная активация экспертов.
В результате скорость декодирования в 8,6–19 раз превышает Qwen3-Max при сопоставимом качестве. По сравнению с Qwen3-235B-A22B — ускорение в 3,5–7,2 раза.
Производительность: конкуренция с GPT-5.2, Claude 4.5 и Gemini-3
Qwen3.5-397B-A17B демонстрирует результаты, сравнимые с лучшими коммерческими моделями в широком спектре задач:
- MMLU-Pro (знания): 87,8 — выше, чем у GPT-5.2 (87,4);
- MMMU (мультимодальность): 85,0 — выше Claude 4.5 Opus (80,7);
- BFCL-V4 (агентские задачи): 72,9 — выше GPT-5.2 (63,1);
- OCRBench (распознавание текста): 93,1 — один из лучших результатов;
- MathVision (математика по изображению): 88,6 — выше всех конкурентов в таблице;
- VideoMME (видеопонимание): 87,5 — уровень лидеров рынка.
Нативная мультимодальность: что умеет модель
Qwen3.5 демонстрирует практические сценарии применения в роли мультимодального агента:
- Visual Coding — преобразование скриншотов UI или видеозаписей геймплея в рабочий HTML/CSS-код;
- GUI Agents — управление смартфоном или компьютером по голосовым инструкциям;
- Spatial Intelligence — подсчёт объектов, определение пространственных отношений, понимание сцен для автопилота;
- Thinking with Images — решение визуальных задач (лабиринты, головоломки) с использованием кода и рассуждений;
- Coding & Agents — интеграция с Qwen Code, OpenClaw, Cline и другими инструментами для «vibe coding».
Контекстное окно модели расширено до 1 миллиона токенов, что позволяет обрабатывать до двух часов видео.
Мультиязычность: 201 язык и диалект
По сравнению с предыдущим поколением (119 языков), Qwen3.5 расширила поддержку до 201 языка и диалекта. Словарь вырос со 150k до 250k токенов, что ускоряет кодирование и декодирование текста на 10–60% в большинстве языков. Особый акцент сделан на языках с малыми ресурсами — включены диалекты хинди, арабского, нигерийский пиджин, суахили, зулу и многие другие.
Инфраструктура обучения
За производительностью стоит масштабная инфраструктура. Ключевые элементы:
- Гетерогенное распределённое обучение — разделение стратегий параллелизма для визуальных и языковых компонентов, что обеспечивает ~100% пропускную способность на смешанных данных (текст + изображения + видео);
- FP8-пайплайн — низкоточные вычисления с мониторингом чувствительных слоёв, снижает расход памяти на ~50% и ускоряет обучение более чем на 10%;
- Асинхронный RL-фреймворк — полностью разделённая архитектура обучения и инференса с динамической балансировкой нагрузки, даёт ускорение в 3–5 раз.
Как попробовать Qwen3.5
Есть несколько способов получить доступ к модели:
- Qwen Chat — веб-интерфейс с режимами Auto (адаптивное мышление + инструменты), Thinking (глубокое рассуждение) и Fast (мгновенные ответы);
- Alibaba Cloud ModelStudio — API-доступ к Qwen3.5-Plus с контекстом 1M токенов, встроенным веб-поиском и Code Interpreter через параметры
enable_thinkingиenable_search; - Hugging Face / ModelScope — open-weight версия Qwen3.5-397B-A17B для самостоятельного развёртывания.
Что дальше
По словам команды Qwen, следующий шаг — переход от масштабирования модели к системной интеграции: агенты с постоянной памятью между сессиями, самостоятельное улучшение, поддержка воплощённого ИИ (роботы, автопилоты) и экономическая осведомлённость. Цель — создать автономных партнёров, способных выполнять сложные многодневные задачи с опорой на ценности человека.