Qwen3.5: что умеет новый нативный мультимодальный агент от Alibaba

Alibaba выпустила Qwen3.5 — новое поколение открытых языковых моделей с нативной мультимодальностью, нацеленных на автономных ИИ-агентов. Флагман серии, Qwen3.5-397B-A17B, уже доступен на Hugging Face и через Alibaba Cloud ModelStudio.

Что такое Qwen3.5 и почему это важно

Qwen3.5 — это первая модель в новой серии от команды Qwen (Alibaba). Ключевое отличие от предыдущего поколения: модель является нативно мультимодальной, то есть обрабатывает текст, изображения и видео единым образом с самого начала обучения (early fusion), а не через отдельные модули. Это делает её значительно эффективнее в задачах агентов, визуального понимания и рассуждений.

Гибридная архитектура: много параметров, мало вычислений

Qwen3.5-397B-A17B имеет 397 миллиардов параметров, однако в каждом проходе активируется лишь 17 миллиардов. Это достигается за счёт инновационной гибридной архитектуры, объединяющей:

  • Линейное внимание — через механизм Gated Delta Networks;
  • Sparse Mixture-of-Experts (MoE) — разреженная активация экспертов.

В результате скорость декодирования в 8,6–19 раз превышает Qwen3-Max при сопоставимом качестве. По сравнению с Qwen3-235B-A22B — ускорение в 3,5–7,2 раза.

Производительность: конкуренция с GPT-5.2, Claude 4.5 и Gemini-3

Qwen3.5-397B-A17B демонстрирует результаты, сравнимые с лучшими коммерческими моделями в широком спектре задач:

  • MMLU-Pro (знания): 87,8 — выше, чем у GPT-5.2 (87,4);
  • MMMU (мультимодальность): 85,0 — выше Claude 4.5 Opus (80,7);
  • BFCL-V4 (агентские задачи): 72,9 — выше GPT-5.2 (63,1);
  • OCRBench (распознавание текста): 93,1 — один из лучших результатов;
  • MathVision (математика по изображению): 88,6 — выше всех конкурентов в таблице;
  • VideoMME (видеопонимание): 87,5 — уровень лидеров рынка.

Нативная мультимодальность: что умеет модель

Qwen3.5 демонстрирует практические сценарии применения в роли мультимодального агента:

  • Visual Coding — преобразование скриншотов UI или видеозаписей геймплея в рабочий HTML/CSS-код;
  • GUI Agents — управление смартфоном или компьютером по голосовым инструкциям;
  • Spatial Intelligence — подсчёт объектов, определение пространственных отношений, понимание сцен для автопилота;
  • Thinking with Images — решение визуальных задач (лабиринты, головоломки) с использованием кода и рассуждений;
  • Coding & Agents — интеграция с Qwen Code, OpenClaw, Cline и другими инструментами для «vibe coding».

Контекстное окно модели расширено до 1 миллиона токенов, что позволяет обрабатывать до двух часов видео.

Мультиязычность: 201 язык и диалект

По сравнению с предыдущим поколением (119 языков), Qwen3.5 расширила поддержку до 201 языка и диалекта. Словарь вырос со 150k до 250k токенов, что ускоряет кодирование и декодирование текста на 10–60% в большинстве языков. Особый акцент сделан на языках с малыми ресурсами — включены диалекты хинди, арабского, нигерийский пиджин, суахили, зулу и многие другие.

Инфраструктура обучения

За производительностью стоит масштабная инфраструктура. Ключевые элементы:

  • Гетерогенное распределённое обучение — разделение стратегий параллелизма для визуальных и языковых компонентов, что обеспечивает ~100% пропускную способность на смешанных данных (текст + изображения + видео);
  • FP8-пайплайн — низкоточные вычисления с мониторингом чувствительных слоёв, снижает расход памяти на ~50% и ускоряет обучение более чем на 10%;
  • Асинхронный RL-фреймворк — полностью разделённая архитектура обучения и инференса с динамической балансировкой нагрузки, даёт ускорение в 3–5 раз.

Как попробовать Qwen3.5

Есть несколько способов получить доступ к модели:

  • Qwen Chat — веб-интерфейс с режимами Auto (адаптивное мышление + инструменты), Thinking (глубокое рассуждение) и Fast (мгновенные ответы);
  • Alibaba Cloud ModelStudio — API-доступ к Qwen3.5-Plus с контекстом 1M токенов, встроенным веб-поиском и Code Interpreter через параметры enable_thinking и enable_search;
  • Hugging Face / ModelScope — open-weight версия Qwen3.5-397B-A17B для самостоятельного развёртывания.

Что дальше

По словам команды Qwen, следующий шаг — переход от масштабирования модели к системной интеграции: агенты с постоянной памятью между сессиями, самостоятельное улучшение, поддержка воплощённого ИИ (роботы, автопилоты) и экономическая осведомлённость. Цель — создать автономных партнёров, способных выполнять сложные многодневные задачи с опорой на ценности человека.

Фото аватара

Сергей Шац

Специализация: ZeroCode, NoCode, LowCode
Современные подходы интеграции систем

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *