NVIDIA Nemotron 3 Ultra 550B: флагманская MoE-модель для управления ИИ-агентами
Новости
Введение
На выставке Computex 2026 компания NVIDIA официально анонсировала семейство моделей Nemotron 3 Ultra — новое поколение нейронных сетей с открытыми весами, ориентированных на координацию и управление долгоживущими ИИ-агентами. Флагманом линейки стала модель Nemotron 3 Ultra 550B с 550 миллиардами суммарных и 55 миллиардами активных параметров на архитектуре Mixture of Experts (MoE).
Одновременно с основной моделью NVIDIA представила два дополнительных решения:
- Nemotron 3.5 Content Safety — 4-миллиардная модель для фильтрации нежелательного контента с поддержкой 12 языков;
- Nemotron 3.5 ASR — потоковая модель распознавания речи на 40+ языках с задержкой менее 100 мс.
Все три модели распространяются с полностью открытыми весами, доступны на Hugging Face и поддерживаются в различных средах развёртывания NVIDIA.
Архитектура и технические особенности Nemotron 3 Ultra 550B
Nemotron 3 Ultra 550B разработана с прицелом на агентные пайплайны, где требуется глубокий анализ, многошаговое планирование и принятие решений. Принцип работы строится на разделении труда: тяжёлая модель подключается только на этапах, требующих интеллектуальных рассуждений, тогда как рутинные вызовы инструментов и верификацию берут на себя более компактные, экономичные модели. Это позволяет радикально сократить расход токенов и ускорить отклик агентной системы в целом.
В основе Nemotron 3 Ultra 550B лежит гибридная архитектура Transformer-Mamba:
- трансформерные слои отвечают за извлечение и структурирование информации;
- слои Mamba оптимизированы для работы с длинными последовательностями без экспоненциального роста вычислительных затрат.
Дополнительные архитектурные особенности модели:
- Квантование NVFP4 — единая контрольная точка запускается на трёх поколениях GPU NVIDIA (Ampere, Hopper, Blackwell); на Blackwell пропускная способность возрастает в 5 раз по сравнению с BF16;
- LatentMoE — интеллектуальная маршрутизация между блоками рассуждений, генерации кода и вызовов инструментов;
- Мультитокеновое предсказание (MTP) — ускоряет генерацию длинных цепочек ответов и снижает количество шагов инференса.
Обучение: данные и методология
Nemotron 3 Ultra 550B предобучалась на корпусе объёмом 10 триллионов основных токенов, к которым добавлено ещё 212 миллиардов специализированных токенов по профильным доменам. Постобучение включало:
- тонкую настройку (SFT) на размеченных примерах;
- масштабное дообучение с подкреплением (RL).
Примечательно, что NVIDIA опубликовала весь датасет для обучения в открытом доступе вместе с весами модели — что является редкостью для моделей такого масштаба.
Производительность и бенчмарки
Nemotron 3 Ultra 550B демонстрирует сильные результаты на ключевых агентных и отраслевых бенчмарках:
| Бенчмарк | Результат |
|---|---|
| PinchBench (агентная оценка) | 91% — наравне с Kimi K2.6 (1T параметров), выше Qwen3.5 (89%) и GLM 5.1 (84%) |
| EnterpriseOps-Gym (долгосрочное планирование) | 33% |
| Terminal-Bench 2.0 | 54% |
| IFBench (следование инструкциям) | 82% |
| ProfBench | 56% |
Отдельного внимания заслуживают показатели эффективности инференса:
- Контекстное окно — 1 млн токенов, тогда как большинство конкурентов сопоставимого размера ограничены 256 тыс. токенов;
- По данным Artificial Analysis, Nemotron 3 Ultra 550B генерирует ответы в 5 раз быстрее других открытых моделей того же класса;
- Расход токенов на задачу снижается примерно на 30% — подтверждено на SWE-bench и Terminal-Bench 2.0.
Дополнительные модели семейства
Вместе с флагманом NVIDIA выпустила два узкоспециализированных решения.
Nemotron 3.5 Content Safety обеспечивает интеллектуальную модерацию выходных данных основной LLM: поддерживает более 23 категорий опасного контента, позволяет задавать пользовательские политики безопасности и формировать логические цепочки объяснений для принятых решений.
Nemotron 3.5 ASR — потоковая модель распознавания речи с задержкой менее 100 мс и поддержкой более 40 языков, предназначенная для голосовых интерфейсов в реальном времени.
Развёртывание и доступность
Nemotron 3 Ultra 550B и сопутствующие модели поддерживают следующие варианты развёртывания:
- Ручная установка с весами от Hugging Face;
- Агентные среды: Hermes Agent, OpenClaw, OpenShell, NemoClaw;
- NIM-микросервис от NVIDIA для бесшовной интеграции в продакшен;
- Пользовательская настройка через платформу NeMo.
Модель доступна у облачных провайдеров: AWS, Google Cloud, Microsoft Foundry, CoreWeave, DeepInfra, DigitalOcean, Fireworks AI, Together AI и других. Опробовать модель можно на Perplexity Pro, OpenRouter или через build.nvidia.com.
Доступные форматы весов: базовая модель, а также квантованные версии NVFP4, FP8 и FP16.
Все модели семейства Nemotron 3 распространяются под лицензией OpenMDW-1.1 Linux Foundation.
Выводы
NVIDIA Nemotron 3 Ultra 550B устанавливает новую планку для открытых моделей в сегменте агентного ИИ. Пятикратный выигрыш в скорости инференса, 30-процентная экономия токенов, контекстное окно в 1 миллион токенов и открытый стек — от весов и обучающих данных до рецептов RL — дают разработчикам полный контроль над развёртыванием без зависимости от закрытых API.
Параллельный выпуск Content Safety и многоязычного ASR закрывает два ключевых периметра: безопасность контента и голосовой интерфейс. В совокупности семейство Nemotron 3 превращается в законченную платформу для продакшен-агентов, способных часами вести рассуждения, работать с инструментами и удерживать контекст разговора на протяжении миллиона токенов.
Если вас интересует серверная инфраструктура для локального развёртывания подобных моделей — свяжитесь с нами, специалисты СервакМастер помогут подобрать оптимальное решение под ваши задачи.
