NVIDIA Nemotron 3 Ultra 550B: открытая MoE-модель с контекстом 1 млн токенов для ИИ-агентов

NVIDIA Nemotron 3 Ultra 550B: флагманская MoE-модель для управления ИИ-агентами

Новости

Введение

На выставке Computex 2026 компания NVIDIA официально анонсировала семейство моделей Nemotron 3 Ultra — новое поколение нейронных сетей с открытыми весами, ориентированных на координацию и управление долгоживущими ИИ-агентами. Флагманом линейки стала модель Nemotron 3 Ultra 550B с 550 миллиардами суммарных и 55 миллиардами активных параметров на архитектуре Mixture of Experts (MoE).

Одновременно с основной моделью NVIDIA представила два дополнительных решения:

Nemotron 3.5 Content Safety — 4-миллиардная модель для фильтрации нежелательного контента с поддержкой 12 языков;
Nemotron 3.5 ASR — потоковая модель распознавания речи на 40+ языках с задержкой менее 100 мс.

Все три модели распространяются с полностью открытыми весами, доступны на Hugging Face и поддерживаются в различных средах развёртывания NVIDIA.

Архитектура и технические особенности Nemotron 3 Ultra 550B

Nemotron 3 Ultra 550B разработана с прицелом на агентные пайплайны, где требуется глубокий анализ, многошаговое планирование и принятие решений. Принцип работы строится на разделении труда: тяжёлая модель подключается только на этапах, требующих интеллектуальных рассуждений, тогда как рутинные вызовы инструментов и верификацию берут на себя более компактные, экономичные модели. Это позволяет радикально сократить расход токенов и ускорить отклик агентной системы в целом.

В основе Nemotron 3 Ultra 550B лежит гибридная архитектура Transformer-Mamba:

трансформерные слои отвечают за извлечение и структурирование информации;
слои Mamba оптимизированы для работы с длинными последовательностями без экспоненциального роста вычислительных затрат.

Дополнительные архитектурные особенности модели:

Квантование NVFP4 — единая контрольная точка запускается на трёх поколениях GPU NVIDIA (Ampere, Hopper, Blackwell); на Blackwell пропускная способность возрастает в 5 раз по сравнению с BF16;
LatentMoE — интеллектуальная маршрутизация между блоками рассуждений, генерации кода и вызовов инструментов;
Мультитокеновое предсказание (MTP) — ускоряет генерацию длинных цепочек ответов и снижает количество шагов инференса.

Обучение: данные и методология

Nemotron 3 Ultra 550B предобучалась на корпусе объёмом 10 триллионов основных токенов, к которым добавлено ещё 212 миллиардов специализированных токенов по профильным доменам. Постобучение включало:

тонкую настройку (SFT) на размеченных примерах;
масштабное дообучение с подкреплением (RL).

Примечательно, что NVIDIA опубликовала весь датасет для обучения в открытом доступе вместе с весами модели — что является редкостью для моделей такого масштаба.

Производительность и бенчмарки

Nemotron 3 Ultra 550B демонстрирует сильные результаты на ключевых агентных и отраслевых бенчмарках:

Бенчмарк	Результат
PinchBench (агентная оценка)	91% — наравне с Kimi K2.6 (1T параметров), выше Qwen3.5 (89%) и GLM 5.1 (84%)
EnterpriseOps-Gym (долгосрочное планирование)	33%
Terminal-Bench 2.0	54%
IFBench (следование инструкциям)	82%
ProfBench	56%

Отдельного внимания заслуживают показатели эффективности инференса:

Контекстное окно — 1 млн токенов, тогда как большинство конкурентов сопоставимого размера ограничены 256 тыс. токенов;
По данным Artificial Analysis, Nemotron 3 Ultra 550B генерирует ответы в 5 раз быстрее других открытых моделей того же класса;
Расход токенов на задачу снижается примерно на 30% — подтверждено на SWE-bench и Terminal-Bench 2.0.

Дополнительные модели семейства

Вместе с флагманом NVIDIA выпустила два узкоспециализированных решения.

Nemotron 3.5 Content Safety обеспечивает интеллектуальную модерацию выходных данных основной LLM: поддерживает более 23 категорий опасного контента, позволяет задавать пользовательские политики безопасности и формировать логические цепочки объяснений для принятых решений.

Nemotron 3.5 ASR — потоковая модель распознавания речи с задержкой менее 100 мс и поддержкой более 40 языков, предназначенная для голосовых интерфейсов в реальном времени.

Развёртывание и доступность

Nemotron 3 Ultra 550B и сопутствующие модели поддерживают следующие варианты развёртывания:

Ручная установка с весами от Hugging Face;
Агентные среды: Hermes Agent, OpenClaw, OpenShell, NemoClaw;
NIM-микросервис от NVIDIA для бесшовной интеграции в продакшен;
Пользовательская настройка через платформу NeMo.

Модель доступна у облачных провайдеров: AWS, Google Cloud, Microsoft Foundry, CoreWeave, DeepInfra, DigitalOcean, Fireworks AI, Together AI и других. Опробовать модель можно на Perplexity Pro, OpenRouter или через build.nvidia.com.

Доступные форматы весов: базовая модель, а также квантованные версии NVFP4, FP8 и FP16.

Все модели семейства Nemotron 3 распространяются под лицензией OpenMDW-1.1 Linux Foundation.

Выводы

NVIDIA Nemotron 3 Ultra 550B устанавливает новую планку для открытых моделей в сегменте агентного ИИ. Пятикратный выигрыш в скорости инференса, 30-процентная экономия токенов, контекстное окно в 1 миллион токенов и открытый стек — от весов и обучающих данных до рецептов RL — дают разработчикам полный контроль над развёртыванием без зависимости от закрытых API.

Параллельный выпуск Content Safety и многоязычного ASR закрывает два ключевых периметра: безопасность контента и голосовой интерфейс. В совокупности семейство Nemotron 3 превращается в законченную платформу для продакшен-агентов, способных часами вести рассуждения, работать с инструментами и удерживать контекст разговора на протяжении миллиона токенов.

Если вас интересует серверная инфраструктура для локального развёртывания подобных моделей — свяжитесь с нами, специалисты СервакМастер помогут подобрать оптимальное решение под ваши задачи.