GLM-5.2 от Z.ai: открытая модель на 753 млрд параметров с контекстом 1 млн токенов опережает Fable 5 на Design Arena

GLM-5.2: флагманская открытая модель Z.ai с рекордным контекстом и боевыми результатами

Введение

Китайский ИИ-стартап Z.ai открыл исходный код своей флагманской языковой модели GLM-5.2, которая несколькими днями ранее появилась в облачном API компании. Релиз произвёл настоящий переполох в профессиональном сообществе: новинка не просто конкурирует с лучшими открытыми моделями — она впервые в истории поставила открытую LLM на первое место в авторитетном рейтинге Design Arena, обойдя закрытый флагман Claude Fable 5. Редакция СервакМастер разобралась в деталях архитектуры и цифрах бенчмарков.

Архитектура и ключевые параметры GLM-5.2

GLM-5.2 построена на архитектуре Mixture of Experts (MoE): совокупное число параметров составляет 753 миллиарда, из которых в каждый момент активны около 98 миллиардов. Такое соотношение позволяет получить качество полновесной модели при значительно меньших вычислительных затратах на инференс.

Главная техническая особенность — сплошное контекстное окно в 1 миллион токенов без разбивки на чанки и без деградации качества внимания по мере роста длины входа. Это открывает практические сценарии, которые прежде были недостижимы: обработка целых кодовых баз в одном запросе, анализ объёмных баз данных, сравнение больших документов без потери связей между дальними фрагментами.

Механизм IndexShare: как удалось удешевить миллион токенов

Масштабирование контекста стало возможным благодаря механизму IndexShare. Его суть — один общий индексатор (компонент разреженного внимания) обслуживает каждые четыре разреженных слоя внимания, а не каждый в отдельности. Результат по сравнению с GLM-5.1: снижение числа операций на токен в 2,9 раза при максимальной длине контекста. Иными словами, обработка миллиона токенов превращается из дорогостоящей экзотики в стандартный рабочий режим.

Ускоренный инференс через Multi-Token Prediction

В GLM-5.2 переработан слой Multi-Token Prediction для спекулятивного декодирования. Допустимая длина генерируемого блока ответа выросла на 20% относительно GLM-5.1, что напрямую ускоряет инференс в многошаговых агентных задачах и долгих сессиях программирования — без каких-либо дополнительных требований к железу на стороне пользователя.

Режимы работы и форматы весов

Z.ai предоставляет два режима для задач кодирования:

Max — максимальная точность ответа, рекомендуется там, где ошибка неприемлема.
High — сниженная задержка при высоком (но не максимальном) качестве, удобен для итеративной разработки и интерактивных сред.

По форматам весов доступны два варианта:

FP8 — квантизованная версия, требующая 754 ГБ памяти. Значительно снижает инфраструктурные затраты при минимальной потере качества; оптимальна для продуктивного развёртывания.
BF16 — полные веса, требующие 1,5 ТБ памяти. Подходит для дообучения, исследований и экспериментов с архитектурой.

Оба варианта опубликованы под лицензией MIT и доступны на Hugging Face.

Результаты бенчмарков

Именно цифры сделали релиз резонансным. Рассмотрим ключевые срезы:

Design Arena

GLM-5.2 набрала 1360 очков Elo, обойдя Claude Fable 5 (1350 очков) и заняв первое место в рейтинге. Это первый случай, когда открытая модель возглавила Design Arena.

FrontierSWE (длинные инженерные задачи)

GLM-5.2: 74,4% — второй результат после Opus 4.8 (75,1%)
Выше GPT-5.5 и Opus 4.7

Terminal-Bench 2.1

GLM-5.2: 81,0%
GLM-5.1: 63,5% (+17,5 п.п.)
Opus 4.8: 85,0% (разрыв сократился до 4 п.п.)

SWE-bench Pro

GLM-5.2: 62,1%
GLM-5.1: 58,4%
Opus 4.8: 69,2%

На PostTrainBench и SWE-Marathon модель стабильно занимает второе место среди всех протестированных систем, оставаясь безусловным лидером среди открытых решений. Разработчики Z.ai позиционируют GLM-5.2 как модель, качественно располагающуюся между Opus 4.7 и Opus 4.8 при сопоставимом расходе токенов на задачу.

Почему это важно для корпоративных пользователей

Релиз GLM-5.2 пришёлся на момент, когда Fable 5 была ограничена по экспортным причинам — и её место на вершине арены немедленно заняла открытая модель, доступная любой компании без территориальных барьеров и лицензионных отчислений.

Для инфраструктурных решений это означает следующее:

Полный контроль над моделью: возможность дообучения, fine-tuning на корпоративных данных, развёртывание в изолированном контуре.
Отсутствие зависимости от внешнего API: модель работает на собственных серверах, что критично для финансовых, государственных и медицинских задач.
Прозрачность архитектуры: открытый исходный код позволяет проводить аудит поведения модели.

Вместе с тем разрыв с Opus 4.8 на ряде задач (полный спектр SWE-bench, NL2Repo) сохраняется, и достичь паритета с закрытым фронтиром пока не удалось.

Выводы

GLM-5.2 — серьёзный шаг вперёд для всей экосистемы открытых LLM. Первое место на Design Arena, второй результат по FrontierSWE, кратный прирост по Terminal-Bench и лицензия MIT делают модель реальной альтернативой коммерческим API для задач программирования и анализа данных. Командам, которым важен контроль над инфраструктурой и независимость от конкретного провайдера, стоит обратить на неё пристальное внимание.

По вопросам подбора серверного оборудования для развёртывания LLM — свяжитесь с нами через СервакМастер.

Автор: редакция СервакМастер