ROCm RDMA и Peer-to-Peer: как AMD реализовала аналог GPUDirect для ускорителей Instinct

Введение

Технология GPUDirect от NVIDIA давно стала стандартом de facto для высокоскоростного обмена данными между GPU и периферийными устройствами в HPC и ИИ-кластерах. Однако она работает исключительно в проприетарной экосистеме NVIDIA и не распространяется на продукцию других производителей. Возникает закономерный вопрос: что использовать в вычислительных инфраструктурах, построенных на ИИ-ускорителях AMD? Ответ дала сама AMD: в 2018 году компания выпустила собственный аналог — программный стек ROCm RDMA, вошедший в состав ROCm 3.0 и всех последующих версий платформы. В этой статье специалисты СервакМастер подробно объяснят, как устроены ROCm RDMA и Peer-to-Peer, чем они отличаются друг от друга и где применяются на практике.

Что такое GPUDirect и зачем AMD понадобился его аналог

GPUDirect — это набор технологий NVIDIA, позволяющих периферийным устройствам (GPU, сетевым адаптерам NIC, накопителям NVMe SSD) напрямую обращаться к памяти GPU, полностью обходя системную RAM и CPU. Главные преимущества такого подхода:

существенное снижение задержки передачи данных;
увеличение эффективной пропускной способности;
разгрузка центрального процессора от операций копирования данных.

Поскольку GPUDirect поддерживается только коммерческими ускорителями NVIDIA, пользователи оборудования AMD (ускорители серии Instinct и платформа ROCm) лишены этой возможности. Между тем наличие аналогичных по функциональности механизмов критически необходимо для применения GPU AMD в секторах HPC и ИИ. Именно поэтому AMD разработала ROCm RDMA — технологию, закрывающую этот пробел и обеспечивающую конкурентоспособность ускорителей Instinct на требовательных рынках суперкомпьютеров и генеративного ИИ.

AMD ROCm RDMA: прямой доступ к памяти GPU через сеть

ROCm с поддержкой Remote Direct Memory Access (RDMA) предоставляет совместимым сетевым адаптерам — использующим протоколы InfiniBand или RDMA over Converged Ethernet (RoCE) — возможность напрямую читать и записывать данные в HBM-память GPU на удалённых узлах вычислительного кластера.

Принцип работы аналогичен GPUDirect RDMA: сетевой адаптер взаимодействует с памятью GPU напрямую через шину PCIe, задействуя собственные DMA-движки. Передаваемые данные полностью обходят оперативную память CPU как на отправляющей, так и на принимающей стороне. Это обеспечивает:

минимальные задержки при передаче данных между узлами кластера;
высокую пропускную способность даже при работе тысяч GPU AMD Instinct в параллельном режиме;
эффективную синхронизацию параметров ИИ-моделей без bottleneck на стороне CPU.

Реализация ROCm RDMA достигается за счёт глубокой интеграции трёх компонентов: драйверов программного стека ROCm, драйверов RDMA-адаптеров (UltraEthernet, RoCE) и высокоуровневых API-библиотек.

Peer-to-Peer и Zero-Copy в ROCm: оптимизация внутри одного сервера

Помимо сетевого RDMA, программный стек AMD предоставляет два ключевых механизма для ускорения обмена данными внутри отдельного узла:

Peer-to-Peer (P2P) Access

Это прямой аналог GPUDirect Peer-to-Peer. Механизм позволяет нескольким GPU AMD Instinct, установленным в одном сервере и подключённым к общей шине PCIe, обмениваться данными непосредственно между своими HBM-буферами — без промежуточного копирования в системную RAM CPU.

Преимущества P2P Access особенно заметны в следующих сценариях:

Multi-GPU обучение нейронных сетей — резкое сокращение задержек при синхронизации градиентов между несколькими ускорителями в одном узле;
Сложные физические симуляции — ускорение обмена промежуточными результатами между GPU, решающими смежные части задачи;
Параллельный инференс — снижение накладных расходов на коммуникацию при обслуживании крупных LLM-моделей, разбитых по нескольким ускорителям.

Zero-Copy

Механизм Zero-Copy оптимизирует взаимодействие между CPU и GPU. Он позволяет процессору напрямую обращаться к выделенным буферам в памяти GPU (и наоборот) через единое адресное пространство, не прибегая к явному копированию данных между RAM CPU и HBM GPU.

Хотя Zero-Copy не исключает участия CPU полностью (в отличие от чистого P2P GPU-GPU или RDMA), эта технология существенно ускоряет работу для определённых паттернов доступа:

частые мелкие обновления данных на стороне GPU со стороны CPU;
сценарии, где CPU и GPU поочерёдно обрабатывают один и тот же набор данных;
задачи с неравномерным размером передаваемых блоков.

Zero-Copy в системах на базе RDMA RoCE обеспечивает заметный прирост скорости передачи данных и снижение задержек по сравнению с классической схемой с промежуточным копированием.

Infinity Fabric: аппаратная основа экосистемы AMD

Аппаратной магистралью, обеспечивающей высокоскоростное когерентное взаимодействие компонентов в системах AMD, служит интерконнект Infinity Fabric. В серверных платформах на базе процессоров EPYC и ускорителей серии Instinct MI300 Infinity Fabric выполняет роль высокоскоростной когерентной шины, объединяющей CPU, GPU и блоки памяти.

Ключевым элементом для связи между GPU выступают Infinity Fabric Links — специализированные прямые соединения, аналогичные NVLink у NVIDIA. Они напрямую связывают ускорители Instinct между собой в рамках одного узла или между соседними узлами в стойке (в том числе с использованием Infinity Fabric over Ethernet). Пропускная способность Infinity Fabric Links значительно превышает возможности PCIe, а задержки при этом минимальны.

Именно Infinity Fabric позволяет AMD строить эффективные мульти-GPU-системы без узких мест на уровне межсоединений. Флагманский пример — ускоритель AMD Instinct MI300A, в котором CPU EPYC и GPU объединены на одном кристалле через Infinity Fabric с унифицированным пулом памяти HBM3. Такая архитектура является прямым конкурентом суперчипов NVIDIA GB200 и обеспечивает исключительную производительность при минимальных задержках обмена данными между вычислительными блоками.

Применение ROCm RDMA и P2P в реальных сценариях

Технологии прямого доступа ROCm RDMA и P2P применяются в самых требовательных к латентности и пропускной способности секторах:

Экзафлопсные суперкомпьютеры

Наиболее показательные примеры — суперкомпьютеры Frontier и El Capitan, построенные на базе процессоров AMD EPYC и ускорителей AMD Instinct (MI250X на Frontier, MI300A на El Capitan). ROCm RDMA через InfiniBand и высокоскоростные соединения Infinity Fabric обеспечивают рекордную производительность при проведении научных симуляций ядерных процессов, климатических моделей и задач вычислительной биологии, требующих обработки петабайтных массивов данных.

Обучение больших языковых моделей (LLM)

Ускорители Instinct MI300X с объёмом памяти HBM3 до 192 ГБ и полной поддержкой ROCm P2P/RDMA идеально подходят для обучения крупных языковых и мультимодальных моделей. Прямой высокоскоростной доступ к памяти и широкая полоса пропускания между GPU внутри узла и между узлами значительно сокращают время на:

распространение градиентов при обратном распространении ошибки;
синхронизацию весов модели между всеми участниками обучения;
обмен активациями в pipeline-параллелизме.

Коммерческие вычислительные кластеры

Платформа ROCm включает оптимизированную библиотеку коллективных коммуникаций RCCL (ROCm Communication Collectives Library) — прямой аналог NCCL от NVIDIA. В связке с поддержкой MPI-aware ROCm (аналог CUDA-aware MPI) это позволяет эффективно масштабировать коммерческие кластерные инфраструктуры на базе ускорителей AMD Instinct. Для переноса существующего CUDA-кода на платформу AMD предусмотрена технология ROCm HIP (Heterogeneous-compute Interface for Portability), существенно снижающая стоимость миграции рабочих нагрузок.

Выводы

Несмотря на то что бренд GPUDirect прочно закрепился в индустрии HPC и ИИ, экосистема AMD ROCm предлагает полноценный высокоэффективный ответ на этот вызов:

ROCm RDMA — для прямого сетевого доступа к памяти GPU в распределённых кластерах;
Peer-to-Peer — для ускорения внутрисерверных GPU-GPU коммуникаций;
Zero-Copy — для оптимизации взаимодействия CPU и GPU без лишних операций копирования.

Аппаратный фундамент в виде Infinity Fabric, особенно в передовых ускорителях серии Instinct MI300, в сочетании с развитым программным стеком ROCm (библиотеки RCCL, HIP, MPI-aware интеграция) делает AMD серьёзным и полноправным игроком на рынке HPC и генеративного ИИ. Наличие двух конкурирующих, технологически зрелых решений от AMD и NVIDIA стимулирует инновации во всей индустрии, снижает стоимость владения инфраструктурой и предоставляет пользователям реальную свободу выбора оптимальной платформы.

Если вас интересует подбор серверного оборудования на базе GPU AMD Instinct для HPC или ИИ-задач — свяжитесь с нами в СервакМастер, и наши специалисты помогут сформировать оптимальную конфигурацию.