ROCm RDMA и Peer-to-Peer: как AMD реализовала аналог GPUDirect для ускорителей Instinct
Введение
Технология GPUDirect от NVIDIA давно стала стандартом de facto для высокоскоростного обмена данными между GPU и периферийными устройствами в HPC и ИИ-кластерах. Однако она работает исключительно в проприетарной экосистеме NVIDIA и не распространяется на продукцию других производителей. Возникает закономерный вопрос: что использовать в вычислительных инфраструктурах, построенных на ИИ-ускорителях AMD? Ответ дала сама AMD: в 2018 году компания выпустила собственный аналог — программный стек ROCm RDMA, вошедший в состав ROCm 3.0 и всех последующих версий платформы. В этой статье специалисты СервакМастер подробно объяснят, как устроены ROCm RDMA и Peer-to-Peer, чем они отличаются друг от друга и где применяются на практике.
Что такое GPUDirect и зачем AMD понадобился его аналог
GPUDirect — это набор технологий NVIDIA, позволяющих периферийным устройствам (GPU, сетевым адаптерам NIC, накопителям NVMe SSD) напрямую обращаться к памяти GPU, полностью обходя системную RAM и CPU. Главные преимущества такого подхода:
- существенное снижение задержки передачи данных;
- увеличение эффективной пропускной способности;
- разгрузка центрального процессора от операций копирования данных.
Поскольку GPUDirect поддерживается только коммерческими ускорителями NVIDIA, пользователи оборудования AMD (ускорители серии Instinct и платформа ROCm) лишены этой возможности. Между тем наличие аналогичных по функциональности механизмов критически необходимо для применения GPU AMD в секторах HPC и ИИ. Именно поэтому AMD разработала ROCm RDMA — технологию, закрывающую этот пробел и обеспечивающую конкурентоспособность ускорителей Instinct на требовательных рынках суперкомпьютеров и генеративного ИИ.
AMD ROCm RDMA: прямой доступ к памяти GPU через сеть
ROCm с поддержкой Remote Direct Memory Access (RDMA) предоставляет совместимым сетевым адаптерам — использующим протоколы InfiniBand или RDMA over Converged Ethernet (RoCE) — возможность напрямую читать и записывать данные в HBM-память GPU на удалённых узлах вычислительного кластера.
Принцип работы аналогичен GPUDirect RDMA: сетевой адаптер взаимодействует с памятью GPU напрямую через шину PCIe, задействуя собственные DMA-движки. Передаваемые данные полностью обходят оперативную память CPU как на отправляющей, так и на принимающей стороне. Это обеспечивает:
- минимальные задержки при передаче данных между узлами кластера;
- высокую пропускную способность даже при работе тысяч GPU AMD Instinct в параллельном режиме;
- эффективную синхронизацию параметров ИИ-моделей без bottleneck на стороне CPU.
Реализация ROCm RDMA достигается за счёт глубокой интеграции трёх компонентов: драйверов программного стека ROCm, драйверов RDMA-адаптеров (UltraEthernet, RoCE) и высокоуровневых API-библиотек.
Peer-to-Peer и Zero-Copy в ROCm: оптимизация внутри одного сервера
Помимо сетевого RDMA, программный стек AMD предоставляет два ключевых механизма для ускорения обмена данными внутри отдельного узла:
Peer-to-Peer (P2P) Access
Это прямой аналог GPUDirect Peer-to-Peer. Механизм позволяет нескольким GPU AMD Instinct, установленным в одном сервере и подключённым к общей шине PCIe, обмениваться данными непосредственно между своими HBM-буферами — без промежуточного копирования в системную RAM CPU.
Преимущества P2P Access особенно заметны в следующих сценариях:
- Multi-GPU обучение нейронных сетей — резкое сокращение задержек при синхронизации градиентов между несколькими ускорителями в одном узле;
- Сложные физические симуляции — ускорение обмена промежуточными результатами между GPU, решающими смежные части задачи;
- Параллельный инференс — снижение накладных расходов на коммуникацию при обслуживании крупных LLM-моделей, разбитых по нескольким ускорителям.
Zero-Copy
Механизм Zero-Copy оптимизирует взаимодействие между CPU и GPU. Он позволяет процессору напрямую обращаться к выделенным буферам в памяти GPU (и наоборот) через единое адресное пространство, не прибегая к явному копированию данных между RAM CPU и HBM GPU.
Хотя Zero-Copy не исключает участия CPU полностью (в отличие от чистого P2P GPU-GPU или RDMA), эта технология существенно ускоряет работу для определённых паттернов доступа:
- частые мелкие обновления данных на стороне GPU со стороны CPU;
- сценарии, где CPU и GPU поочерёдно обрабатывают один и тот же набор данных;
- задачи с неравномерным размером передаваемых блоков.
Zero-Copy в системах на базе RDMA RoCE обеспечивает заметный прирост скорости передачи данных и снижение задержек по сравнению с классической схемой с промежуточным копированием.
Infinity Fabric: аппаратная основа экосистемы AMD
Аппаратной магистралью, обеспечивающей высокоскоростное когерентное взаимодействие компонентов в системах AMD, служит интерконнект Infinity Fabric. В серверных платформах на базе процессоров EPYC и ускорителей серии Instinct MI300 Infinity Fabric выполняет роль высокоскоростной когерентной шины, объединяющей CPU, GPU и блоки памяти.
Ключевым элементом для связи между GPU выступают Infinity Fabric Links — специализированные прямые соединения, аналогичные NVLink у NVIDIA. Они напрямую связывают ускорители Instinct между собой в рамках одного узла или между соседними узлами в стойке (в том числе с использованием Infinity Fabric over Ethernet). Пропускная способность Infinity Fabric Links значительно превышает возможности PCIe, а задержки при этом минимальны.
Именно Infinity Fabric позволяет AMD строить эффективные мульти-GPU-системы без узких мест на уровне межсоединений. Флагманский пример — ускоритель AMD Instinct MI300A, в котором CPU EPYC и GPU объединены на одном кристалле через Infinity Fabric с унифицированным пулом памяти HBM3. Такая архитектура является прямым конкурентом суперчипов NVIDIA GB200 и обеспечивает исключительную производительность при минимальных задержках обмена данными между вычислительными блоками.
Применение ROCm RDMA и P2P в реальных сценариях
Технологии прямого доступа ROCm RDMA и P2P применяются в самых требовательных к латентности и пропускной способности секторах:
Экзафлопсные суперкомпьютеры
Наиболее показательные примеры — суперкомпьютеры Frontier и El Capitan, построенные на базе процессоров AMD EPYC и ускорителей AMD Instinct (MI250X на Frontier, MI300A на El Capitan). ROCm RDMA через InfiniBand и высокоскоростные соединения Infinity Fabric обеспечивают рекордную производительность при проведении научных симуляций ядерных процессов, климатических моделей и задач вычислительной биологии, требующих обработки петабайтных массивов данных.
Обучение больших языковых моделей (LLM)
Ускорители Instinct MI300X с объёмом памяти HBM3 до 192 ГБ и полной поддержкой ROCm P2P/RDMA идеально подходят для обучения крупных языковых и мультимодальных моделей. Прямой высокоскоростной доступ к памяти и широкая полоса пропускания между GPU внутри узла и между узлами значительно сокращают время на:
- распространение градиентов при обратном распространении ошибки;
- синхронизацию весов модели между всеми участниками обучения;
- обмен активациями в pipeline-параллелизме.
Коммерческие вычислительные кластеры
Платформа ROCm включает оптимизированную библиотеку коллективных коммуникаций RCCL (ROCm Communication Collectives Library) — прямой аналог NCCL от NVIDIA. В связке с поддержкой MPI-aware ROCm (аналог CUDA-aware MPI) это позволяет эффективно масштабировать коммерческие кластерные инфраструктуры на базе ускорителей AMD Instinct. Для переноса существующего CUDA-кода на платформу AMD предусмотрена технология ROCm HIP (Heterogeneous-compute Interface for Portability), существенно снижающая стоимость миграции рабочих нагрузок.
Выводы
Несмотря на то что бренд GPUDirect прочно закрепился в индустрии HPC и ИИ, экосистема AMD ROCm предлагает полноценный высокоэффективный ответ на этот вызов:
- ROCm RDMA — для прямого сетевого доступа к памяти GPU в распределённых кластерах;
- Peer-to-Peer — для ускорения внутрисерверных GPU-GPU коммуникаций;
- Zero-Copy — для оптимизации взаимодействия CPU и GPU без лишних операций копирования.
Аппаратный фундамент в виде Infinity Fabric, особенно в передовых ускорителях серии Instinct MI300, в сочетании с развитым программным стеком ROCm (библиотеки RCCL, HIP, MPI-aware интеграция) делает AMD серьёзным и полноправным игроком на рынке HPC и генеративного ИИ. Наличие двух конкурирующих, технологически зрелых решений от AMD и NVIDIA стимулирует инновации во всей индустрии, снижает стоимость владения инфраструктурой и предоставляет пользователям реальную свободу выбора оптимальной платформы.
Если вас интересует подбор серверного оборудования на базе GPU AMD Instinct для HPC или ИИ-задач — свяжитесь с нами в СервакМастер, и наши специалисты помогут сформировать оптимальную конфигурацию.
