Восемь NVIDIA Tesla P100 в ComfyUI: параллельная генерация изображений и видео на сервере СервакМастер

Введение

В предыдущем материале мы уже разбирали, как сервер с восемью Tesla P100 справляется с текстовыми нейросетевыми моделями. Логичный следующий шаг — посмотреть, что та же машина даст при генерации изображений и видеороликов. В этой статье команда СервакМастер проверяет возможности восьми видеоускорителей в ComfyUI, фиксирует реальные показатели скорости и описывает проблемы, которые возникли в ходе тестирования.

Для контекста напомним конфигурацию сервера, с которым мы работали.

Характеристики тестового сервера

Материнская плата: Supermicro X10DRG-O+-CPU
Чипсет: Intel C612
Форм-фактор: 4U GPU-сервер
Процессоры: 2 × Intel Xeon E5-2687W v4
Ядра / потоки: 24 ядра, 48 потоков суммарно
Частота CPU: 3,00 ГГц базовая, Turbo Boost до 3,50 ГГц
Кэш L3: 30 МБ на процессор, 60 МБ суммарно
ОЗУ: 128 ГБ DDR4 ECC
Видеокарты: 8 × NVIDIA Tesla P100 PCIe 16 ГБ
Суммарный объём VRAM: 128 ГБ
ОС: Ubuntu 24.04.4 LTS

Особенности PCIe-топологии

Восемь видеокарт в этом сервере подключены к процессорам не напрямую, а через PCIe-коммутаторы. Схема выглядит следующим образом: два процессора делят GPU поровну, каждый обслуживает свою группу из четырёх карт. Внутри каждой группы ускорители разбиты на пары — одна PCIe-ветка идёт от процессора к коммутатору, а тот уже разводит сигнал на две видеокарты.

Причина такой архитектуры сугубо практическая: у процессоров Intel Xeon E5 v4 просто не хватает прямых линий PCIe, чтобы дать каждому из восьми ускорителей честный слот x16. PCIe-коммутаторы решают эту проблему, агрегируя полосу пропускания и распределяя её между несколькими GPU. Это влияет на межкарточную пропускную способность, но для задач автономной генерации контента критичным не является.

Методология тестирования в ComfyUI

Объединить видеопамять нескольких Tesla P100 в единый пул — как это делалось при тестировании языковых моделей — для задач генерации изображений невозможно. Ускорить обработку одного изображения за счёт восьми карт тоже не получится. Поэтому мы выбрали другой подход: запускали восемь параллельных процессов ComfyUI — по одному на каждый GPU, — подавали всем одинаковый промт и замеряли среднее время генерации одного результата.

Такая схема позволяет оценить реальную пропускную способность конфигурации: вместо одного изображения за N секунд — восемь изображений за примерно то же время. В тестировании участвовали три модели для генерации изображений и одна для видео.

Результаты тестов

Модель	Разрешение	Среднее время генерации, сек	Примечание
Z-Image Turbo	1024×1024	67,55	Быстрейший результат, но встречаются анатомические артефакты
FLUX 2 4B	1024×1024	195,04	Чистые изображения без заметных артефактов
Kandinsky 5.0 Image Lite	1024×1024	689,89	Лучшее качество из всех image-моделей, хорошо понимает промты на русском
Kandinsky 5.0 Video Lite	768×512	2667,94	Приемлемое качество видео, поддерживает русскоязычные промты

Анализ результатов

Скорость генерации на одиночном Tesla P100 нельзя назвать рекордной, и это ожидаемо: карты 2016–2018 года разработки изначально создавались для научных вычислений, а не для диффузионных моделей. Тем не менее восемь параллельных потоков существенно меняют картину с точки зрения пропускной способности.

По качеству итогов картина складывается так:

Z-Image Turbo — самый быстрый вариант (67,55 с), но периодически выдаёт изображения с дефектами анатомии. Подходит для задач, где важна скорость, а не точность деталей.
FLUX 2 4B — умеренная скорость (195 с), стабильно высокое качество, артефактов практически нет. Хороший баланс между быстродействием и результатом.
Kandinsky 5.0 Image Lite — самая медленная из image-моделей (почти 690 с на изображение), зато показывает наилучшее качество и, что особенно ценно для рунета, хорошо обрабатывает промты на русском языке без перевода.
Kandinsky 5.0 Video Lite — свыше 44 минут на один ролик в режиме одного GPU. Для задач потоковой генерации видео это тяжёлый сценарий, но восемь параллельных карт позволяют производить восемь роликов за то же время.

Проблемы при настройке

Главные сложности возникли не в самой генерации, а на этапе развёртывания нескольких экземпляров ComfyUI. При одновременном запуске восьми процессов они конфликтовали из-за общей базы данных: каждый экземпляр пытался открыть один и тот же файл comfyui.db, что приводило к ошибкам блокировки.

Для решения пришлось:

назначить каждому процессу уникальный порт;
задать отдельные рабочие директории с независимыми базами данных;
явно прописать пути к моделям и директориям вывода для каждого экземпляра.

Подобные коллизии типичны для конфигураций с несколькими GPU: ComfyUI изначально проектировался для одиночной видеокарты, поэтому многоускорительные сценарии требуют ручной настройки. После устранения конфликтов окружение работало стабильно.

Заключение

Восемь Tesla P100 в ComfyUI — не способ получить один быстрый результат и не замена современному флагманскому ускорителю. Их практическая ценность в другом: это относительно доступная платформа для организации массовой параллельной генерации, где каждый GPU независимо обрабатывает собственный рабочий процесс.

Если задача — производить сотни изображений или десятки видеороликов за сессию, такая конфигурация оправдана. Если нужна максимальная скорость на одиночный запрос — стоит смотреть в сторону более современных ускорителей. СервакМастер предлагает серверы на базе Tesla P100 в аренду и продажу — свяжитесь с нами, чтобы подобрать оптимальную конфигурацию под ваши задачи.