Nvidia HGX

Продукт
Разработчики: Nvidia (Нвидиа)
Дата премьеры системы: 2017/05
Дата последнего релиза: 2021/06/28
Технологии: Cloud Computing,  Серверные платформы,  Центры обработки данных - технологии для ЦОД

Содержание

Основные статьи:

2021: Nvidia A100 80G PCIe, Nvidia NDR 400G InfiniBand, Nvidia Magnum IO

28 июня 2021 года компания NVIDIA объявила о приросте платформы NVIDIA HGX AI благодаря современным технологиям, которые объединяют ИИ с высокопроизводительными вычислениями, чтобы сделать вычисления доступнее для еще большего числа индустрий.

По информации компании, чтобы приблизить приход эры промышленных ИИ и HPC-приложений, NVIDIA добавила три ключевых технологии в платформу HGX: GPU NVIDIA A100 80GB PCIe, сетевые технологии NVIDIA NDR 400G InfiniBand и ПО NVIDIA Magnum IO GPUDirect Storage. Вместе они обеспечивают экстремальную производительность для промышленных инноваций.

Nvidia представила новые системы HGX A100 для оптимизации промышленных ИИ и HPC-приложений

На июнь 2021 года Atos, Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo, Microsoft Azure и NetApp и еще десятки партнеров используют платформу NVIDIA HGX для создания систем и решений.

Платформу HGX использует компания, специализирующуюся в области высоких технологий в промышленности General Electric: компания применяет достижения в HPC для симуляций в области вычислительной динамики жидкостей (CFD) и разработки крупных газовых турбин и реактивных двигателей. Платформа HGX получила ускорение на порядок и может применять CFD-методы в коде GE GENESIS. Он использует метод крупных вихрей для изучения эффектов турбулентных потоков внутри турбин, которые состоят из сотен отдельных лопастей со сложной геометрией.Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг

Платформа HGX также оптимизирует научные HPC-системы во всем мире, включая суперкомпьютер следующего поколения в Университете Эдинбурга, о чем также объявлено 28 июня 2021 года.

Графические процессоры NVIDIA A100 Tensor Core обеспечивают обеспечение HPC-вычислений для решения сложных задач ИИ, анализа данных, обучения моделей и симуляций в промышленности. Графические процессоры A100 80ГБ PCIe располагают на 25% более широкой полосой пропускания по сравнению с A100 40ГБ - до 2ТБ/с - и снабжены 80ГБ скоростной памяти HBM2e.

Объем памяти A100 80ГБ PCIe и широкая полоса пропускания позволяют хранить в памяти больше данных и более крупные сети, минимизируя коммуникации между узлами и снижая энергопотребление.

A100 80ГБ PCIe основан на архитектуре NVIDIA Ampere, которая поддерживает технологию Multi-Instance GPU (MIG) для ускорения небольших рабочих нагрузок, таких, как инференс. MIG позволяет HPC-системам оптимизировать объем вычислений и объем памяти. В дополнение к PCIe есть четырех- и восьми-модульные конфигурации NVIDIA HGX A100.

Партнерами NVIDIA по системам A100 80GB PCIe стали Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT и Supermicro. Платформа HGX на базе графических процессоров A100 с коммутацией NVLink также доступна через облачные сервисы от Amazon Web Services, Microsoft Azure и Oracle Cloud Infrastructure.

Системы HPC, для которых требуется определенная скорость передачи данных, усилены NVIDIA InfiniBand – полностью разгружаемым интерконнектом, поддерживающим сетевые вычисления. NDR InfiniBand масштабирует производительность для решения сложных задач на промышленных и научных HPC-системах. Системы коммутации с фиксированной конфигурацией NVIDIA Quantum-2 имеют 64 порта со скоростью передачи NDR 400Гб/с InfiniBand на порт (или 128 портов по NDR200).

Модульные коммутаторы NVIDIA Quantum-2 могут иметь до 2048 портов NDR 400GГб/с InfiniBand (или 4096 портов NDR200) с общей пропускной способностью в обоих направлениях 1.64 петабит в секунду, что в 5 раз выше, чем у предыдущего поколения. У коммутатора с 2048 портами в 6.5 раз выше масштабируемость по сравнению с предыдущим поколением, и он способен подключать свыше миллиона узлов в три шага с помощью топологии сети DragonFly+.

Третье поколение технологии сжатия данных NVIDIA SHARP In-Network Computing оптимизирует производительность промышленных и научных приложений с 32-кратным ускорением ИИ по сравнению с предыдущим поколением.

Возможности управления включают возможности самовосстановления сети и движки ускорения NVIDIA In-Network Computing. Время простоя центра обработки данных снижено еще больше благодаря платформе NVIDIA UFM Cyber-AI.

Основанные на промышленных стандартах коммутаторы NVIDIA Quantum-2, поставки которых начнутся к концу 2021 года, имеют прямую и обратную совместимость, что обеспечивает простоту миграции и расширение существующих систем и программного обеспечения.

Производители инфраструктуры, включая Atos, DDN, Dell Technologies, Excelero, GIGABYTE, HPE, Lenovo, Penguin, QCT, Supermicro, VAST и WekaIO, планируют интегрировать коммутаторы Quantum-2 NDR 400Gb/s InfiniBand в свои корпоративные и HPC-системы. Поставщики облачных сервисов, включая Azure, также применяют технологию InfiniBand.

Технология Magnum IO GPUDirect Storage устанавливает прямую связь между памятью GPU и накопителем. Благодаря прямому доступу снижаются задержки при работе с приложениями и полностью используется пропускная способность сетевых адаптеров, при этом снижается нагрузка на CPU и контролируется потребление данных.

2018: Анонс Nvidia HGX-2

Компания Nvidia 30 мая 2018 года представила Nvidia HGX-2 — унифицированную вычислительную платформу для высокопроизводительных вычислений и вычислений в области искусственного интеллекта. HGX-2 входит в семейство GPU-ускоренных серверных платформ Nvidia — экосистемы сертифицированных серверов, предназначенных для широкого спектра вычислений ИИ, HPC и ускоренных вычислений с оптимальной производительностью.

Nvidia HGX-2

Облачная серверная платформа HGX-2 с поддержкой произвольных вычислений (multi-precision) обеспечивает гибкость, необходимую для вычислений будущего. Она позволяет выполнять вычисления высокой точности FP64 и FP32 для научных исследований и моделирования, а также поддерживает FP16 и Int8 для обучения ИИ и инференса. Такая универсальность отвечает требованиям растущего числа приложений, сочетающих HPC-вычисления и работу с ИИ, пояснили в компании.

«
Мир вычислений изменился, — отметил Дженсен Хуанг (Jensen Huang), основатель и генеральный директор Nvidia. — Эффект от масштабирования CPU заметно сократился, в то время как спрос на вычисления растет драматическими темпами. Платформа Nvidia HGX-2 на базе GPU с тензорными ядрами предлагает мощные универсальные возможности, позволяющие выполнять как HPC, так и вычисления для ИИ для решения насущных глобальных вызовов.
»

По словам разработчиков, скорость обучения ИИ-сетей на платформе HGX-2 достигает 15,5 ты. изображений в секунду в бенчмарке ResNet-50, что позволяет заменить до 300 серверов на базе CPU.

Платформа поддерживает такие передовые возможности, как интерфейс Nvidia NVSwitch, который позволяет объединить 16 GPU Nvidia Tesla V100 с тензорными ядрами, превратив их в единый гигантский графический процессор со скоростью вычислений 2 петафлопса в задачах ИИ. Первой системой на базе платформы HGX-2 стала недавно анонсированная система Nvidia DGX-2.

Как ожидают в Nvidia, HGX-2 станет ключевым компонентом передовых вычислительных систем производителей для задач HPC и ИИ. Так, четыре производителя серверов — Lenovo, QCT, Supermicro и Wiwynn — объявили о планах выпуска собственных систем на базе HGX-2 в 2018 году. Кроме того, четыре мировых ODM-производителя — Foxconn, Inventec, Quanta и Wistron — также готовят к выпуску системы на базе HGX-2, предназначенные для установки в крупнейшие облачные дата-центры.

2017: Запуск Nvidia HGX

В мае 2017 года Nvidia запустила партнерскую программу с ведущими ODM-производителями — Foxconn, Inventec, Quanta и Wistron, чтобы быстрее удовлетворить рыночный спрос на облачные вычисления для задач искусственного интеллекта (ИИ).

В рамках партнерской программы Nvidia HGX Nvidia предоставляет каждому ODM-производителю ранний доступ к референсной архитектуре Nvidia HGX, технологиям вычислений на GPU и руководствам по проектированию. Модель HGX – та же, что используется и в Microsoft Project Olympus, системах Facebook Big Basin и суперкомпьютерах для задач ИИ NVIDIA DGX-1.

HGX – это референсная архитектура для поставщиков облачных решений, которые хотят перейти на новую платформу Nvidia GPU Cloud. Платформа Nvidia GPU упрощает доступ к полностью интегрированным и оптимизированным фреймворкам глубокого обучения, включая Caffe2, Cognitive Toolkit, MXNet и TensorFlow.

Используя HGX в качестве основы, ODM-партнеры в сотрудничестве с Nvidia могут быстрее создавать и выводить на рынок спектр GPU-ускоренных систем для гипермасштабируемых дата-центров. В рамках программы инженеры NVIDIA помогут ODM-производителям сократить время как на проектирование, так и на развертывание систем.

С помощью новых GPU на базе архитектуры Nvidia Volta, которая обеспечивает втрое более высокую производительность по сравнению с предшествующей архитектурой, ODM-производители могут удовлетворить рыночный спрос, выпустив новые продукты на базе новейших технологий Nvidia .


Гибкая модернизируемая система

Nvidia создала референсную архитектуру HGX, чтобы обеспечить производительность, эффективность и масштабируемость, необходимые для гипермасштабируемых облачных окружений. HGX поддерживает большой спектр конфигураций в зависимости от нагрузки и позволяет объединять графические и центральные процессоры в различных комбинациях для высокопроизводительных вычислений, обучения глубоких сетей и инференса.

Стандартная архитектура HGX включает восемь ускорителей Nvidia Tesla в форм-факторе SXM2, объединенных топологией cube mesh с помощью высокоскоростного интерфейса Nvidia NVLink и оптимизированных PCIe-топологий. Благодаря модульному дизайну, HGX-системы могут устанавливаться в существующие дата-центры во всем мире, при необходимости используя гипермасштабируемые CPU-узлы.

С HGX совместимы оба ускорителя Nvidia - Tesla P100 и V100. Поэтому системы на базе HGX можно будет обновить сразу же, как только процессоры V100 выйдут на рынок.



ПРОЕКТЫ (1) ИНТЕГРАТОРЫ (1) РЕШЕНИЕ НА БАЗЕ (1)
СМ. ТАКЖЕ (5)

ЗаказчикИнтеграторГодПроект
- SURF
Lenovo Data Center Group---Описание проекта



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Softline (Софтлайн) (89)
  X-Com (Икс ком) (57)
  Крок (35)
  Инфосистемы Джет (34)
  Астерос (34)
  Другие (1100)

  X-Com (Икс ком) (10)
  Softline (Софтлайн) (6)
  Крикунов и Партнеры Бизнес Системы (КПБС, KPBS, Krikunov & Partners Business Systems) (5)
  Крок (4)
  Инфосистемы Джет (3)
  Другие (53)

  Крикунов и Партнеры Бизнес Системы (КПБС, KPBS, Krikunov & Partners Business Systems) (3)
  Мобильные ТелеСистемы (МТС) (3)
  Селектел (Selectel) (2)
  Почта России (2)
  Сбербанк-Сервис (СберСервис) (1)
  Другие (24)

  X-Com (Икс ком) (8)
  Национальные Технологии (2)
  Аладдин Р.Д. (Aladdin R.D.) (2)
  Лига Цифровой Экономики (1)
  SMART Technologies (1)
  Другие (31)

  X-Com (Икс ком) (3)
  КНС Групп (Yadro) (2)
  RDW Computers, Real Digital World (РДВ Технолоджи) (1)
  TrueConf (Труконф) (1)
  Астра Группа компаний (1)
  Другие (16)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  IBM (47, 82)
  Microsoft (12, 58)
  Oracle (28, 56)
  Dell EMC (21, 24)
  Lenovo (3, 23)
  Другие (403, 284)

  Lenovo (1, 6)
  Lenovo Data Center Group (1, 6)
  SOTI (1, 3)
  КНС Групп (Yadro) (1, 3)
  Bull (Atos IT Solutions And Services) (2, 2)
  Другие (18, 20)

  Селектел (Selectel) (1, 2)
  Delta Computers (Дельта Компьютерс) (1, 1)
  Hewlett Packard Enterprise (HPE) (1, 1)
  Lenovo Data Center Group (1, 1)
  Базальт СПО (BaseALT) ранее ALT Linux (1, 1)
  Другие (7, 7)

  Аладдин Р.Д. (Aladdin R.D.) (1, 2)
  Delta Computers (Дельта Компьютерс) (1, 1)
  DEPO Computers (Депо Электроникс) (1, 1)
  Lenovo (1, 1)
  Red Hat (1, 1)
  Другие (8, 8)

  КНС Групп (Yadro) (1, 3)
  Content AI (Контент ИИ) (1, 2)
  TrueConf (Труконф) (1, 2)
  Inferit (Инферит) (1, 1)
  Softline (Софтлайн) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft Active Directory - 32
  Oracle Exadata Database Machine - 21
  Oracle WebLogic Server - 20
  Microsoft System Center Operations Manager (SCOM) - 18
  Lenovo ThinkSystem - 17
  Другие 369

  Lenovo ThinkSystem - 6
  Soti Mobicontrol - 3
  Yadro Сервер - 3
  Ngenix Облачная платформа - 2
  Dell EMC PowerEdge - 2
  Другие 15

  Selectel Выделенные серверы - 2
  Серверы Ситроникс - 1
  Альт Сервер - 1
  HPE Apollo 4000 Серверы - 1
  Aerodisk Machine Серверы - 1
  Другие 5

  JaCarta Authentication Server (JAS) - 2
  КРУГ: TimeVisor Сервер единого времени - 1
  Yadro Сервер - 1
  SharxBase - 1
  Dell PowerEdge T-серия - 1
  Другие 5

  Yadro Сервер - 3
  Trueconf MCU (Multipoint Control Unit) - 2
  ContentReader Server - 2
  Инферит Серверы - 1
  RDW Computers Серверы - 1
  Другие 4

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Крок (48)
  Softline (Софтлайн) (38)
  Инфосистемы Джет (33)
  Stack Group (Стек Групп, Стек Телеком) (21)
  Т1 Интеграция (ранее Техносерв) (19)
  Другие (915)

  Крикунов и Партнеры Бизнес Системы (КПБС, KPBS, Krikunov & Partners Business Systems) (8)
  Commvault (5)
  Lenovo Россия (3)
  Тегрус (Tegrus) ранее - Merlion Projects (3)
  Nutanix (бизнес в России) (3)
  Другие (53)

  Stack Group (Стек Групп, Стек Телеком) (5)
  GreenMDC (Грин ЭмДиСи) (3)
  Крок Облачные сервисы (3)
  Селектел (Selectel) (2)
  Крикунов и Партнеры Бизнес Системы (КПБС, KPBS, Krikunov & Partners Business Systems) (2)
  Другие (26)

  Next Generation Networks (NGN) (2)
  Астра Группа компаний (1)
  ГрандМоторс (1)
  К2 Тех (1)
  Кортис (1)
  Другие (17)

  GreenMDC (Грин ЭмДиСи) (2)
  РСК Технологии (1)
  Радиус ГК (1)
  Ромбит (1)
  Селектел (Selectel) (1)
  Другие (11)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  VMware (23, 86)
  Cisco Systems (35, 44)
  Крок (2, 38)
  Крок Облачные сервисы (1, 37)
  Dell EMC (35, 28)
  Другие (662, 543)

  Nutanix (1, 9)
  Lenovo (3, 8)
  Lenovo Data Center Group (3, 8)
  Commvault (2, 5)
  Cisco Systems (2, 2)
  Другие (28, 29)

  Equinix (1, 5)
  Stack Group (Стек Групп, Стек Телеком) (1, 5)
  Крок (1, 3)
  Крок Облачные сервисы (1, 3)
  GreenMDC (Грин ЭмДиСи) (1, 3)
  Другие (11, 12)

  Крок Облачные сервисы (1, 3)
  Крок (1, 3)
  Next Generation Networks (NGN) (1, 2)
  НТЦ ИТ Роса (1, 1)
  ART Engineering (1, 1)
  Другие (9, 9)

  GreenMDC (Грин ЭмДиСи) (1, 2)
  RuBackup (Рубэкап) (1, 2)
  C3 Solutions (СиТри Солюшнз, Новые Технологии) (1, 1)
  Stack Group (Стек Групп, Стек Телеком) (1, 1)
  Облакотека (Виртуальные инфраструктуры) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  VMware vSphere - 77
  Крок: Виртуальный дата-центр (IaaS) - 37
  M1Cloud (виртуальный ЦОД) - 22
  Oracle Exadata Database Machine - 21
  Cisco UCS Unified Computing System (Cisco UCCX) - 18
  Другие 460

  Nutanix HCI - 9
  Lenovo ThinkSystem - 6
  Commvault Complete Data Protection - 4
  Dell EMC PowerEdge - 2
  Hitachi Virtual Storage Platform (VSP) F series - 1
  Другие 26

  M1Cloud (виртуальный ЦОД) - 5
  GreenMDC Модульный ЦОД - 3
  Крок: Виртуальный дата-центр (IaaS) - 3
  Selectel Выделенные серверы - 2
  RSC Cooling Система жидкостного охлаждения - 1
  Другие 8

  Крок: Виртуальный дата-центр (IaaS) - 3
  NGN: Star of Bosphorus Data Center - 2
  RuBackup Решение резервного копирования - 1
  Dell PowerEdge T-серия - 1
  Ангара Коммуникационная сеть - 1
  Другие 6

  GreenMDC Модульный ЦОД - 2
  RuBackup Решение резервного копирования - 2
  Облакотека Платформа облачного бизнеса - 1
  M1Cloud (виртуальный ЦОД) - 1
  С3 Solutions: МикроЦОД - 1
  Другие 4