Партнерская конференция 2019
Решение AI Fabric без потери пакетов для современных сетей ЦОД
Гомонюк Алексей Викторович
Партнерская конференция 2019
Виртуализация Облака AI приложения
201920162010
Оптимальное
использование ресурсовПовсеместная миграция на
облачные приложения
Обработка больших
объемов данных
Серверная архитектура
20%60%
Мобильные платежи,
онлайн банк
Большие домны
второго уровня
Корпоративные системы
нового поколенияYandex+AI приложения
Этапы эволюции корпоративного ЦОД
Поиск с AI
Интеллектуальный
ассистент Алиса
Партнерская конференция 2019
Obtaining Wisdom from Data and Monetizing Business Value in the AI Era
Платформа
Данные
Данные Алгоритмы
Услуги Целевой
маркетинг
Беспилотный
транспортРобототехника Безопасность
Распознование
изображенияБиометрия
2015 2025
8.6 ZB
180 ZB
Объем данных за год
1 ZB ≈ 1 billion TBSource: Huawei GIV
+20 fold
2015 2025
16%
86%
AI использоввание (прогноз)
Source: Huawei GIV
В 2025 году новый объем данных достигнет
180 ZB, что будет намного выше
возможностей человеческой обработки. 95%
данных должны быть обработаны AI.
Fast Data
AIAI распределнные
вычисления
Распределнные
системы хранения
данных
Big Data
单位容量价值越来极低基于AI挖掘是关键
数据实时处理存取要求快
Партнерская конференция 2019
Узкие места для роста услуг на базе AI
Задачи, вызванные распределенным
обучением AIНапример, вычислительная скорость машинного перевода
Google достигает 105 ExaFlops.
Задачи, вызванные распределнными
системами хранения Например, производительность хранилища должна быть улучшена
на один порядок, чтобы реализовать более 1 миллиона операций
ввода-вывода в секунду.
CPU -> PU -> AI ChipСкорость вычислений: рост в 100 раз
HD -> SSD -> SCMЗадержка доступа к среде:
уменьшение в 100 раз
Узкое место в коммуникациях
Вычислительные ресурсыСистемы хранения
Время ожидания сети с графическим процессором
превышает 50% времени завершения задания (JCT).
Задержка сети составляет более 50% от общей
задержки доступа к хранилищу.
Инновации в
вычислениях
Инновации для систем
хранения данных
Партнерская конференция 2019
Узкое место распределенного хранилища для быстрых данных: улучшение IOPS, ограниченное динамической задержкой в сети
Значительная задержка сети на фоне более быстрого и медленного доступа к среде,
ограничивая количество операций ввода-вывода в секунду
Динамическая задержка ключ
к снижению задержки NoF
Сеть
Текущее
значение
> 300 μs
Цель
< 50 μs
Задержка
среды
Сетевая
задержка
Другое
эволюция
SAS NVMe
Эволюция сетей
хранения
Задержка
буферризации
50 μs
Задержка
коммутации
3 μs
Задержка среды
передачи
0.3 μs
В прошлом внимание уделялось уменьшению задержки
коммутации, однако уменьшение динамической задержки, такой
как задержка в очереди и задержка, вызванная потерей
пакетов, является ключом к устранению узкого места задержки
сети.
Методы улучшения IOPS:
1. Уменьшение задержки ввода-вывода
2. Улучшить алгоритмы параллелной
обработки данныхNoF
Распределние задержки в сетиPacket loss Queuing
Switching Transmission
Задежка из-за
потери пакетов:
5000 μs
Сетевая задержка для HDD
85%
10%5%
Сетевая задержка для SSD
65%
25%
10%
Партнерская конференция 2019
Узкое место в распределенном обучении AI
X GPU servers (workers) Parameter server (PS)
- Скорость вычислений в системе распознавания речи Baidu Deep Speech 2
достигает 20 ExaFlops.
- 40 графических серверов; 300 миллионов параметров (каждый из 4 байтов)
100G Ethernet используется
- 650–700 мс на каждую итерацию (370 мс для вычислений и 400 мс для связи)
Если на одно учебное задание требуется миллион итераций,
продолжительность обучения составляет один месяц.
AI Computing
Model
Amount of
Communication
Parameters
Computing
Capacity
(FLOPS)
Single Iteration Time (ms)
Single GPU
(V100)
CPU
(32-Thread)
AlexNet 120 MB 63 million < 20 1000
ResNet50 100 MB 3.8 billion <100 8000
FCN-S 236 MB 55 million < 20 1000
Вывод: ключом к ускорению распределенного обучения AI является повышение
мгновенной пропускной способности и сокращение времени ожидания связи с
графическим процессором (увеличение коэффициента ускорения).
Incast
Если количество параметров связи в каждой итерации остается неизменным,
более короткое время вычислений приводит к более высокой нагрузке на сеть.
Периодическая перегрузка входящего трафика и снижение
мгновенной пропускной способности
Сокращение времени ожидания графического процессора и улучшение
пропускной способности сети являются ключевыми факторами.
- длительное время ожидания простоя во время вычислений AI из-за большого количества параметров, синхронизированных в каждой итерации
Партнерская конференция 2019
RDMA эффективно улучшает пропускную способность и уменьшает задержку, но не снимает различные ограничения в существующих решениях для передачи данных по сети
Slow startup and low
throughput Three copy operations,
resulting in a long latency CPU consumed by traffic:
1 Hz per bit
RDMA over IB RDMA over CEE (current)
vs.Преимущества: нулевая потеря
пакетов, низкая задержка и
высокая пропускная способность
Недостатки: фокусное O & M
выделенным персоналом,
высокая стоимость
Преимущества: автоматизация
SDN, низкая стоимость
Недостатки: высокая задержка
и низкая пропускная
способность
Выделенаяя сеть Открытый Ethernet,
конвергентная сеть
RDMA: преимущества, применимые
к сценариям AI
RDMA advantages are more significant when
the bandwidth exceeds 25 Gbit/s
TCP disadvantages RDMA advantages
Fast startup, maximizing the
bandwidth usage
One copy operation, effectively
reducing the kernel latency
Zero CPU resources consumed
upon network adapter
uninstallation
InfiniBand (IB): фокусное O & M; CEE: низкая пропускная способность и
высокая динамическая задержка
Item IB CEE Remarks
Performance High LowOriented to two AI
scenarios
O&M Difficult Easy
The IB requires
dedicated O&M
engineers.
Cost High Low
The cost of the IB is
almost twice that of the
CEE.
Commercial
scaleSmall Super large
Others Dedicated networkCloud-and-network
synergy
Convergence and
automation are required.
Сравнение IB и CEE
Sougou, Jingdong, and Tencent
30 μs
1 μs
30 μs
1 μs
В настоящее время механизм предотвращения перегрузки CEE негибкий,
пропускная способность низкая, а динамическая задержка высокая.
Партнерская конференция 2019
Новые вызовы AI для сетей Ethernet требуют
технологических инноваций
Традиционный Ethernet Converged Enhanced
Ethernet (CEE)Ethernet следующего поколения?
До 2008 2008 - 2018 После 2018
УслугиEthernet : корпоративная LAN
Требования: low cost
Ethernet близко по характеристикам
к SAN
Требования: zero packet loss
Ethernet улучшен до AI/HPC
Требования: high throughput and
low latency
10M/100M/1000M GE/10 GE/40 GE 25 GE/100 GE/400 GE
Подход: ограничение скорости отправки,
чтобы гарантировать, что ни один пакет
не потерян
Заключение: CEE не может
соответствовать требованиям AI.
Требуются технологические инновации.
Проблема 1: резкое увеличение
динамической задержки из-за перегрузки
Проблема 2: низкая пропускная
способность, когда скорость передачи
ограничена
Технологии
Carrier Sense Multiple Access
with Collision Detection
(CSMA/CD)
ПротоколАдаптированы для TCP/IP
Priority-based Flow Control (PFC)
Enhanced Transmission Selection (ETS)
Explicit Congestion Notification (ECN)
TCP/IP FCoETCP/IP FCoE RDMA over CE (RoCE)
Партнерская конференция 2019
AI
FabricInsight
…
WaterLine
Backpressure signals(Dynamic ECN + PFC)
VIQ1 VIQ2
VIQ, preventing congestion
Spine
FPGA
NIC
leaf
Dedicated chip-based dynamic congestion
scheduling algorithm
Real-time congestion detection and dynamic
scheduling backpressure, eliminating packet
loss and achieving dedicated network-
equivalent network performanceNetwork device
Network-wide intelligent scheduling
Unique global optimized self-learning
algorithm, reducing the network latency to
nanoseconds and surpassing dedicated
networks in AI training and Fast Data
access and storage capabilities
Proactive collaboration between iNICs,
implementing acceleration
AI application detection and proactive
collaboration, eliminating congestion and
scheduling flapping and achieving throughput
and AI speed-up ratio that are 15% higher than
those on dedicated networks
Collaboration
Autonomous
driving
Facial
recognition
Data
miningBioscience
Сеть Huawei AI Fabric Ethernet с малой задержкой и без
потерь для ускорения работы приложений
Партнерская конференция 2019
Hadoop
Приложения
ПлатформаSpark Tensorflow
(Google)MXNet/Caffe/CNTK
HPC frame(OpenFOAM)
Траснспорт
gRPC MPI
Socket
Сеть
RDMA vbers
UDPTCP/IP Infiniband
HPC :HydromechanicsBiology Weatherastronomical…
AI Applications:Image RecognitionAutomatic driving
Smart Recommendation …
Big data application:Data mining
DatabaseSearch…
NVMe/SCSI
Distributed storage
Infiniband/FC
Storage:Back-end network
Front-end network…
AI Fabric может ускорять приложения на основе интерфейса RDMA.
Сценарии AI Fabric: системы храненитя,
высокопроизводительные вычисления и приложения AI
Партнерская конференция 2019
Incast traffic Active congestion control, eliminate link congestion
Queuing and packet loss caused by
congestion are the key factors
affecting delay
Bottleneck
Credit
Passive congestion control , relieve link congestion
Bottleneck
CNP
NIC
NIC
PFCECN
Credit
CNP
ECN
Два технических направления AI Fabric:
Пассивный контроль и активный
контроль перегрузок в сети
Партнерская конференция 2019
① Incast traffic: Packets are dropped in the device② Incast traffic: Unfair between flows, affecting FCT
③ Incast traffic:Congestion feedback is not timely
④ Incast traffic:Congestion feedback threshold setting is inaccurate, affecting FCT⑤ Incast traffic: PFC backpressure causes HOL and victim stream, affecting FCT
⑨ Congestion control algorithm, slow convergence
⑦Mixed flow of small and large flows, affect FCT of small flow⑧Mixed streams affect non-ECT streams
⑥ Congestion caused by unbalanced traffic, affecting FCT
Решение Huawei AI Fabric: Ethernet без потерь, низкая задержка
SrcNIC
APP LEAF SPINE LEAFDstNIC
APP
Device layer
Link layer
Transport layer
Question 1 and Question 2:VIQ(Virtual Input Queue)
Question 3:FAST CNP
(Congestion Notification Packet)
Question 5:DVL(Dynamic Virtual Link)
Question 4:Dynamic ECN
(Explicit Congestion Notification)
Question6:Flowlet&DLB
(Dynamic Load Banlance)
Question 7:DPP
(Dynamic Packet Prioritization)
#1:Loss in the device#2:Congestion control#3:Load balance#4:Mixed flow scheduling#5:Credit-based scheduling
Question 8:Active congestion control
(eg , ECN+)
Question 9: Active congestion control
(eg, AF2S)
already
planning
ПР
ОБ
ЛЕ
МА
РЕ
ШЕ
НИ
Е
Партнерская конференция 2019
APP
RDMA
NIC
NP/FPGA(Huawei customized
algorithm )
APP
RDMA
NIC
Fast CNP
CNP
PP
VIQ(Virtual Input Queue)
VIQ1 2
Dynamic ECN
3
Dynamic ECN Fast CNP
Packet loss
PFCSwitch
Server
Q0
Q1
ECN waterline
ECN waterline
RR
Server
Server
Server
. . .
• Intermediate devices
generate CNP packets and
feedback congestion
• Improving 30% network
convergence performance.
• Multiple ingress
ports flowed to an
egress port,
causing buffer
overflow and
internal packet
loss.
• VIQ allocates independent
queues for each inbound port
at the egress port
• The egress port can
backpressure independently
of the ingress port to avoid
packet loss.
• Low ECN threshold,
low latency, low
throughput
• High ECN threshold,
high latency, high
throughput
• Dynamic ECN dynamically
collects traffic patterns and
dynamically adjusts
thresholds to achieve low
latency and high
throughput
• CNP packet is sent
by the destination
server.
• Congestion feedback
path is long.
AS IS To BE AS IS To BE AS IS To BE
send CNP
directly construct CNP
Инновации AI Fabric
Партнерская конференция 2019
Одинаковая пропускная способность,
аналогичный коэффициент ускорения;
Коэффициент ускорения на 20% выше при той же капитализации
• Платформа AI: TensorFlow с 32 серверами + сеть 40G
Clos.
• Приложение для распознавания изображений AI:
ResNet50 + ImageNet
Одинаковая пропускная способность, IOPS
выше на 87% под тем же CAPEX
0% 20% 40% 60% 80% 100%
CEE
AI Fabric
IB
TensorFlow speed-up ratio
0 10000 20000 30000 40000 50000 60000 70000
CEE
AI Fabric
IB
Storage IOPS
70%
84%
50%
32K
60K
25K
• Тест IOPS хранилища: 4 сервера + сеть 40G с фоновым
трафиком
• Распределенная среда хранения: SSD жесткий диск, 128 КБ на
блок, операции записи
• Сеть: 4 сервера + сеть 40G с фоновым трафиком
AI Fabric: результаты тестов
CE8850-64CQ-EI CE6865-48S8CQ-EI
ПРОДУКТЫ
Партнерская конференция 2019
IPC
InfiniBandSAN
FC
LAN
Ethernet
InfiniBand
(56G)
8G FC
10G
Ethernet
100G Ethernet
Сейчас:Независимые LAN/SAN/IPC Сети
Будет:Конвергентная сеть AI Fabric
Высокая стоимость сети: частная сеть FC и частная сеть InfiniBand
имеют высокую стоимость.
Сложная конфигурация NIC: HCA для IPC, HBA для SAN, NIC для
LAN
Высокие затраты на эксплуатацию и обслуживание: FC SAN и
InfiniBand IPC требуют выделенного персонала для эксплуатации,
интеграция с облачной сетью не поддерживается.
Низкие затраты на сеть: открытый Ethernet передает как трафик SAN, так и
IPC, что снижает CAPEX на 50%.
Простая конфигурация сети: один IP NIC поддерживает FCoE / RoCE и
традиционный TCP / IP.
Низкие затраты на эксплуатацию и обслуживание: не требуется
выделенный персонал для эксплуатации и обслуживания, а SDN
используется для интеграции в облачную сеть, что снижает затраты на
эксплуатацию и обслуживание на 60%.
HCA
NIC
HBA
HCA
NIC
HBA
AI Fabric
Ethernet
Low latency Zero packet loss
Low cost
Low latency
Zero packet loss
Low cost
AI Fabric преимущества: создает унифицированную конвергентную сеть
для будущих DC и снижает совокупную стоимость владения на 53%-
Партнерская конференция 2019
AI Fabric
Zero packet loss, latency decrease by 44.3%
Interop Best of Show Award
EANTC's certification results show that in
HPC scenarios, Huawei AI Fabric achieves
zero packet loss in all test models and the
computing time is up to 44.3%shorter
compared with that on the traditional
Ethernet. EANTC also finds that the
optimization efficiency is higher when the
traffic model is more complex, and the
average optimization efficiency is 40%.
Carsten Rossenhoeve
Co-founder of EANTC
AI Fabric получила награду EANTC за сертификацию и награду Interop Best of Show
Партнерская конференция 2019
Пример - AI Fabric в крупнейшем коммерческом банке Китая
Используется платформа
глубокого обучения Caffe.
Профиль клиента
на основе больших данных
Обучение модели машинного
зрения
Платформа будущего
Начальные условияИспользуется 540 GPU серверов для настройки кластера AI.
Бизнес-отделы надеются использовать соединение
InfiniBand.
Результат
Ограничение: Восемь сотрудников O & M не понимают Infiniband.
Huawei AI Fabric используется в тесте.
Кластер
распределенной
системы хранения
Кластер
распознования
изображений
Кластер
профилей
пользователей
AIFabric is used for all three scenarios in the future.
2018.122018.8
AlexNet и GoogelNet сценарий
AI Fabric 40G VS Infiniband 56G
Эффект: 4 или 5 итераций в секунду для обоих фабрик
Партнерская конференция 2019
VM
VM
VM
AI Fabric + Azure Pack
Нулевая потеря пакетов, низкая задержка,
повышение производительности на 20% и 350 000
операций ввода-вывода в секунду
Zero packet loss
High throughput
Low latencyAI Fabric
Credit cardPersonal loanNegotiable
securities
Consigned
financing
Distributed storage pool
0
5
10
15
20
25
30
35
40Highest IOPS
AlexNet и GoogelNet сценарии
AI Fabric 40G vs. Proprietary Fabric
Эффект: 4 или 5 итераций в секунду
Результаты тестирования обучения AI
Microsoft Azure storage
+20%
Traditional Ethernet AI FabricUse the cloud disk to obtain the
storage experience of the local disk.Cloud disk
Compute node
Пример - AI Fabric повышает производительность распределенного хранилища на 20%
СПАСИБО!
ПАРТНЕРСКАЯКОНФЕРЕНЦИЯ HUAWEI 2019