Решение AI Fabric без потери пакетов для ... · 2019-03-29 ·...

Партнерская конференция 2019

Решение AI Fabric без потери пакетов для современных сетей ЦОД

Гомонюк Алексей Викторович


Виртуализация Облака AI приложения

201920162010

Оптимальное

использование ресурсовПовсеместная миграция на

облачные приложения

Обработка больших

объемов данных

Серверная архитектура

20%60%

Мобильные платежи,

онлайн банк

Большие домны

второго уровня

Корпоративные системы

нового поколенияYandex+AI приложения

Этапы эволюции корпоративного ЦОД

Поиск с AI

Интеллектуальный

ассистент Алиса


Obtaining Wisdom from Data and Monetizing Business Value in the AI Era

Платформа

Данные

Данные Алгоритмы

Услуги Целевой

маркетинг

Беспилотный

транспортРобототехника Безопасность

Распознование

изображенияБиометрия

2015 2025

8.6 ZB

180 ZB

Объем данных за год

1 ZB ≈ 1 billion TBSource: Huawei GIV

+20 fold

2015 2025

16%

86%

AI использоввание (прогноз)

Source: Huawei GIV

В 2025 году новый объем данных достигнет

180 ZB, что будет намного выше

возможностей человеческой обработки. 95%

данных должны быть обработаны AI.

Fast Data

AIAI распределнные

вычисления

Распределнные

системы хранения

данных

Big Data

单位容量价值越来极低基于AI挖掘是关键

数据实时处理存取要求快


Узкие места для роста услуг на базе AI

Задачи, вызванные распределенным

обучением AIНапример, вычислительная скорость машинного перевода

Google достигает 105 ExaFlops.

Задачи, вызванные распределнными

системами хранения Например, производительность хранилища должна быть улучшена

на один порядок, чтобы реализовать более 1 миллиона операций

ввода-вывода в секунду.

CPU -> PU -> AI ChipСкорость вычислений: рост в 100 раз

HD -> SSD -> SCMЗадержка доступа к среде:

уменьшение в 100 раз

Узкое место в коммуникациях

Вычислительные ресурсыСистемы хранения

Время ожидания сети с графическим процессором

превышает 50% времени завершения задания (JCT).

Задержка сети составляет более 50% от общей

задержки доступа к хранилищу.

Инновации в

вычислениях

Инновации для систем

хранения данных


Узкое место распределенного хранилища для быстрых данных: улучшение IOPS, ограниченное динамической задержкой в сети

Значительная задержка сети на фоне более быстрого и медленного доступа к среде,

ограничивая количество операций ввода-вывода в секунду

Динамическая задержка ключ

к снижению задержки NoF

Сеть

Текущее

значение

> 300 μs

Цель

< 50 μs

Задержка

среды

Сетевая

задержка

Другое

эволюция

SAS NVMe

Эволюция сетей

хранения

Задержка

буферризации

50 μs

Задержка

коммутации

3 μs

Задержка среды

передачи

0.3 μs

В прошлом внимание уделялось уменьшению задержки

коммутации, однако уменьшение динамической задержки, такой

как задержка в очереди и задержка, вызванная потерей

пакетов, является ключом к устранению узкого места задержки

сети.

Методы улучшения IOPS:

1. Уменьшение задержки ввода-вывода

2. Улучшить алгоритмы параллелной

обработки данныхNoF

Распределние задержки в сетиPacket loss Queuing

Switching Transmission

Задежка из-за

потери пакетов:

5000 μs

Сетевая задержка для HDD

85%

10%5%

Сетевая задержка для SSD

65%

25%

10%


Узкое место в распределенном обучении AI

X GPU servers (workers) Parameter server (PS)

- Скорость вычислений в системе распознавания речи Baidu Deep Speech 2

достигает 20 ExaFlops.

- 40 графических серверов; 300 миллионов параметров (каждый из 4 байтов)

100G Ethernet используется

- 650–700 мс на каждую итерацию (370 мс для вычислений и 400 мс для связи)

Если на одно учебное задание требуется миллион итераций,

продолжительность обучения составляет один месяц.

AI Computing

Model

Amount of

Communication

Parameters

Computing

Capacity

(FLOPS)

Single Iteration Time (ms)

Single GPU

(V100)

CPU

(32-Thread)

AlexNet 120 MB 63 million < 20 1000

ResNet50 100 MB 3.8 billion <100 8000

FCN-S 236 MB 55 million < 20 1000

Вывод: ключом к ускорению распределенного обучения AI является повышение

мгновенной пропускной способности и сокращение времени ожидания связи с

графическим процессором (увеличение коэффициента ускорения).

Incast

Если количество параметров связи в каждой итерации остается неизменным,

более короткое время вычислений приводит к более высокой нагрузке на сеть.

Периодическая перегрузка входящего трафика и снижение

мгновенной пропускной способности

Сокращение времени ожидания графического процессора и улучшение

пропускной способности сети являются ключевыми факторами.

- длительное время ожидания простоя во время вычислений AI из-за большого количества параметров, синхронизированных в каждой итерации


RDMA эффективно улучшает пропускную способность и уменьшает задержку, но не снимает различные ограничения в существующих решениях для передачи данных по сети

Slow startup and low

throughput Three copy operations,

resulting in a long latency CPU consumed by traffic:

1 Hz per bit

RDMA over IB RDMA over CEE (current)

vs.Преимущества: нулевая потеря

пакетов, низкая задержка и

высокая пропускная способность

Недостатки: фокусное O & M

выделенным персоналом,

высокая стоимость

Преимущества: автоматизация

SDN, низкая стоимость

Недостатки: высокая задержка

и низкая пропускная

способность

Выделенаяя сеть Открытый Ethernet,

конвергентная сеть

RDMA: преимущества, применимые

к сценариям AI

RDMA advantages are more significant when

the bandwidth exceeds 25 Gbit/s

TCP disadvantages RDMA advantages

Fast startup, maximizing the

bandwidth usage

One copy operation, effectively

reducing the kernel latency

Zero CPU resources consumed

upon network adapter

uninstallation

InfiniBand (IB): фокусное O & M; CEE: низкая пропускная способность и

высокая динамическая задержка

Item IB CEE Remarks

Performance High LowOriented to two AI

scenarios

O&M Difficult Easy

The IB requires

dedicated O&M

engineers.

Cost High Low

The cost of the IB is

almost twice that of the

CEE.

Commercial

scaleSmall Super large

Others Dedicated networkCloud-and-network

synergy

Convergence and

automation are required.

Сравнение IB и CEE

Sougou, Jingdong, and Tencent

30 μs

1 μs

30 μs

1 μs

В настоящее время механизм предотвращения перегрузки CEE негибкий,

пропускная способность низкая, а динамическая задержка высокая.


Новые вызовы AI для сетей Ethernet требуют

технологических инноваций

Традиционный Ethernet Converged Enhanced

Ethernet (CEE)Ethernet следующего поколения?

До 2008 2008 - 2018 После 2018

УслугиEthernet : корпоративная LAN

Требования: low cost

Ethernet близко по характеристикам

к SAN

Требования: zero packet loss

Ethernet улучшен до AI/HPC

Требования: high throughput and

low latency

10M/100M/1000M GE/10 GE/40 GE 25 GE/100 GE/400 GE

Подход: ограничение скорости отправки,

чтобы гарантировать, что ни один пакет

не потерян

Заключение: CEE не может

соответствовать требованиям AI.

Требуются технологические инновации.

Проблема 1: резкое увеличение

динамической задержки из-за перегрузки

Проблема 2: низкая пропускная

способность, когда скорость передачи

ограничена

Технологии

Carrier Sense Multiple Access

with Collision Detection

(CSMA/CD)

ПротоколАдаптированы для TCP/IP

Priority-based Flow Control (PFC)

Enhanced Transmission Selection (ETS)

Explicit Congestion Notification (ECN)

TCP/IP FCoETCP/IP FCoE RDMA over CE (RoCE)


AI

FabricInsight

…

WaterLine

Backpressure signals(Dynamic ECN + PFC)

VIQ1 VIQ2

VIQ, preventing congestion

Spine

FPGA

NIC

leaf

Dedicated chip-based dynamic congestion

scheduling algorithm

Real-time congestion detection and dynamic

scheduling backpressure, eliminating packet

loss and achieving dedicated network-

equivalent network performanceNetwork device

Network-wide intelligent scheduling

Unique global optimized self-learning

algorithm, reducing the network latency to

nanoseconds and surpassing dedicated

networks in AI training and Fast Data

access and storage capabilities

Proactive collaboration between iNICs,

implementing acceleration

AI application detection and proactive

collaboration, eliminating congestion and

scheduling flapping and achieving throughput

and AI speed-up ratio that are 15% higher than

those on dedicated networks

Collaboration

Autonomous

driving

Facial

recognition

Data

miningBioscience

Сеть Huawei AI Fabric Ethernet с малой задержкой и без

потерь для ускорения работы приложений

https://180.101.228.200:10000/networkinsightwebsite/index.html

https://180.101.228.200:10000/networkinsightwebsite/index.html


Hadoop

Приложения

ПлатформаSpark Tensorflow

（Google）MXNet/Caffe/CNTK

HPC frame（OpenFOAM）

Траснспорт

gRPC MPI

Socket

Сеть

RDMA vbers

UDPTCP/IP Infiniband

HPC :HydromechanicsBiology Weatherastronomical…

AI Applications：Image RecognitionAutomatic driving

Smart Recommendation …

Big data application:Data mining

DatabaseSearch…

NVMe/SCSI

Distributed storage

Infiniband/FC

Storage：Back-end network

Front-end network…

AI Fabric может ускорять приложения на основе интерфейса RDMA.

Сценарии AI Fabric: системы храненитя,

высокопроизводительные вычисления и приложения AI


Incast traffic Active congestion control, eliminate link congestion

Queuing and packet loss caused by

congestion are the key factors

affecting delay

Bottleneck

Credit

Passive congestion control , relieve link congestion

Bottleneck

CNP

NIC

NIC

PFCECN

Credit

CNP

ECN

Два технических направления AI Fabric:

Пассивный контроль и активный

контроль перегрузок в сети


① Incast traffic: Packets are dropped in the device② Incast traffic: Unfair between flows, affecting FCT

③ Incast traffic:Congestion feedback is not timely

④ Incast traffic:Congestion feedback threshold setting is inaccurate, affecting FCT⑤ Incast traffic: PFC backpressure causes HOL and victim stream, affecting FCT

⑨ Congestion control algorithm, slow convergence

⑦Mixed flow of small and large flows, affect FCT of small flow⑧Mixed streams affect non-ECT streams

⑥ Congestion caused by unbalanced traffic, affecting FCT

Решение Huawei AI Fabric: Ethernet без потерь, низкая задержка

SrcNIC

APP LEAF SPINE LEAFDstNIC

APP

Device layer

Link layer

Transport layer

Question 1 and Question 2:VIQ(Virtual Input Queue)

Question 3:FAST CNP

(Congestion Notification Packet)

Question 5:DVL(Dynamic Virtual Link)

Question 4:Dynamic ECN

(Explicit Congestion Notification)

Question6:Flowlet&DLB

(Dynamic Load Banlance)

Question 7:DPP

(Dynamic Packet Prioritization)

#1:Loss in the device#2:Congestion control#3:Load balance#4:Mixed flow scheduling#5:Credit-based scheduling

Question 8:Active congestion control

(eg , ECN+)

Question 9: Active congestion control

(eg, AF2S)

already

planning

ПР

ОБ

ЛЕ

МА

РЕ

ШЕ

НИ

Е


APP

RDMA

NIC

NP/FPGA（Huawei customized

algorithm ）

APP

RDMA

NIC

Fast CNP

CNP

PP

VIQ(Virtual Input Queue)

VIQ1 2

Dynamic ECN

3

Dynamic ECN Fast CNP

Packet loss

PFCSwitch

Server

Q0

Q1

ECN waterline

ECN waterline

RR

Server

Server

Server

. . .

• Intermediate devices

generate CNP packets and

feedback congestion

• Improving 30% network

convergence performance.

• Multiple ingress

ports flowed to an

egress port,

causing buffer

overflow and

internal packet

loss.

• VIQ allocates independent

queues for each inbound port

at the egress port

• The egress port can

backpressure independently

of the ingress port to avoid

packet loss.

• Low ECN threshold,

low latency, low

throughput

• High ECN threshold,

high latency, high

throughput

• Dynamic ECN dynamically

collects traffic patterns and

dynamically adjusts

thresholds to achieve low

latency and high

throughput

• CNP packet is sent

by the destination

server.

• Congestion feedback

path is long.

AS IS To BE AS IS To BE AS IS To BE

send CNP

directly construct CNP

Инновации AI Fabric


Одинаковая пропускная способность,

аналогичный коэффициент ускорения;

Коэффициент ускорения на 20% выше при той же капитализации

• Платформа AI: TensorFlow с 32 серверами + сеть 40G

Clos.

• Приложение для распознавания изображений AI:

ResNet50 + ImageNet

Одинаковая пропускная способность, IOPS

выше на 87% под тем же CAPEX

0% 20% 40% 60% 80% 100%

CEE

AI Fabric

IB

TensorFlow speed-up ratio

0 10000 20000 30000 40000 50000 60000 70000

CEE

AI Fabric

IB

Storage IOPS

70%

84%

50%

32K

60K

25K

• Тест IOPS хранилища: 4 сервера + сеть 40G с фоновым

трафиком

• Распределенная среда хранения: SSD жесткий диск, 128 КБ на

блок, операции записи

• Сеть: 4 сервера + сеть 40G с фоновым трафиком

AI Fabric: результаты тестов

CE8850-64CQ-EI CE6865-48S8CQ-EI

ПРОДУКТЫ


IPC

InfiniBandSAN

FC

LAN

Ethernet

InfiniBand

(56G)

8G FC

10G

Ethernet

100G Ethernet

Сейчас:Независимые LAN/SAN/IPC Сети

Будет:Конвергентная сеть AI Fabric

Высокая стоимость сети: частная сеть FC и частная сеть InfiniBand

имеют высокую стоимость.

Сложная конфигурация NIC: HCA для IPC, HBA для SAN, NIC для

LAN

Высокие затраты на эксплуатацию и обслуживание: FC SAN и

InfiniBand IPC требуют выделенного персонала для эксплуатации,

интеграция с облачной сетью не поддерживается.

Низкие затраты на сеть: открытый Ethernet передает как трафик SAN, так и

IPC, что снижает CAPEX на 50%.

Простая конфигурация сети: один IP NIC поддерживает FCoE / RoCE и

традиционный TCP / IP.

Низкие затраты на эксплуатацию и обслуживание: не требуется

выделенный персонал для эксплуатации и обслуживания, а SDN

используется для интеграции в облачную сеть, что снижает затраты на

эксплуатацию и обслуживание на 60%.

HCA

NIC

HBA

HCA

NIC

HBA

AI Fabric

Ethernet

Low latency Zero packet loss

Low cost

Low latency

Zero packet loss

Low cost

AI Fabric преимущества: создает унифицированную конвергентную сеть

для будущих DC и снижает совокупную стоимость владения на 53%-


AI Fabric

Zero packet loss, latency decrease by 44.3%

Interop Best of Show Award

EANTC's certification results show that in

HPC scenarios, Huawei AI Fabric achieves

zero packet loss in all test models and the

computing time is up to 44.3%shorter

compared with that on the traditional

Ethernet. EANTC also finds that the

optimization efficiency is higher when the

traffic model is more complex, and the

average optimization efficiency is 40%.

Carsten Rossenhoeve

Co-founder of EANTC

AI Fabric получила награду EANTC за сертификацию и награду Interop Best of Show


Пример - AI Fabric в крупнейшем коммерческом банке Китая

Используется платформа

глубокого обучения Caffe.

Профиль клиента

на основе больших данных

Обучение модели машинного

зрения

Платформа будущего

Начальные условияИспользуется 540 GPU серверов для настройки кластера AI.

Бизнес-отделы надеются использовать соединение

InfiniBand.

Результат

Ограничение: Восемь сотрудников O & M не понимают Infiniband.

Huawei AI Fabric используется в тесте.

Кластер

распределенной

системы хранения

Кластер

распознования

изображений

Кластер

профилей

пользователей

AIFabric is used for all three scenarios in the future.

2018.122018.8

AlexNet и GoogelNet сценарий

AI Fabric 40G VS Infiniband 56G

Эффект: 4 или 5 итераций в секунду для обоих фабрик


VM

VM

VM

AI Fabric + Azure Pack

Нулевая потеря пакетов, низкая задержка,

повышение производительности на 20% и 350 000

операций ввода-вывода в секунду

Zero packet loss

High throughput

Low latencyAI Fabric

Credit cardPersonal loanNegotiable

securities

Consigned

financing

Distributed storage pool

0

5

10

15

20

25

30

35

40Highest IOPS

AlexNet и GoogelNet сценарии

AI Fabric 40G vs. Proprietary Fabric

Эффект: 4 или 5 итераций в секунду

Результаты тестирования обучения AI

Microsoft Azure storage

+20%

Traditional Ethernet AI FabricUse the cloud disk to obtain the

storage experience of the local disk.Cloud disk

Compute node

Пример - AI Fabric повышает производительность распределенного хранилища на 20%

СПАСИБО!

ПАРТНЕРСКАЯКОНФЕРЕНЦИЯ HUAWEI 2019

Date post:	17-Jul-2020
Category:	Documents
Upload:	others
View:	2 times
Download:	0 times

Решение AI Fabric без потери пакетов для ... · 2019-03-29 ·...

Documents