리더스시스템즈

NVIDIA DGX™ A100은 모든 AI 워크로드를 위한 유니버설 시스템으로, 세계 최초의 5페타플롭스 AI 시스템을 통해 유례없는 컴퓨팅 밀도, 성능 및 유연성을 제공합니다. NVIDIA DGX A100은 세계에서 가장 최첨단의 가속기인 NVIDIA A100 Tensor 코어 GPU를 탑재하여 엔터프라이즈 기업들이 NVIDIA AI 전문 가의 직접적인 지원과 함께 트레이닝에서 추론, 분석에 이르기까지 배포하기 쉬운 통합 AI 인프라를 구축할 수 있게 합니다.

제품문의 바로가기 >

DGX A100

Ampere Architecture

AI 인프라를 위한 유니버설 시스템

과학자, 연구자, 엔지니어와 같은 이 시대의 다빈치와 아인슈타인들이 AI와 고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를
해결하려 노력하고 있습니다. 기업들과 전체 산업들은 온프레미스와 클라우드 모두에서 대규모 데이터 세트로부터 새로운 인사이트를 추출하기 위해 AI의
힘을 활용하려고 합니다. 탄력적 컴퓨팅의 시대에 맞게 설계된 NVIDIA Ampere 아키텍처는 이전 세대 대비 혁신적인 성능 도약으로 모든 규모에서 비교할 수
없는 가속화를 제공하여 혁신가들이 중요한 연구 과제를 수행할 수 있도록 지원합니다.

세계 최고의 성능과 탄력성을
갖춘 데이터센터의 핵심

540억 개의 트랜지스터로 제작된 NVIDIA Ampere는 7나노미터(nm) 칩으로 획기적인 6개의 핵심 혁신을 선보입니다.

3세대 Tensor 코어: NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론을 막대하게 가속시킵니다. NVIDIA Ampere 아키 텍처는 새로운 정밀도인 Tensor Float(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입하여 이러한 혁신을 토대로 AI 채택을 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.; TF32는 FP32와 같이 작동하면서 코드 변경 없이 AI를 최대 20배까지 가속합니다. NVIDIA Automatic Mixed Precision를 사용하여 연구원은 코드를 단 한 줄만 추가해도 2배의 추가 성능을 얻을 수 있습니다. 그리고 NVIDIA A100 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 에 대한 지원으로 AI 트레이닝 및 추론 양쪽에 놀랍도록 다재다능한 가속기를 생성합니다. 또한, A100은 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을
받은 FP64 정밀도로 매트릭스 연산을 가능케 합니다.

MIG(Multi-Instance GPU): 모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 A100 GPU의 전체 성능이 필요한 것은 아닙니다. MIG를 통해 각 A100은 자체 고대역폭 메모리,
캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램의 획기적인 가속화에
액세스할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다.
그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며
베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.

3세대 NVLink: 여러 GPU에서 애플리케이션을 확장하려면 데이터 이동 속도가 매우 빨라야 합니다.
A100의 3세대 NVLink는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가시키며 이는 PCIe Gen4의 10배에 달합니다. 최신 세대의 NVSwitch와결합되는 경우 서버의 모든 GPU는 서로 간에 최대 NVLink 속도로 통신하며 데이터를 놀랍도록 빠르게 전송할 수 있습니다.; NVIDIA DGX™ A100 다른 선두 컴퓨터 제조업체의 서버는 NVLink 및 NVSwitch 기술을 통해 NVIDIA HGX™ A100 baseboards는 HPC 및 AI 워크 로드에 더 높은 확장성을 제공합니다.

구조적 희소성: 최신 AI 네트워크는 수백만 개, 일부 경우에는 수십억 개의 매개변수와 함께 점점 더 커지고 있습니다. 이 매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을 "희소"하게 만들기 위해 0으로 변환할 수 있습니다. A100의 Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는데 사용할 수도 있습니다.

더 스마트하고 빠른 메모리: A100은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를
완전하게 유지하기 위해 업계 최고 수준인 1.5TB/s의 메모리 대역폭을 보유하여 이전 세대에 비해 67% 증가했습니다. 또한, A100은 40MB 레벨 2 캐시를 포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를 보유함으로써 컴퓨팅 성능을 극대화합니다.

엣지의 컨버지드 가속: NVIDIA Ampere 아키텍처와 NVIDIA Mellanox의 ConnectX-6 Dx SmartNIC의 조합인 NVIDIA EGX™ A100는 전례없는 컴퓨팅 성능과 네트워크 가속 기능으로 엣지에서 생성되는 대규모 데이터를 처리합니다. Mellanox SmartNIC는 최대 200GB/s의 회선 속도로 해독하는 보안 오프로드를 포함하며 GPUDirect™는 AI 처리를 위해 비디오 프레임을 GPU 메모리로 직접 전송합니다. EGX A100 덕분에 비즈니스는 엣지에서 AI 배포를 더 안전하고 효율적으로
가속할 수 있습니다.

모든 AI 인프라를 위한
유니버설 시스템

분석에서 트레이닝과 추론에 이르기까지 DGX A100은 모든 AI 인프라를 위한 유니버설 시스템
입니다. 컴퓨팅 밀도에 새로운 기준을 제시합니다. 6U 폼 팩터에 5페타플롭스의 AI 성능을 갖추고,
레거시 인프라 사일로를 모든 AI 워크로드에 사용
가능한 단일 플랫폼으로 대체합니다.
DGXperts:
AI 전문가의 지원

NVIDIA DGXperts는 지난 10년간 쌓은 풍부한
경험으로 고객이 DGX 투자 가치를 극대화하도록 지원하는 14,000명 이상의 AI 전문가로 구성된
글로벌 팀입니다.
가장 빠른
솔루션 구축

NVIDIA DGX A100은 NVIDIA A100 Tensor 코어 GPU를 탑재한 세계 최초의 시스템입니다. 8장을 A100 GPU를 탑재한 이 시스템은 전례 없는 가속을 제공하며 NVIDIA CUDA-X™ 소프트 웨어와
엔드 투 엔드 NVIDIA 데이터센터 솔루션 스택에
모두 완전히 최적화되어 있습니다.
전례없는
데이터 센터 확장성

NVIDIA DGX A100은 최대 450GB/s의 양방향
대역폭으로 작동하는 내장형 Mellanox 네트워킹을 탑재합니다. 이는 DGX A100을 엔터 프라이즈의 확장 가능한 AI 인프라 청사진인 NVIDIA DGX SuperPOD™와 같은 대규모 AI 클러스터의 기초
빌딩 블록으로 만드는 많은 기능 중 하나입니다.

판도를 바꾸는 성능

분석

PageRank

AI 개발을 촉진하는 심층적인 인사이트 획득

688 Graph Edges (13X)

52 Graph Edges

3,000X CPU Servers vs. 4X DGX A100.
Published Common Crawl Data Set: 128B Edges, 2.6TB Graph.
트레이닝

NLP: BERT-Large

더 빠른 트레이닝으로 최첨단 AI 모델 활용

1,289 Sequences (6X)

216 Sequences

BERT Pre-Training Throughput using PyTorch including (2/3)Phase 1 and
(1/3)Phase 2. Phase 1 Seq Len = 128, Phase 2 Seq Len = 512. V100: DGX-1 with
8X V100 using FP32 precision. DGX A100: DGX A100 with 8X A100 using TF32 precision.
추론

Peak Compute

더 빠른 추론으로 극대화된 시스템을 통해 ROI 증가 활용

10 PetaOPS (172X)

58 TeraOPS

CPU Server: 2X Intel Platinum 8280 using INT8. DGX A100: DGX A100
with 8X A100 using INT8 with Structural Sparsity.

더 크고 복잡한 데이터 사이언스 문제를 더 빨리 해결

즉시 실행할 수 있는 최적화된 AI 소프트웨어로 지루한
설정 및 테스트가 필요하지 않습니다.
전례없는 성능으로 더 빠른 반복 작업이 가능한 더 나은
모델을 더 일찍 확인하세요.
시스템 통합과 소프트웨어 엔지니어링에 시간을 낭비하지 마세요.

규모에 맞는 인프라 배포 및 AI 운용

모든 AI 워크로드를 위한 하나의 시스템으로
간소화된 인프라 디자인과 용량 계획을 경험하세요.
최고의 컴퓨팅 밀도 및 성능을
최소한의 공간에서 달성하세요.
컨테이너부터 칩까지 층마다 내장된 보안을 활용하세요.

인사이트 확보 시간 단축 및 AI의 ROI 가속화

데이터 사이언티스트의 생산성을 증대하고
부가 가치가 없는 노력을 들이지 마세요.
컨셉에서 프로덕션까지
제품 개발 사이클을 가속하세요.
DGX 전문가가 문제점을 해결할 수 있도록 함께
도와드립니다.

강력한 구성 요소 살펴보기

❶총 320GB의 GPU 메모리를 탑재한 NVIDIA A100 GPU 8개

GPU당 NVLink 12개 GPU 간 대역폭 600GB/s
❷NVSWITCH 6개

양방향 대역폭 4.8TB/s 이전 세대보다 2배 더 증가
❸Mellanox ConnectX-6 VPI HDR InfiniBand/200GB 이더넷 9개

최대 450GB/s의 양방향 대역폭
❹듀얼 64코어 AMD CPU 및 1TB 시스템 메모리

3.2배 더 많은 코어로 가장 집약적인 AI 작업 처리
❺15 TB GEN4 NVME SSD

최대 25GB/s의 대역폭 Gen3 NVME SSD보다 2배 빠른 속도

1
2
4
5

The Technology Inside NVIDIA DGX A100

NVIDIA A100 Tensor Core GPU: NVIDIA A100 Tensor 코어 GPU는 AI, 데이터 분석 및 고성능 컴퓨팅 (HPC)을 위한 유례없는 가속화를 제공하여 세계에서 가장 까다로운 컴퓨팅 문제를
처리합니다. 3세대 NVIDIA Tensor 코어가 막대하게 성능을 향상하므로 A100 GPU는 수천 개 단위로 효율적으로 확장하거나 Multi-Instance GPU 를 통해 7개의 더 작은 인스턴스로 분할 되어 모든 규모의 워크로드를 가속화할 수 있습니다.

Multi-Instance GPU (MIG): MIG(Multi-Instance GPU) 덕분에 DGX A100의 A100 GPU 8개는 무려 56개의 GPU 인스턴스로 구성될 수 있으며 각 GPU 인스턴스는 고유의 고대역폭 메모리, 캐시, 컴퓨팅 코어로 완전히 격리될 수 있습니다. 이는 관리자가 여러 워크로드를 위해 보장된 서비스 품질(QoS)의 GPU를 적절한 크기로 사용할 수 있게 합니다.

차세대 NVLink 및 NVSwitch: DGX A100에서 3세대 NVIDIA® NVLink®는 GPU 간의 직접적인 대역폭을
2배인 600GB/s로 증가시키며 이는 PCIe Gen 4의 10배에 달합니다. DGX A100는 이전 세대보다 2배 빠른 차세대 NVIDIA NVSwitch™를 탑재합니다.

Mellanox ConnectX-6 VPI HDR InfiniBand: DGX A100은 200GB/s로 작동하는 최신 Mellanox ConnectX-6 VPI HDR InfiniBand/이더넷 어댑터를 탑재하여 대규모 AI 워크로드를 위한 고속 패브릭을 생성합니다.

최적화된 소프트웨어 스택: DGX A100은 AI 조정된 기본 운영 체제, 필요한 모든 시스템 소프트웨어, GPU 가속 애플리케이션, 사전 트레이닝된 모델 및 NGC™의 기타 기능 등 테스트를 거쳐 최적화된 DGX 소프트웨어 스택을 통합합니다.

내장형 보안: DGX A100은 자체 암호화 드라이브, 서명된 소프트웨어 컨테이너, 안전한 관리 및 모니터링 등 모든 주요 하드웨어 및 소프트웨어 구성 요소를 보호하는
다단계 접근 방식으로 AI 배포를 위한 가장 든든한 보안 방식을 제공합니다.

NVLink and NVSwitch

향상된 멀티 GPU 프로세싱,
속도와 확장성이 향상된 상호 연결의 필요성

AI 및 고성능 컴퓨팅(HPC)에서의 컴퓨팅 수요가 증가함에 따라 GPU 시스템이 함께 하나의 거대한 가속기 역할을 할 수 있도록 GPU 간의
원활한 연결이 가능한 멀티 GPU 시스템에 대한 필요성이 커지고 있습니다. 하지만 표준인 PCIe의 제한된 대역폭으로 인해 병목 현상이
발생하는 경우가 잦습니다. 가장 강력한 엔드 투 엔드 컴퓨팅 플랫폼을 구축하려면 속도와 확장성이 더욱 향상된 상호연결이 필요합니다.

NVLink와 NVSwitch가 함께 작동하는 방식

NVIDIA® NVLink®는 GPU 간 고속 직접 상호 연결입니다. NVIDIA NVSwitch™는 여러 NVLink를 통합함으로써 NVIDIA HGX™ A100과 같은
단일 노드 내에서 올 투 올 GPU 통신을 최대 NVLink 속도로 제공하여 한 차원 높은 상호 연결성을 제공합니다. NVIDIA는 NVLink와
NVSwitch를 조합하여 AI 성능을 효율적으로 여러 GPU로 확장하고 최초의 범산업 AI 벤치마크인 MLPerf 0.6을 획득할 수 있었습니다.

시스템 처리량 극대화: 3세대 NVLINK; NVIDIA NVLink 기술은 멀티 GPU 시스템 구성을 위해 더 높은 대역폭
더 많은 링크, 개선된 확장성을 제공함으로써 상호 연결 문제
해결합니다. 하나의 NVIDIA A100 Tensor 코어 GPU는 최대 12개의
3세대 NVLink 연결을 지원하여 600GB/s의 총 대역폭을 구현하며 이
PCIe Gen 4 대역폭의 거의 10배에 해당합니다. NVIDIA DGX™ A100과
같은 서버는 이 기술을 활용하여 초고속 딥 러닝 트레이닝을 위한 더 높은
확장성을 제공합니다.

NVLink Performance

NVSwitch - 완전히 연결된 NVLink: 멀티 GPU 시스템 수준에서 PCIe 대역폭이 병목 현상을 일으키는
경우가 잦아 딥 러닝의 신속한 도입은 속도와 확장성이 향상된 상호
연결 기술에 대한 수요를 증가시켰습니다. 딥 러닝 워크로드의 확장을
위해서는 대폭 증가된 대역폭과 감소된 지연 시간이
요구됩니다.

NVIDIA NVSwitch는 이 문제를 해결하기 위해 NVLink의 고급 통신
기능을 기반으로 구축됩니다. 단일 서버에서 더 많은 GPU를 지원하며
이러한 GPU 사이에 완전한 대역폭 연결성을 보장하는
GPU 패브릭으로 딥 러닝 성능을 다음 단계로 끌어올립니다. 각 GPU의 NVLink 12개가 NVSwitch로 완전히 연결되어 올투올(All-to-all) 고속 통신을 지원합니다.

비교할 수 없는 성능을 제공하는 완전한 연결: NVSwitch는 단일 서버 노드에서 8개~16개의 완전히 연결된 GPU를 지원하는 최초의 노드 간 스위치 아키텍처입니다. 2세대 NVSwitch는 놀라운 600GB/s 속도로 모든 GPU 쌍 사이에 동시 통신을 지원합니다. 직접적인 GPU 피어 투 피어(Peer-to-per) 메모리 주소 지정으로 완전한 올 투 올 통신을 지원합니다. 이러한 16장의 GPU는 통합 메모리 공간과 최대 10페타플롭스의 딥 러닝 컴퓨팅 성능을 갖춘 단일 고성능 가속기로 사용될 수 있습니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼: NVLink 및 NVSwitch는 완전한 NVIDIA 데이터센터 솔루션의 구성 요소로, 이 솔루션은 하드웨어, 네트워킹, 소프트웨어, 라이브러리, 그리고 NGC™의 최적화된 AI 모델 및 애플리케이션을 통합합니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 프로덕션에 배포하여 모든 규모의 전례 없는 가속화를 제공할 수 있습니다.

	2세대	3세대
총 NVLink 대역폭	300 GB/s	600 GB/s
GPU별 최대 링크 수	6	12
지원되는 NVIDIA 아키텍처	NVIDIA Volta^TM	NVIDIA Ampere Architecture

	1세대	2세대
직접 연결이 지원되는 GPU 수	최대 16개	최대 16개
NVSwitch GPU 간 대역폭	300 GB/s	600 GB/s
총 집계 대역폭	4.8 TB/s	9.6 TB/s
지원되는 NVIDIA 아키텍처	NVIDIA Volta^TM	NVIDIA Ampere Architecture

NVIDIA DGX A100 SPECIFICATIONS

GPUs: 8x NVIDIA A100 Tensor Core GPUs

GPU Memory: 320 GB total

Performance: 5 petaFLOPS AI
10 petaOPS INT8

NVSwitches: 6

System Power Usage: 6.5kW max

CPU: Dual AMD Rome 7742, 128 cores total,
2.25 GHz (base), 3.4 GHz (max bozost)

System Memory: 1TB

Networking: 8x Single-Port Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand
1x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200Gb/s Ethernet

Storage: OS: 2x 1.92TB M.2 NVME drives
Internal Storage: 15TB
(4x 3.84TB) U.2 NVME drives

Software: Ubuntu Linux OS

System Weight: 271 lbs (123 kgs)

Packaged System Weight: 315 lbs (143 kgs)

System Dimensions: Height: 10.4 in (264.0 mm)
Width: 19.0 in (482.3 mm) MAX
Length: 35.3 in (897.1 mm) MAX

Operating Temperature Range: 5ºC to 30ºC (41ºF to 86ºF)