엔비디아가 16일부터 21일까지(현지시간) 미국 세인트루이스에서 개최되는 ‘슈퍼컴퓨팅 2025(Supercomputing 2025, SC25)’ 콘퍼런스에서 엔비디아(NVIDIA) 블루필드 DPU(BlueField DPU), 차세대 네트워킹, 양자 컴퓨팅, 국가 연구, AI 물리 등 다양한 분야의 혁신을 공개했으며, 가속화된 시스템으로 AI 슈퍼컴퓨팅의 새로운 장을 열어가고 있다고 밝혔다.
엔비디아는 엔비디아 블루필드-4 데이터 처리 장치로 구동되는 스토리지 혁신을 강조했다. 이는 기가스케일 AI 인프라를 가속화하는 풀스택 블루필드 플랫폼의 일부다.
엔비디아 퀀텀-X 포토닉스 인피니밴드(Quantum-X Photonics InfiniBand) CPO 네트워킹 스위치에 대한 추가 정보도 공개됐다. 이 스위치는 AI 팩토리의 에너지 소비량과 운영 비용을 획기적으로 절감할 수 있도록 지원하며, 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center, TACC), 람다(Lambda), 코어위브(CoreWeave)에 통합될 계획이다.
엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 SC25 행사에 깜짝 등장해 참석자들에게 엔비디아 슈퍼컴퓨팅 관련 소식을 전했다.
젠슨 황 CEO는 “올해 가장 큰 소식은 그레이스 블랙웰(Grace Blackwell)이다. 2세대 그레이스 플랫폼인 GB300의 생산은 놀라울 정도로 순조롭게 진행되고 있다. 우리는 슈퍼컴퓨터를 ‘치클렛(Chiclets)’ 껌처럼 생산하고 있다”고 말했다.
또한 그는 세계에서 가장 작은 슈퍼컴퓨터인 엔비디아 DGX 스파크(DGX Spark) AI 슈퍼컴퓨터를 선물로 가져왔다.
황 CEO는 “이것이 바로 DGX 스파크로, 10명에게 이 제품을 선물로 드릴 예정이다. 크리스마스 트리 아래 놓으면 정말 멋질 것”이라고 말했다.
지난달 엔비디아는 세계에서 가장 작은 AI 슈퍼컴퓨터인 DGX 스파크의 출하를 시작했다. DGX 스파크는 페타플롭(petaflop) 수준의 AI 성능과 128GB 통합 메모리를 데스크탑 폼팩터에 탑재했으며, 이는 개발자가 최대 2,000억 개 파라미터 모델에 대한 추론을 실행하고 로컬에서 모델을 미세 조정할 수 있도록 지원한다. 그레이스 블랙웰 아키텍처 기반으로 구축된 DGX 스파크는 엔비디아 GPU, CPU, 네트워킹, 쿠다(CUDA) 라이브러리, 엔비디아 AI 소프트웨어 스택 전체를 통합한다.
DGX 스파크의 통합 메모리와 엔비디아 NV링크-C2C(NVLink-C2C)는 PCIe 젠5(Gen5) 대비 5배의 대역폭을 제공해 GPU-CPU 간 데이터 교환 속도를 가속화한다. 이는 데스크탑 폼팩터 내에서 대규모 모델의 훈련 효율성을 높이고, 지연 시간을 줄이며, 원활한 미세 조정 워크플로우를 지원한다.
AI 물리학 위한 최신 오픈 모델 제품군 ‘엔비디아 아폴로’ 공개
SC25에서는 AI 물리학을 위한 오픈 모델 제품군인 엔비디아 아폴로(Apollo)도 소개됐다. 여러 업계 선도 기업들은 전자 장치 자동화와 반도체, 전산 유체 역학, 구조 역학, 전자기학, 기상 등 다양한 분야에서 설계 프로세스를 시뮬레이션하고 가속화하기 위해 이 오픈 모델을 채택하고 있다. 여기에는 어플라이드 머티어리얼즈(Applied Materials), 케이던스(Cadence), 램리서치(LAM Research), 루미너리 클라우드(Luminary Cloud), KLA, 피직스X(PhysicsX), 리스케일(Rescale), 지멘스(Siemens), 시놉시스(Synopsys) 등이 포함된다.
오픈 모델 제품군은 최신 AI 물리학 개발을 활용해 신경 연산자(neural operator), 트랜스포머, 확산(diffusion) 방법 등 최고 수준의 머신러닝 아키텍처를 도메인별 지식과 결합한다. 아폴로는 사전 훈련된 체크포인트와 훈련, 추론, 벤치마킹을 위한 참조 워크플로우를 제공해 개발자가 특정 요구사항에 맞게 모델을 통합하고 맞춤화할 수 있도록 지원한다.
엔비디아 워프, 물리 시뮬레이션 성능 극대화
엔비디아 워프(Warp)는 컴퓨팅 물리와 AI를 위한 GPU 가속을 최대 245배까지 제공하는 목적형 오픈소스 파이썬(Python) 프레임워크다.
이는 시뮬레이션, 로보틱스, 머신러닝 워크로드에 체계적인 접근 방식을 제공하며, 파이썬의 접근성과 네이티브 쿠다 코드에 준하는 성능을 결합한다.
워프는 파이토치(PyTorch), JAX, 엔비디아 피직스네모(PhysicsNeMo), 엔비디아 옴니버스(Omniverse)의 머신러닝 파이프라인과 통합되는 GPU 가속 3D 시뮬레이션 워크플로우 생성을 지원한다. 이를 통해 개발자는 파이썬 프로그래밍 환경 내에서 복잡한 시뮬레이션 작업을 실행하고 대규모로 데이터를 생성할 수 있다.
워프는 파이썬 수준의 생산성으로 쿠다 수준의 성능을 제공해 고성능 시뮬레이션 워크플로우 개발을 간소화한다. GPU 프로그래밍의 장벽을 낮춰 고급 시뮬레이션과 데이터 생성을 보다 효율적이고 널리 접근 가능하게 함으로써 AI 연구와 엔지니어링을 가속화하도록 설계됐다.
지멘스, 뉴럴 컨셉(Neural Concept), 루미너리 클라우드 등이 엔비디아 워프를 도입하고 있다.
AI 팩토리 운영 체제를 구동하는 블루필드-4 공개
GTC 워싱턴 D.C.에서 공개된 엔비디아 블루필드-4 DPU는 AI 팩토리의 운영 체제를 구동한다. 네트워킹, 스토리지, 보안 등 핵심 데이터 센터 기능을 오프로드, 가속화, 격리함으로써 CPU와 GPU가 컴퓨팅 집약적 워크로드에 주력할 수 있도록 한다.
64코어 엔비디아 그레이스(Grace) CPU와 엔비디아 커넥트X-9(ConnectX-9) 네트워킹을 결합한 블루필드-4는 대규모 환경에서 전례 없는 성능, 효율성, 제로 트러스트 보안을 실현한다. 엔비디아 도카(DOCA) 마이크로서비스의 네이티브 통합을 통해 확장 가능한 컨테이너화된 AI 운영을 지원하며, 멀티테넌트 환경, 신속한 데이터 접근, 실시간 보호 기능을 제공한다. 이 기술들은 데이터 센터를 지능형 소프트웨어 정의 엔진으로 전환해 1조 토큰 규모의 AI를 포함한 다양한 작업을 가능하게 한다.
AI 팩토리와 슈퍼컴퓨팅 센터의 규모와 역량이 지속적으로 확대되고 있다. 이에 따라, 대규모 훈련과 추론을 위한 구조화 데이터, 비구조화 데이터, AI 네이티브 데이터를 관리하기 위해 더 빠르고 지능적인 스토리지 인프라가 필요해졌다.
선도적인 스토리지 혁신 기업인 DDN, 바스트 데이터(VAST Data), 웨카(WEKA)는 블루필드-4를 채택해 AI와 과학 워크로드의 성능과 효율성을 재정의하고 있다.
- DDN은 차세대 AI 팩토리를 구축해 데이터 파이프라인을 가속화함으로써 AI와 HPC 워크로드에 대한 GPU 활용도를 극대화하고 있다.
- 바스트 데이터는 대규모 AI 클러스터 전반에 걸쳐 지능형 데이터 이동과 실시간 효율성을 통해 AI 파이프라인을 발전시키고 있다.
- 웨카는 블루필드-4 기반 뉴럴메시(NeuralMesh) 아키텍처를 출시해 DPU에서 직접 스토리지 서비스를 실행함으로써 AI 인프라를 단순화하고 가속화하고 있다.
이 HPC 스토리지 선도 기업들은 엔비디아 블루필드-4가 데이터 이동과 관리를 어떻게 혁신하는지 함께 선보이고 있다. 이를 통해 스토리지는 차세대 슈퍼컴퓨팅과 AI 인프라를 위한 성능 증폭 장치로 거듭나고 있다.
엔비디아 CPO 기술 도입으로 속도와 신뢰성 확보
TACC, 람다, 코어위브는 내년부터 차세대 시스템에 엔비디아 퀀텀-X 포토닉스 인피니밴드 CPO(Co-Packaged Optics) 스위치를 통합할 계획이라고 발표했다.
엔비디아 퀀텀-X 포토닉스 네트워킹 스위치는 AI 팩토리와 슈퍼컴퓨팅 센터의 에너지 소비량과 운영 비용을 획기적으로 절감한다. 엔비디아는 전자 회로와 광통신의 융합을 대규모로 실현했다.
AI 팩토리가 전례 없는 규모로 성장함에 따라 네트워크도 이에 발맞춰 진화해야 한다. 엔비디아 포토닉스(Photonics) 스위치 시스템은 작업 실행 시간 실패의 주요 원인인 기존 플러그형 트랜시버를 제거했다. 이로써 전력 효율성을 3.5배 향상시키고 복원력을 10배 높여 애플리케이션이 중단 없이 5배 더 오래 실행될 수 있도록 지원한다.
실리콘밸리에서 열린 GTC 2024에서 엔비디아는 1조 매개변수 규모의 생성형 AI 모델을 구동하기 위해 특별히 설계된 엔비디아 퀀텀-X800 인피니밴드 스위치를 공개했다. SHARPv4(scalable hierarchical aggregation and reduction protocol), FP8 지원과 같은 혁신 기술 덕분에 이 플랫폼은 전례 없는 800Gb/s의 종단 간 처리량을 제공한다. 이는 기존 제품 대비 2배의 대역폭과 9배의 네트워크 내 컴퓨팅 성능을 구현한 것이다.
엔비디아 퀀텀-X800이 대규모 AI 수요를 충족하기 위해 계속해서 널리 채택되는 가운데, 올해 초 GTC에서 발표된 엔비디아 퀀텀-X 포토닉스는 더 큰 규모의 배포에서 발생하는 중요한 전력, 복원력, 신호 무결성 문제를 해결한다. 스위치에 광학 장치를 직접 통합함으로써, 플러그형 트랜시버와 링크 플랩으로 인한 장애를 제거해 대규모 워크로드가 중단 없이 실행되도록 한다. 더불어 플러그형 트랜시버 대비 최대 5배 향상된 성능으로 차세대 컴퓨팅 집약적 애플리케이션을 지원할 수 있는 인프라를 보장한다.
람다의 클라우드 인프라 제품 매니저 맥스 개리슨(Maxx Garrison)은 “엔비디아 퀀텀-X 포토닉스는 복원력을 갖춘 고성능 AI 네트워크 구축의 다음 단계를 상징한다. 전력 효율성, 신호 무결성, 신뢰성 측면의 이러한 발전은 고객을 위한 효율적인 대규모 워크로드를 지원하는 핵심이 될 것”이라고 말했다.
SHARPv4는 네트워크 내 집계와 축소 기능을 지원해 GPU 간 통신 오버헤드를 최소화한다. FP8 정밀도와 결합돼 대역폭과 연산 요구량을 줄여 1조 개 매개변수 모델의 훈련을 가속화하며, 더 빠른 수렴과 높은 처리량을 제공한다. 이는 엔비디아 퀀텀-X800과 퀀텀-X 포토닉스 스위치에 기본 탑재된다.
코어위브의 공동 창립자 겸 최고기술책임자(CTO)인 피터 살란키(Peter Salanki)는 “코어위브는 AI를 위한 에센셜 클라우드(Essential Cloud)를 구축하고 있다. 엔비디아 퀀텀-X 포토닉스를 통해 전력 효율성을 향상시키고, 대규모 AI 워크로드를 지원하는 데 있어 코어위브가 인정받는 신뢰성을 더욱 강화했다. 이를 통해 고객이 차세대 AI의 잠재력을 최대한 발휘할 수 있도록 돕고 있다”고 말했다.
엔비디아 퀀텀-X 포토닉스 플랫폼은 엔비디아 퀀텀 Q3450 CPO 기반 인피니밴드 스위치와 커넥트X-8 슈퍼NIC을 핵심으로 한다. 이는 최고 성능 환경을 위해 설계됐으며, 동시에 현저히 낮은 전력 소비, 높은 복원력, 낮은 지연 시간을 요구한다.
전 세계 주요 슈퍼컴퓨팅 센터, NVQ링크 도입
전 세계 12곳 이상의 최상위 과학 컴퓨팅 센터들이 가속 컴퓨팅과 양자 프로세서를 연결하는 범용 인터커넥트인 NVQ링크(NVQLink)를 도입하고 있다.
엔비디아 가속 컴퓨팅 부문 부사장 겸 총괄 매니저인 이안 벅(Ian Buck)은 “이번 슈퍼컴퓨팅 행사에서 우리는 전 세계 슈퍼컴퓨팅 센터들과 함께 차세대 양자 GPU, CPU-GPU 슈퍼컴퓨터 구축을 위해 전념했으며, 이를 각자의 특정 연구 분야나 양자 컴퓨팅 배포 플랫폼에 연결하는 방안을 모색하고 있다”고 말했다.
NVQ링크는 양자 프로세서를 엔비디아 GPU와 연결해 쿠다-Q 소프트웨어 플랫폼으로 구동되는 대규모 워크플로우를 지원한다. NVQ링크의 개방형 아키텍처는 슈퍼컴퓨팅 센터가 다양한 양자 프로세서를 통합하는 데 필요한 핵심 연결을 제공하면서 FP4 정밀도에서 40페타플롭의 AI 성능을 제공한다.
미래에는 모든 슈퍼컴퓨터가 해결 가능한 문제 영역을 확장하기 위해 양자 프로세서를 활용하게 될 것이며, 모든 양자 프로세서는 올바르게 작동하기 위해 GPU 슈퍼컴퓨터에 의존하게 될 전망이다.
양자 컴퓨팅 기업 퀀티넘(Quantinuum)의 신형 헬리오스(Helios) QPU는 NVQ링크를 통해 엔비디아 GPU와 통합되며, 확장 가능한 qLDPC 양자 오류 정정 코드의 실시간 디코딩을 세계 최초로 달성했다. NVQ링크의 마이크로초 단위 저지연 덕분에 이 시스템은 오류 정정 없이 95%에 그치던 정확도를 99%로 유지했다.
NVQ링크를 통해 과학자, 개발자는 양자와 고전 하드웨어 간 보편적 연결 고리를 확보했으며, 이로 인해 확장 가능한 오류 정정, 하이브리드 애플리케이션, 실시간 양자-GPU 워크플로우 구현이 가능해졌다.
아태지역 초기 도입 기관에는 일본 산업기술종합연구소(AIST) 산하의 양자-AI 기술 글로벌 연구개발센터(G-QuAT)와 리켄(RIKEN, 이화학연구소) 고성능컴퓨팅센터, 한국의 한국과학기술정보연구원(KISTI), 대만의 국가고성능컴퓨팅센터(NCHC), 싱가포르의 국가 양자컴퓨팅 허브(싱가포르 양자기술센터, A*STAR 고성능 컴퓨팅 연구소, 싱가포르 국립 슈퍼컴퓨팅 센터의 공동 사업), 호주의 파우시 슈퍼컴퓨팅 연구 센터(Pawsey Supercomputing Research Centre) 등이 포함된다.
유럽과 중동지역에서는 다양한 기관에서 NVQ링크를 도입하고 있다. 여기에는 CINECA, 덴마크 AI 슈퍼컴퓨터 운영사인 덴마크 DCAI, 프랑스 과학 연구 센터(GENCI), 체코 IT4이노베이션스(IT4I) 국립 슈퍼컴퓨팅 센터(National Supercomputing Center), 독일 율리히 슈퍼컴퓨팅 센터(JSC), 폴란드 포즈난 슈퍼컴퓨팅 네트워킹 센터(PCSS), 아랍에미리트 기술혁신연구소(TII), 사우디아라비아 킹 압둘라 과학기술대학교(KAUST) 등이 포함된다.
미국에서는 주요 국립 연구소들이 하이브리드 양자-고전 연구를 발전시키기 위해 NVQ링크를 도입하고 있다. 여기에는 브룩헤이븐 국립연구소(Brookhaven National Laboratory), 페르미 국립 가속기 연구소(Fermi National Accelerator Laboratory), 로렌스 버클리 국립연구소(Lawrence Berkeley National Laboratory), 매사추세츠공과대학 링컨 연구소(MIT Lincoln Laboratory), 오크리지 국립연구소(Oak Ridge National Laboratory), 퍼시픽 노스웨스트 국립연구소(Pacific Northwest National Laboratory), 샌디아 국립연구소(Sandia National Laboratories) 등이 포함된다.
현실 세계를 위한 하이브리드 애플리케이션 개발
퀀티넘의 NVQ링크를 탑재한 헬리오스 QPU가 달성한 성과는 다음과 같다.
- qLDPC 오류 정정 코드의 최초 실시간 디코딩
- NVQ링크 정정 시 최대 99% 정확도, 비정정 시 최대 95% 달성
- 60마이크로초 반응 시간으로 헬리오스의 1밀리초 요구사항을 16배 초과 달성
NVQ링크는 확장 가능한 오류 수정과 하이브리드 애플리케이션을 위해 양자 프로세서와 GPU 슈퍼컴퓨팅을 통합한다. 과학자들은 쿠다-Q API를 통해 단일 프로그래밍 환경을 확보할 수 있다. 개발자들은 실시간으로 양자-GPU 워크플로우를 구축하고 테스트할 수 있다.
NVQ링크를 통해 전 세계 슈퍼컴퓨팅 센터들은 다양한 양자 프로세서를 엔비디아 가속 컴퓨팅과 전례 없는 속도와 규모로 연결함으로써 실용적인 양자-고전 시스템의 기반을 마련한다.
엔비디아와 리켄, 일본의 과학적 경계를 확장하다
엔비디아와 리켄은 과학 연구용 AI와 양자 컴퓨팅 분야의 일본 리더십 확장을 위해 두 대의 새로운 GPU 가속 슈퍼컴퓨터를 구축 중이다. 이 시스템들은 GB200 NVL4 플랫폼과 엔비디아 퀀텀-X800 인피니밴드 네트워킹을 통해 연결된 2,140개의 엔비디아 블랙웰 GPU를 탑재해, 일본의 주권형 AI 전략과 안정적인 국내 인프라를 강화할 예정이다.
- 과학용 AI 시스템: 블랙웰 GPU 1,600개가 생명과학, 재료 과학, 기후·기상 예측, 제조, 연구실 자동화 분야의 연구를 지원한다
- 양자 컴퓨팅 시스템: 블랙웰 GPU 540개가 양자 알고리즘, 하이브리드 시뮬레이션, 양자-고전 방식의 가속화를 실현한다.
이 파트너십은 후지쯔(Fujitsu)와 엔비디아의 협력을 바탕으로, 리켄이 후가쿠(Fugaku) 슈퍼컴퓨터의 후속 모델인 후가쿠NEXT를 공동 설계하는 데 기반을 두고 있으며, 2030년까지 애플리케이션 성능을 100배 향상시키고 양산 수준의 양자 컴퓨터를 통합할 전망이다.
리켄의 두 신규 시스템은 2026년 봄에 가동될 예정이다.
Arm, 엔비디아 NV링크 퓨전 채택
와트당 효율성이 성공을 좌우하는 아키텍처의 전환 속에서 AI는 데이터 센터를 재편하고 있다. 그 중심에는 10억 개 이상의 코어에 배포돼 2025년까지 하이퍼스케일러 시장 점유율 50% 달성이 예상되는 암 네오버스(Arm Neoverse)가 있다. AWS, 구글(Google), 마이크로소프트(Microsoft), 오라클(Oracle), 메타(Meta) 등 모든 주요 공급업체가 네오버스를 기반으로 구축 중이며, 대규모 AI 구동에서 네오버스의 역할은 더욱 두드러진다.
급증하는 수요를 충족하기 위해 Arm은 네오버스를 그레이스 블랙웰에서 최초로 선보인 고대역폭 일관성 인터커넥트인 엔비디아 NV링크 퓨전(NVLink Fusion)으로 확장한다. NV링크 퓨전은 CPU, GPU, 가속기를 하나의 통합 랙 스케일 아키텍처로 연결해 AI 성능을 제한하는 메모리와 대역폭 병목 현상을 제거한다. 이는 Arm의 AMBA CHI C2C 프로토콜과 연결되며 Arm 기반 CPU와 파트너사가 선호하는 가속기 간 원활한 데이터 이동을 보장한다
엔비디아는 Arm과 함께 AI 인프라의 새로운 기준을 제시하며, 생태계 파트너들이 차별화된 에너지 효율 시스템을 구축해 AI 시대 전반에 걸친 혁신을 가속화할 수 있도록 지원한다.
이안 벅 부사장은 “자체 Arm CPU를 개발하거나 Arm IP를 사용하는 업체들은 실제로 NV링크 퓨전에 접근할 수 있으며, 해당 Arm CPU를 엔비디아 GPU와 나머지 NV링크 생태계에 연결할 수 있다. 이는 랙과 확장형 인프라 수준에서 실현되고 있다”고 말했다.
가속 컴퓨팅을 위한 스마트한 전력 관리
AI 팩토리가 확장됨에 따라 에너지가 새로운 병목 현상으로 제기되고 있다. 엔비디아 도메인 파워 서비스(Domain Power Service, DPS)는 전력을 동적이고 조율된 자원으로 변화시켜 이러한 제약을 기회로 전환한다. 쿠버네티스(Kubernetes) 서비스로 운영되는 DPS는 랙부터 룸, 시설에 이르기까지 데이터센터 전반의 에너지 사용을 모델링하고 관리한다. 운영자는 인프라를 확장하지 않고도 전력을 지능적으로 제어해 메가와트당 더 높은 성능을 추출하고 처리량을 향상시킬 수 있다.
DPS는 차세대 데이터센터 설계와 운영 플랫폼인 엔비디아 옴니버스 DSX 블루프린트(Omniverse DSX Blueprint)와 긴밀하게 통합된다. 이 기술은 시설 전반에 걸쳐 워크로드를 균형 있게 분배하는 파워 리저베이션 스티어링(Power Reservation Steering)과 특정 작업 요구에 맞춰 GPU 전력을 조정하는 워크로드 파워 프로파일 솔루션(Workload Power Profile Solution)과 함께 작동한다. 이 기술들은 에너지 효율을 고려한 제어 계층인 DSX 부스트(Boost)를 구성해 성능 목표를 달성하면서 효율성을 극대화한다.
또한 DPS는 데이터센터를 넘어 더 넓은 영역으로 확장된다. 그리드 연동 API를 통해 자동화된 부하 감축과 수요 반응을 지원해 전력사가 피크 시간대에 그리드를 안정화할 수 있도록 지원한다. 그 결과, 모든 와트를 실질적인 성과로 전환하는 회복탄력성 있는 그리드 연동형 AI 팩토리를 구현할 수 있다.
| |
| |
| |
| |
|
| 관련뉴스 | - 관련뉴스가 없습니다. |