엔비디아, 대규모 언어 모델 및 생성형 AI 워크로드를 위한 추론 플랫폼 출시

등록일 2023년03월23일 15시18분 트위터로 보내기

 

엔비디아(CEO 젠슨 황)가 빠르게 부상하고 있는 다양한 생성형 AI 애플리케이션에 최적화된 추론 플랫폼 4종을 출시했다. 이번에 발표된 추론 플랫폼들은 개발자가 새로운 서비스와 통찰력을 제공할 수 있는 전문화된 AI 기반 애플리케이션을 신속하게 구축할 수 있도록 지원한다.

 

이 플랫폼은 엔비디아의 추론 소프트웨어 전체 스택과 엔비디아 L4 텐서 코어(Tensor Core) GPU 및 엔비디아 H100 NVL GPU를 포함한 최신 엔비디아 에이다(Ada), 엔비디아 호퍼(Hopper), 엔비디아 그레이스 호퍼(Grace Hopper) 프로세서를 결합한다. 각 플랫폼은 AI 비디오, 이미지 생성, 대규모 언어 모델 배포, 추천자 추론 등을 포함한 주문형 워크로드에 최적화되어 있다.

 

엔비디아 창립자이자 CEO인 젠슨 황(Jensen Huang)은 "생성형 AI의 부상으로 더욱 강력한 추론 컴퓨팅 플랫폼이 필요해졌다. 생성형 AI의 응용 분야는 무한하며, 인간의 상상력에 의해서만 제한된다. 개발자들이 가장 강력하고 유연한 추론 컴퓨팅 플랫폼으로 무장하면 아직 상상할 수 없는 방식으로 우리의 삶을 개선할 새로운 서비스 개발이 가속화될 것이다"라고 말했다.

 

생성형 AI의 다양한 추론 워크로드 가속화

각 플랫폼에는 특정 생성형 AI 추론 워크로드에 최적화된 엔비디아 GPU와 전문 소프트웨어가 포함되어 있다.

 

AI 비디오용 엔비디아 L4는 CPU보다 120배 더 뛰어난 AI 기반 비디오 성능과 99% 향상된 에너지 효율성을 제공한다. 거의 모든 워크로드를 위한 범용 GPU 역할을 하며 향상된 비디오 디코딩 및 트랜스코딩 기능, 비디오 스트리밍, 증강 현실, 생성형 AI 비디오 등을 제공한다.

 

이미지 생성용 엔비디아 L40은 그래픽 및 AI 지원 2D, 비디오 및 3D 이미지 생성에 최적화되어 있다. L40 플랫폼은 데이터 센터에서 메타버스 애플리케이션을 구축하고 운영하기 위한 플랫폼인 엔비디아 옴니버스(Omniverse)의 엔진 역할을 하며, 이전 세대에 비해 7배의 스테이블 디퓨전(Stable Diffusion)을 위한 추론 성능과 12배의 옴니버스 성능을 제공한다.

 

대규모 언어 모델 배포를 위한 엔비디아 H100 NVL은 챗GPT와 같은 대규모 LLM을 대규모로 배포하는 데 이상적이다. 94GB 메모리에 트랜스포머 엔진(Transformer Engine) 가속 기능이 탑재된 새로운 H100 NVL은 데이터 센터 규모에서 이전 세대 A100에 비해 GPT-3에서 최대 12배 빠른 추론 성능을 제공한다.

 

추천 모델용 엔비디아 그레이스 호퍼(Grace Hopper)는 그래프 추천 모델, 벡터 데이터베이스 및 그래프 뉴럴 네트워크에 이상적이다. 그레이스 호퍼는 CPU와 GPU 간의 900GB/s NVLink-C2C 연결을 통해 PCIe Gen 5에 비해 7배 빠른 데이터 전송 및 쿼리를 제공할 수 있다.

 

플랫폼의 소프트웨어 계층에는 고성능 딥 러닝 추론을 위한 소프트웨어 개발 키트인 엔비디아 텐서RT(TensorRT)와 모델 배포를 표준화를 지원하는 오픈 소스 추론 제공 소프트웨어인 엔비디아 트리톤 추론서버(Triton Inference Server)™가 포함된 엔비디아 AI 엔터프라이즈(Enterprise) 소프트웨어 제품군이 있다.

 

조기 도입 및 지원

구글 클라우드는 엔비디아의 주요 클라우드 파트너이자 추론 플랫폼의 초기 고객이다. 구글 클라우드는 머신 러닝 플랫폼인 버텍스(Vertex) AI에 L4 플랫폼을 통합하고 있으며, L4 인스턴스를 제공하는 최초의 클라우드 서비스 제공업체로서 G2 가상 머신의 비공개 프리뷰를 출시한다.

 

생성형 AI를 사용해 크리에이터의 동영상 및 팟캐스트 제작을 지원하는 디스크립트(Descript)와 AI 기반 텍스트 디지털 아트 앱인 드림(Dream)을 제공하는 WOMBO가 구글 클라우드에서 L4를 조기에 이용할 수 있는 최초의 두 조직이다.

 

또 다른 얼리 어답터인 콰이서우(Kuaishou)는 GPU를 활용하여 수신되는 라이브 스트리밍 비디오를 디코딩하고, 주요 프레임을 캡처하고, 오디오 및 비디오를 최적화하는 콘텐츠 커뮤니티와 소셜 플랫폼을 제공한다. 그런 다음 트랜스포머 기반의 대규모 모델을 사용하여 멀티모달 콘텐츠를 이해하고 전 세계 수억 명의 사용자의 클릭률을 개선한다.

 

콰이서우 수석 부사장 유에 유(Yue Yu)는 "콰이서우 추천 시스템은 3억 6천만 명 이상의 사용자가 매일 수천만 개의 UGC 동영상을 공유하는 커뮤니티에 서비스를 제공하고 있다. 동일한 총 소유 비용으로 CPU를 사용할 때와 비교했을 때, 엔비디아 GPU는 시스템 엔드투엔드 처리량을 11배 증가시키고 지연 시간을 20% 줄였다"라고 말했다.

 

선도적인 생성형 AI 기술 플랫폼인 D-ID는 엔비디아 L40 GPU를 사용하여 텍스트로부터 사실적인 디지털 휴먼을 생성함으로써 모든 콘텐츠에 얼굴을 부여하는 동시에 대규모 비디오 제작의 비용과 번거로움을 줄여 전문가용 비디오 콘텐츠의 수준을 높여준다.

 

D-ID의 R&D 담당 부사장인 오르 고로디스키(Or Gorodissky)는 "L40의 성능은 정말 놀라웠다. 이를 통해 추론 속도를 두 배로 높일 수 있었다. D-ID는 이 새로운 하드웨어를 사용하여 전례 없는 성능과 해상도로 AI 휴먼의 실시간 스트리밍을 지원하는 동시에 컴퓨팅 비용을 절감할 수 있게 되어 기쁘다"라고 말했다.

 

선도적인 AI 프로덕션 스튜디오인 세이한 리(Seyhan Lee)는 생성형 AI를 사용하여 영화, 방송 및 엔터테인먼트 산업을 위한 몰입형 경험과 매력적인 크리에이티브 콘텐츠를 개발한다.

 

세이한 리의 공동 창업자 피나르 데미르닥(Pinar Demirdag)는 "L40 GPU는 우리의 생성형 AI 애플리케이션에 놀라운 성능 향상을 제공한다. L40의 추론 기능과 메모리 크기를 통해 최첨단 모델을 배포하고 고객에게 놀라운 속도와 정확성으로 혁신적인 서비스를 제공할 수 있다"라고 말했다.

 

언어 AI 분야의 선도적인 선구자인 코히어(Cohere)는 개발자가 데이터를 비공개로 안전하게 보호하면서 자연어 모델을 구축할 수 있도록 지원하는 플랫폼을 운영한다.

 

코히어 CEO 에이단 고메즈(Aidan Gomez)는 "엔비디아의 새로운 고성능 H100 추론 플랫폼은 대화형 AI, 다국어 엔터프라이즈 검색 및 정보 추출과 같은 다양한 NLP 애플리케이션을 지원하는 최첨단 생성 모델을 통해 고객에게 보다 효율적이고 우수한 서비스를 제공할 수 있게 해준다"라고 말했다.

 

출시 정보

엔비디아 L4 GPU는 구글 클라우드 플랫폼에서 비공개 프리뷰로 제공되며, 어드밴텍(Advantech), ASUS(에이수스), 아토스(ATOS), 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 후지쯔(Fujitsu), 기가바이트(GIGABYTE), 휴렛 팩커드 엔터프라이즈(HPE), 레노버(Lenovo), QCT, 슈퍼마이크(Supermicro)로 등 30개 이상의 컴퓨터 제조업체로 구성된 글로벌 네트워크를 통해서도 구매할 수 있다.

 

현재 에이수스, 델 테크놀로지스, 기가바이트, 레노버, 슈퍼마이크로 등 주요 시스템 제조업체에서 엔비디아 L40 GPU를 구매할 수 있으며, 파트너 플랫폼은 올해 내내 확장될 예정이다.

 

그레이스 호퍼 슈퍼칩(Grace Hopper Superchip)은 현재 샘플링 중이며, 올 하반기에 본격 생산될 예정이다. H100 NVL GPU도 올 하반기 출시 예정이다.

 

이제 주요 클라우드 마켓플레이스와 수십 개의 시스템 제공업체 및 파트너에서 엔비디아 AI 엔터프라이즈를 사용할 수 있다. 엔비디아 AI 엔터프라이즈를 통해 고객은 엔터프라이즈 지원, 정기적인 보안 검토, 엔비디아 트리톤 추론서버™, 텐서RT™ 및 50개 이상의 사전 훈련된 모델과 프레임워크에 대한 API 안정성을 받을 수 있다.

 

생성형 AI를 위한 엔비디아 추론 플랫폼을 사용해 볼 수 있는 핸즈온 랩은 엔비디아 런치 패드(LaunchPad)에서 무료로 즉시 이용할 수 있다. 샘플 랩에는 지원 챗봇 트레이닝 및 배포, 엔드투엔드 AI 워크로드 배포, H100에서 언어 모델 튜닝 및 배포, 엔비디아 트리톤을 사용한 사기 탐지 모델 배포 등이 포함되어 있다.

 


관련뉴스 - 관련뉴스가 없습니다.

가장 많이 본 뉴스

취재기사 기획/특집 게임정보

화제의동영상