다트크리에이티브 IT & CG Magazine

추론 성능 대폭 강화된 엔비디아 텐서RT 3 AI 추론 소프트웨어 공개

AI 컴퓨팅 분야의 선도기업 엔비디아가 새로운 엔비디아 텐서RT 3 AI 추론 소프트웨어(NVIDIA TensorRT 3 AI inference software, 이하 텐서RT 3)를 공개했다.

엔비디아 텐서RT 3 AI 추론 소프트웨어는 대폭 향상된 성능을 제공하는 동시에, 자율주행차, 로봇 등과 관련된 클라우드에서 엣지 디바이스에 이르는 추론 비용을 절감할 수 있도록 지원하며 하이퍼스케일 데이터센터에 있어서 최적의 추론 성능을 제공한다.

텐서RT 3와 엔비디아 GPU 결합은 딥 러닝 추론 작업부하의 처리에 있어 최대 처리량, 최고의 효율성 및 최저수준의 지연성을 이끌어 내며 이미지 및 음성 인식, 자연어 처리, 비주얼 검색 및 맞춤 제안 등 인공지능 기반 서비스를 위한 프레임워크 전반에서 초고속으로 효율적인 추론을 구현할 수 있다.

텐서RT와 엔비디아 테슬라 GPU 가속기(NVIDIA Tesla GPU accelerators)는 CPU 기반 솔루션의 10분의 1에 불과한 비용으로 CPU 대비 최대 40배 가량 빠른 속도를 낼 수 있다.  딥 러닝 추론 애플리케이션 및 서비스를 위한 범용 CPU 서버 수십 대를 대체할 수 있어 랙 공간 문제를 해소할 수 있고, 에너지 및 냉각 관련 필수요건을 줄일 수 있으며 비용을 최대 90% 가량 절감할 수 있다.

텐서RT 3는 AI 애플리케이션의 생산 및 배포를 위한 고성능의 최적화 컴파일러 및 런타임 엔진으로, 트레이닝을 거친 추론용 뉴럴 네트워크를 하이퍼스케일 데이터센터, 임베디드 또는 차량용 GPU 플랫폼으로 최적화, 승인 및 배포하는 작업을 신속하게 진행할 수 있다.

텐서RT 3는 INT8(8비트 정수) 및 FP16(16비트 반정밀도 부동소수점) 연산의 네트워크 실행에서 높은 정확도를 보이며, 데이터센터 운영업체는 매입비용 및 연간 에너지 비용을 수천만 달러 가량 절감할 수 있다. 개발업체의 경우, 텐서RT 3를 사용하면 트레이닝을 거친 뉴럴 네트워크를 이용해 단 하루 만에 배포 가능한 추론 솔루션을 형성할 수 있으며, 해당 솔루션은 트레이닝 프레임워크 대비 3배에서 5배 가량 빠르게 작동한다.

엔비디아의 CEO인 젠슨 황Jensen Huang은 “인터넷 기업들은 수십억 인구가 사용하는 서비스에 인공지능을 적용하려는 경쟁에 뛰어들고 있다. 이에 따라, 인공지능 추론 작업부하가 기하급수적으로 증가하고 있다”며, “엔비디아 텐서RT는 세계 최초의 프로그래밍이 가능한 추론 가속기이다. CUDA의 프로그래밍 기능과 더불어 텐서RT는 증가 추세에 있는 딥 뉴럴 네트워크의 다양성과 복잡성을 가속화할 수 있다. 또한 텐서RT의 놀라운 속도 향상으로 인해 서비스 공급업체들은 연산 집중적인 인공지능 작업부하를 효율적으로 배포할 수 있다”고 말했다.

이미 1,200개 이상의 기업들은 방대한 산업 분야에서 엔비디아의 추론 플랫폼을 이용해 데이터에서 새로운 인사이트를 발견하고, 기업 및 소비자를 대상으로 지능형 서비스를 배포하기 시작했다.
대표적인 기업으로는 아마존, 마이크로소프트, 페이스북, 구글이 있으며, 중국의 주요 대기업인 알리바바, 바이두, JD.com, iFLYTEK, 하이크비전, 텐센트, 위챗 등도 포함된다.

SAP의 CIO인 위르겐 뮬러Juergen Mueller는 “테슬라 GPU상에서 텐서RT 소프트웨어를 활용하는 엔비디아의 AI 플랫폼은 SAP의 점차 증대되는 추론 기능의 필수요건을 수행하는 데 있어 가장 탁월한 기술이다”라며, “텐서RT와 엔비디아 GPU는 고객의 니즈를 충족하기에 충분한 최대의 머신 러닝 성능과 범용성에 기반하여 실시간 서비스 구현을 가능케 한다”고 말했다.

JD의 인공지능 및 빅데이터 담당 수석 책임자인 앤디 첸Andy Chen은 “JD.com은 데이터센터의 추론 기능을 활용하기 위해 엔비디아 GPU와 소프트웨어에 의존하고 있다”며, “테슬라 GPU상에서 엔비디아의 텐서RT를 사용하면 20분의 1의 서버만으로 1,000개의 HD 동영상 스트림을 실시간으로 일제히 추론할 수 있다. 엔비디아의 딥 러닝 플랫폼은 JD에 뛰어난 성능과 효율성을 제공하고 있다”고 말했다.

한편, 인공지능 가속화를 촉진하기 위해 엔비디아는 딥스트림 SDK와 CUDA 9 소프트웨어를 추가적으로 공개했다.

딥스트림 SDK(DeepStream SDK): 엔비디아 딥스트림 SDK(NVIDIA DeepStream SDK는 규모에 관계 없이 실시간으로 저지연low-latency 동영상 분석을 제공한다. 이를 통해 개발자들은 INT8 정밀 연산 및 GPU 가속 트랜스코딩 등 첨단 동영상 추론 기능을 통합, 단 하나의 테슬라Tesla P4 GPU accelerator가속기에서 최대 30개의 HD 스트림에 대해 사물 분류 및 장면 이해 등 인공지능 기반 서비스를 실시간으로 지원할 수 있다.

CUDA 9: 엔비디아의 가속 컴퓨팅 소프트웨어 플랫폼인 CUDA의 최신 버전으로, HPC 및 딥 러닝 애플리케이션의 속도 향상과 더불어 엔비디아 볼타NVIDIA Volta 아키텍처 기반 GPU 지원, 최대 5배 빠른 라이브러리와, 스레드 관리를 위한 신규 프로그래밍 모델 및 디버깅과 프로파일링 도구에 대한 업데이트를 제공한다. CUDA 9는 테슬라 V100 GPU(Tesla V100 GPU) 가속기에서 최대의 성능을 구현하도록 최적화되어 있다.

◆ 다트크리에이티브 | 한재현 기자 wowhjh@gmail.com

DAATKING

멀티미디어, 가상현실&컴퓨터그래픽을 전공한 크리에이티브 디렉터를 지향하는 콘텐츠 제작자겸 저널리스트입니다.
CG 콘텐츠를 제작하는 Media & Entertainment 업계 사람들과 진솔한 이야기와 창의적 지식을 모아서 올바르게 전달하고 소통하도록 노력하겠습니다.

Add comment