다트크리에이티브 IT & CG Magazine

CPU 와 GPU를 넘어서: 엔터프라이즈 규모의 인공지능(AI)에 더욱 전체론적 접근법이 필요한 이유

<인공지능 관련 업계 주요 업체들이 모인 지난 인텔 AI 데브콘AI DevCon 행사에서 인텔 AI 포트폴리오 및 인텔 너바나 신경망 프로세서에 대한 업데이트와 이야기들을 인텔 부사장 겸 AI 제품 그룹 총괄인 나빈 라오Naveen Rao의 이야기를 들어보자. >

인텔이 이번에 처음으로 시작하는 인공지능AI 개발자 컨퍼런스인 인텔 AI DevCon 행사에 인공지능AI 업계의 가장 명석한 두뇌들이 모였다는 사실에 흥분을 감출 수가 없습니다. 인텔은 AI가 우리에게 약속하는 것들을 인텔 혼자의 힘으로는 성취해낼 수 없음을 잘 알고 있습니다. 그보다는, 개발자 커뮤니티, 학계, 그리고 소프트웨어 생태계를 전부 아우르는 업계 전체가 함께 해야 합니다.

그런 의미에서, 저는 오늘 업계의 많은 다른 분들과 이 무대를 함께 하게 돼 매우 기쁩니다. 여기에는, 인텔의 데모 시연, 리서치, 그리고 직접 체험 트레이닝에 함께 할 개발자들도 함께 하게 됩니다. 또한, 구글, 아마존웹서비스AWS, 마이크로소프트, 노바티스Novartis, C3 IoT 역시 우리와 함께 합니다. 이러한 협력으로 AI로 가는 다양한 경로에서 커뮤니티가 더 빠르고 민첩하게 혁신에 필요한 하드웨어와 소프트웨어를 제공하도록 종합적인 권한을 부여할 것입니다.

확실히, AI가 주도하는 미래의 컴퓨팅으로의 전환을 가속화하려면 종합적이고 동시에 엔터프라이즈 규모의 솔루션을 제공해야 합니다. 이는 솔루션들이 밀리와트부터 킬로와트까지 지원 가능한 다수의 아키텍처를 전부 포함한다는 사실, 다시 말해 가장 넓은 범위의 컴퓨팅을 제공한다는 사실을 의미합니다.

또한, 엔터프라이즈 규모의 AI는 다양한 AI 워크로드 전반에 걸쳐 연구자들로 하여금 더 나은 연구 성과를 낼 수 있도록 이미 업계 전체에서 투자한 여러 도구들, 개방형 프레임워크, 인프라를 전부 수용하고 확장하는 일을 의미합니다. 예를 들어, AI 개발자들은 더 빠르고 효율적인 개발을 위해 특정 제품 소프트웨어 플랫폼을 활용하기보다 오픈소스 프레임워크에 직접 프로그래밍을 수행하는 일에 점점 더 많은 관심을 보이고 있습니다.

오늘, 인텔의 발표는 이 모든 분야들을 다루게 될 것이며 개발자들과 고객들이 AI의 혜택을 누리도록 도와줄 몇몇 새로운 파트너십의 발표 역시 함께 할 것입니다.

인텔, AI 다양한 워크로드를 해결하기 위해 AI 포트폴리오를 확장

인텔은 최근 조사에서 인텔의 미국 지역 기업 고객의 50%가 그들의 초기 AI 니즈를 해결하기 위한 방법으로 인텔 제온 프로세서에 기반한 기존 클라우드 솔루션들에 의존하고 있다는 사실을 알게 되었습니다. 그리고 이러한 사실로부터, 특수한 AI의 워크로드를 해결하기 위해 인텔 제온 프로세서, 인텔 너바나 및 인텔 모비디우스 기술, 인텔 FPGA를 포함하는 광범위한 엔터프라이즈 규모용 제품들을 제공하는 인텔의 접근법을 확인하게 되었습니다.

오늘 인텔이 얘기하는 가장 중요한 업데이트 중 하나는 바로 인텔 제온 스케일러블 프로세서Intel Xeon Scalable Processors로의 최적화입니다. 인텔 제온 스케일러블 프로세서로의 최적화는 훈련training과 추론inference의 측면에서 전 세대 대비 괄목할 만한 성능의 개선을 수반합니다. 그리고 이러한 최적화는 결국, 기존의 인프라를 계속 활용하면서 총 비용TCO, total cost of ownership 절감의 이점을 얻으면서 동시에 AI를 향한 첫 번째 걸음을 내딛기를 원하는 많은 기업들에게 혜택으로 작용합니다.

또한, 인텔은 오늘 인텔 너바나 신경망 프로세서Intel Nervana Neural Network Processor-Intel Nervana NNP 최신 제품 군에 대한 업데이트를 제공합니다.

인텔 너바나 NNP는 고도의 연산 활용률compute utilization 달성 및 멀티칩 상호연결multichip interconnects을 통한 진정한 모형 병렬 연산model parallelism 수행이라는 명백한 설계 목표를 가진 제품입니다. 현재 우리 업계는 이론적 최대 성능, 혹은 초당 테라 연산(Terra Operations Per Second, TOP/S, 초당 테라옵스) 수치에 대해서만 많이 얘기하고 있습니다. 하지만, 관련 아키텍처가 연산 요소들에 대한 높은 수준의 활용률 달성을 허용하는 메모리 하부시스템을 갖추지 못했을 경우, 연산에 대한 위와 같은 논의는 현실에서 큰 의미를 갖지 못합니다. 게다가, 현재 업계에 알려진 성능 데이터들의 많은 부분이 대규모 정사각행렬large square matrices을 활용한 수치에 근거하는데, 이러한 정사각행렬의 형태는 현실의 신경망에서 일반적으로 발견되지 않는 형태입니다.

인텔은 저지연에서의 높은 칩-투-칩chip-to-chip 대역폭을 갖춘 신경망을 위한, 균형 잡힌 아키텍처를 구축하는 일에 초점을 맞추고 있습니다. 여기서, 인텔 NNP 제품 군에 대한 초기 성능 벤치마크 수치는 활용률 및 상호연결의 측면에서 강력한 비교 결과를 제시하고 있습니다. 좀 더 자세하게 살펴 보면:

A(1536, 2048) 규모의 행렬과 B(2048, 1536) 규모의 행렬을 이용하는 일반 행렬 곱셈(General Matrix to Matrix Multiplication, GEMM) 연산의 경우 단일 칩 기준 96.4%의 연산 활용률을 달성했습니다. 이는 싱글 칩 기준으로 38 TOP/s(terra operations per second, 초당 테라 연산) 안팎의 실제 성능 수준(이론적 성능이 아닌)을 의미합니다. 또한, A(6144, 2048) 규모의 행렬과 B(2048, 1536) 규모의 행렬의 경우, 병렬 훈련을 지원하는 멀티 칩 분산 GEMM 연산을 수행했을 때 거의 선형에 가까운 스케일링과 96.2%의 스케일링 효율성을 달성하는데, 이는 다른 아키텍처의 메모리의 제약이 없고, 다수의 NNP 제품을 상호 연결하게 만들어 줍니다.

인텔은 이론적인 대역폭으로 89.4%의 단향성(unidirectional)의 칩-투-칩 효율성을 기록했으며, 이를 790나노초nanoseconds 미만의 수준에서 달성했습니다. 인텔은 이를 2.4 Tb/s(terra bits per second, 초당 테라비트)의 고대역폭 및 저지연 상호연결에 적용할 수 있다는 사실에 고무되어 있습니다.

이 모든 것은 210 와트 미만의 싱글 칩 총 파워 엔벨롭power envelop의 수치 내에서 달성됩니다. 그리고 이는 인텔 너바나 NNP(코드명 레이크 크레스트Lake Crest)의 시제품이며, 초기 파트너들로부터 제품 피드백을 받는 중입니다.

인텔은 가장 첫 번째로 상용화될 NNP 제품, 인텔 너바나 NNP-L1000(코드명 스프링 크레스트Spring Crest) 제품의 2019년 출시를 준비하고 있습니다. 인텔 너바나 NNP-L1000 제품의 경우, 인텔의 첫 번째 세대인 레이크 크레스트 제품 대비 3-4배의 훈련 성능을 보일 것으로 기대됩니다. 또한, 인텔은 인텔 너바나 NNP-L1000 제품을 통해, 업계 전반에 걸쳐서 신경망에 널리 도입되고 있는 수치 형식numerical format인 bfloat16을 지원할 계획입니다. 게다가, 인텔은 인텔 제온 프로세서 및 인텔 FPGA 등을 포함한 인텔의 AI 제품 라인 전반에 걸쳐 bfloat16 형식에 대한 지원을 확대해 나갈 계획입니다. 그리고 이는 전부 인텔의 실리콘 포트폴리오에 업계를 선도하는 AI 훈련 역량을 접목하고자 하는 유기적이고 포괄적인 전략의 일부분입니다.

현실 세계를 위한 AI

인텔의 포트폴리오는 모든 규모의 조직들이 인텔과의 AI 여정을 시작하는 것을 용이하게 만들었습니다. 대표적인 예로, 초기 신약 개발의 주요 요소인 하이 콘텐츠 스크리닝high content screening의 가속화를 위해 심층 신경망Deep Neural Networks을 활용하는 인텔과 노타비스의 협력을 들 수 있습니다. 이 인텔-노바티스 협력 팀은 이미지 분석 모델을 11시간에서 31분으로 단축하여, 20배 이상의 향상을 이룩하였습니다.

AI과 IoT 애플리케이션 개발에서 고객의 성공을 촉진하기 위해 인텔과 C3 IoT는 인텔 AI에 의해 구동되는 C3 IoT AI 어플라이언스인 최적화된 AI 소프트웨어와 하드웨어 솔루션을 제공하는 파트너십을 발표하였습니다.

추가적으로, 인텔은 텐서플로TensorFlow, MXNet, 패들 패들Paddle Paddle, CNTK 그리고 ONNX를 포함하는 딥 러닝 프레임워크를 nGraph, 즉 프레임워크-중립 딥 뉴럴 네트워크Deep Neural Network-DNN 모델 컴파일러에 통합하는 것을 추진하고 있습니다. 또한, 연구자들이 자연어 처리(Natural Language Processing, NLP) 알고리즘에 대한 연구를 시작할 수 있게끔 도와줄 자바 스크립트(Java Script)*를 위한 자연어 처리 라이브러리를 인텔 AI Lab이 오픈 소싱할 것임을 발표하였습니다.

컴퓨팅의 미래는 기업들이 AI의 완전한 능력을 끌어낼 수 있게끔 해주는 솔루션(기업 규모의 솔루션)을 제공하는 집합적인 역량에 달렸습니다. 인텔은 이 혁신적인 기술을 개발하고 효율적으로 사용하기 위해 커뮤니티 그리고 고객 모두와 함께 노력하고 있으며, AI DevCon에서의 놀라운 경험들을 기대하고 있습니다.

인텔 너바나 신경망 프로세서Intel Nervana Neural Network Processor-Intel Nervana-NNP

인텔과 노바티스(Novartis)의 협력

▲인텔과 C3 IoT

▲ nGraph

▲딥 뉴럴 네트워크(Deep Neural Network, DNN) 모델 컴파일러

◆ 글 – 나빈 라오Naveen Rao 인텔 부사장 겸 인텔 AI 제품 그룹 총괄 | 편집 – 다트크리에이티브 | 한재현 기자 wowhjh@gmail.com

DAATKING

멀티미디어, 가상현실&컴퓨터그래픽을 전공한 크리에이티브 디렉터를 지향하는 콘텐츠 제작자겸 저널리스트입니다.
CG 콘텐츠를 제작하는 Media & Entertainment 업계 사람들과 진솔한 이야기와 창의적 지식을 모아서 올바르게 전달하고 소통하도록 노력하겠습니다.

Add comment