엔비디아, 신경망추론(NNI) 딥러닝 위한 테슬라 2종 신규 발표

by Dr.Lee on 2016년 09월 17일 12시 38분 (2년 전) 조회: 1,917 추천: 3

페이스북 퍼가기  

※ 이 글은 AnandTech의 기사(링크)를 초월번역해 재구성한 것입니다.

 

nv_01.jpg

 

지난 몇달간 엔비디아는 자사의 GPU 라인업에 머리끝부터 발끝까지 차근차근 파스칼 아키텍처를 갈아입혀 왔다. 최고가 라인업인 테슬라는 다섯달 전 가장 먼저 파스칼을 적용해 탈바꿈한 바 있는데(링크), 오늘은 그보다 조금 저렴한 하위 라인업을 소개하게 되었다. 추석 연휴 하루 전날인 지난 13일, 베이징에서 열린 GPU 테크놀러지 컨퍼런스(GTC) 2016 키노트 스피치를 통해 엔비디아의 젠슨 황 CEO는 테슬라 P40과 P4의 두 가지 모델을 신규 발표했다. 이들 모두 근래 엔비디아의 가장 큰 관심사인 딥러닝에 최적화되어 있으며 이들을 통해 신경망추론(NNI, Neural Network Inference) 분야가 목말라하는 가격대 성능비의 솔루션을 제공할 수 있게 되었다고 엔비디아는 전했다.

 

GPU 제조사인 엔비디아가 딥러닝에 천착하는 것은 전혀 놀라울 일이 아니다. 현재 컴퓨팅 시장 전체를 통틀어 가장 빠르게 성장하는 분야이기도 하며 이 분야가 요구하는 연산성능을 구현하는 데 GPU 아키텍처가 대단히 효율적이기 때문이다. 지속적으로 수 세대에 걸쳐 이러한 흐름이 누적된 끝에 파스칼은 개발 단계에서부터 신경망추론에의 최적화를 공언하기에 이르렀고, 이는 수많은 연산항목 가운데에서도 그간 주목받지 못하던 저정밀도 분야에서의 개선으로 이어졌다. 전세대의 맥스웰 역시 딥러닝 분야에서 꽤 쓸만한 성능을 보였지만 파스칼은 전혀 다른 클래스의 성능을 갖추게 된 것.

 

nv_02.png

 

딥러닝 시장을 위한 엔비디아의 제품 라인업은 크게 두 부류로 구분되어 있다. 첫번째로 신경망훈련(NNT, Neural Network Training)에 최적화된 것들이다. 이들은 저정밀도 연산분야 가운데서도 반정밀도 부동소수점(FP16) 연산성능이 중시되며 대단히 많은 연산량을 처리해야 하는 것이 특징으로, 이를 겨냥한 제품으로는 테슬라 P100이 있다. 반면 다른 하나의 카테고리인 신경망추론의 경우 그보다는 연산량과 정밀도 모두 요구되는 수준이 다소 낮다. 이전까지는 이 시장을 겨냥해 테슬라 M40과 M4의 두 가지 모델이 존재했는데 오늘의 발표로써 이들 모두 파스칼이라는 새 옷을 입게 되었다. 머릿글자가 P로 바뀌었음은 물론이다.

 

nv_03.png

 

대체로 테슬라 P40과 P4는 그들의 전임자들을 “닮았다”. 폼팩터 자체가 거의 유사하단 얘기다. 뿐만 아니라 TDP도 동일한 수준이며 가격마저도 거의 같아 시장에는 어떤 혼란도 초래하지 않을 것이다. 단 하나 달라진 게 있다면 아키텍처가 맥스웰에서 파스칼로 교체되었다는 것뿐.

 

앞서 언급했듯 ‘추론’ 자체는 그리 높은 정밀도의 연산을 요구하지 않는다. 전세대의 맥스웰 기반 제품들은 단정밀도 부동소수점(FP32) 연산성능을 활용했는데 이마저도 불필요하리만치 높은 제원이었다. 따라서 엔비디아는 GP100에 2배속 반정밀도 부동소수점(FP16) 연산을 도입한 데 이어, 여전히 정밀도가 남아 돈다고 생각했는지 GP102와 GP104에는 2배속 FP16 대신 4배속 8비트 정수(INT8) 연산으로까지 후려치기에 이른다. 이러한 고려 끝에 탄생한 GP102와 GP104의 FP32 연산유닛은 사이클당 하나의 FP32 명령어뿐 아니라 사이클당 4개의 INT8 명령어를 처리할 수 있다. 맥스웰까지는 없던 기능이다. 이러한 병렬성 개선에 더해 작동 속도 역시 큰 폭으로 상향되면서 파스칼은 전례없는 성능향상폭을 기록하게 되었다.

 

(※ 역자 주 : 맥스웰 이후 딥러닝에 특화하는 방향으로 아키텍처를 개량하던 엔비디아는 GP100과 나머지를 서로 다른 분야에 최적화하는 모험을 단행했다. 최상위 칩셋인 GP100은 FP64, FP16에 집중하게 되었으며 GP102와 GP104는 INT8을 배타적인 특기로 갖게 된 것. 따라서 딥러닝의 분야 중에서도 FP16이 중시되는 신경망훈련(NNT)용으로 GP100가 탑재된 테슬라 P100을, INT8이 중시되는 신경망추론(NNI)용으로 GP102 / GP104가 탑재된 테슬라 P40 / P4를 내놓은 것이다. GP100보다 GP102가 더 간소하고(FP64의 부재, HBM2의 배제, 그래픽 출력 기능의 존치 등) 저가형 칩셋이기는 하나 용도를 살펴보면 둘은 상하관계라기보다는 서로 다른 곳을 겨냥한 '투톱' 이라 보는 편이 더 정확하겠다.)

 

nv_04.png

 

미안, 서론이 길었다. 백문이 불여일견이라고 제품들 각각을 좀더 자세히 살펴볼 차례. 오늘 발표된 두 모델 중 더 비싼 테슬라 P40부터 시작해 보자. 이름에서부터 테슬라 M40의 자리를 넘겨받을 포스가 마구 풍기지 않는가. 250W의 TDP와 풀사이즈 PCI-Express 슬롯 카드라는 점은 모두 전현세대가 공유하는 부분. 놀랍게도 이 모델은 GP102 GPU의 완전체를 탑재해 3840개의 쿠다코어를 가지며 평균 1.53GHz로 부스트되는 작동 속도를 자랑한다. FP64 / FP16을 제외한 연산성능 자체는 심지어 다섯달 전 발매된 테슬라 P100보다도 높다. (주 : 테슬라 P100은 GP102보다 상위 GPU인 GP100을 탑재했으나 쿠다코어가 3584개로 컷다운된 제원을 가지며, 작동 속도도 테슬라 P40보다 낮다.)

 

12 테라플롭스에 달하는 FP32 연산성능과 47 테라옵스(TOPS, Tera Operations per second)의 INT8 연산성능은 전세대와의 비교를 불허하는 수준. 테슬라 M40의 FP32 연산성능은 7 테라플롭스에 불과했고 INT8은 아예 지원조차 하지 않았다. 어마무시한 연산성능에 걸맞게 데이터를 끊김없이 공급할 메모리 역시 24GB로 넉넉히 탑재되었다. 고용량의 안정적인 구성과 소비전력 등을 고려해 타이탄 X에 사용된 GDDR5X 대신 7.2Gbps의 GDDR5 메모리를 탑재한 것 역시 특기할 사항.

 

nv_05.png

 

좀더 우리의 지갑사정과 가까운 쪽으로 눈을 돌려 보면 테슬라 P4가 있다. 전세대의 테슬라 M4와 마찬가지로 로우 프로파일(LP, Low Profile) 규격의 아담한 크기에 보조전원 없이 구동되는 뛰어난 연비를 갖추고 있다.  TDP는 50-75W로 커스텀 가능해 OEM 제조사에게 매력 포인트로 어필할 수 있을 것.

 

이 자그마한 껍데기 속에는 놀랍게도 GP104 GPU가 잠들어 있다. 그것도 쿠다코어 2560개가 모두 살아 있는 풀 칩으로. 그럼에도 이토록 연비가 좋아진 비밀은 무지막지하게 후려친 작동 속도에 있으니 테슬라 P4의 작동 속도는 기본 810MHz, 평균 부스트 1.06GHz에 불과하다. 8GB의   GDDR5 메모리를 탑재했으며 작동 속도는 6.0Gbps. 테슬라 M4가 2.2 테라플롭스의 FP32 연산성능을 가졌고 INT8을 지원하지 않은 것과 대조적으로 이 모델은 5.5 테라플롭스의 FP32 연산성능과 22 테라옵스의 INT8 연산성능을 자랑한다.

 

nv_06.jpg

 

엔비디아는 왜 하필 같은 용도 -신경망추론- 를 갖는 연산장치를 두개나 출시한 것일까. 물론 폼팩터에 의한 시장 구분도 그 중 하나겠지만 무엇보다 중요한 것은 확장성의 차이에 있다. 테슬라 P40은 최고 성능의 단일카드 연산장치로 활용되기 좋지만 테슬라 P4는 고밀도 클러스터를 구축하기에 좋다. 이는 전력대 플롭스 비율을 보면 더욱 극명해지는데 테슬라 P40은 P4 대비 동일한 연산성능당 50%가량 더 많은 전력을 필요로 한다. 손꼽을 만한 숫자의 GPU로 빼어난 성능을 뽑아내야 하는 환경이라면 테슬라 P40을, 대규모의 GPU를 활용해야 하는 쪽이라면 테슬라 P4를 각각 킬러로 투입할 수 있다는 얘기다.

 

마지막으로 제일 중요한 것. 테슬라 신상 발표가 늘 그랬듯 시제품을 구입할 수 있는 시기는 조금 더 기다려야 할 것으로 보인다. 다만 엔비디아에 따르면 주요 OEM 및 채널 파트너에게는 오는 10월부터 테슬라 P40을, 그보다 한달 뒤엔 P4를 공급할 것이라고. 이들의 가격은 아직까지 공개되지 않았지만 상상을 초월하게 비쌀 것이라는 데엔 누구도 이견이 없을 줄로 안다.

댓글 8

Profile

잼아저씨

2년 전

어떤 분야가 발전한다는 것은 계통이 분화되는 걸 보면 알 수 있다던데 진짜군요. 경쟁사가 파이어프로와 라데온 프로 듀오만을 내고 있을 때 엔비디아는 테슬라 내에서도 두 가지를 분리했군요. 장사 잘하네요

댓글

Profile

Dr.Lee

2년 전

읽어주셔서 감사합니다. 저도 딥러닝이 다시 훈련(training)과 추론(inference)으로 나뉜다는 건 처음 알았네요!

게다가 거기에 맞춰 최상위 칩셋 두개를 분화시키기까지 했으니 더욱 영리하게 느껴집니다. :)

댓글

Profile

잼아저씨

2년 전

게이밍 쪽에서도 배정밀도 유닛을 점점 줄여가는 걸로 큰 효과를 봤는데 아예 연산과 게이밍/그래픽 작업을 완전히 분리, 특화시키지 않을까 생각도 드네요. 당장에 P100에는 ROP가 없는 걸 보면요.

댓글

Profile

RuBisCO

2년 전

시장의 수요에 적절하게 딱 라인업을 적절하게 맞춰내는게 멋지네요. 엔비디아가 이렇게 근사하게 나왔으니 과연 AMD 쪽은 어떤식으로 시장에 대응할지 궁금해지는군요.

댓글

Profile

Dr.Lee

2년 전

아마 대응책이 없지 않을까(...) 생각되는데, 어쩌면 연내 나온다는 그래픽카드가 HPC를 겨냥한 새 파이어 프로 or 라데온 프로일지 모르겠단 생각이 드네요. 유일하게 AMD가 우수한 FP32 성능빨로 갖다대기엔 엔비디아의 (타 정밀도를 추구하는) 철학이 너무 확고해서, 아무 생각 없는 것 같은 AMD 제품을 경쟁 상대로 붙이기 조금 민망할 정도입니다. 늘 관심있게 읽고 좋은 피드백 주셔서 감사해요 :)

댓글

Profile

Dr.젠슨황

2년 전

차상위 GP102에 중간급 GP104까지 테슬라로 내놓았군요. 게다가 딥러닝에의 분리까지....덜덜
고작 Polaris 10 기반의 라데온 WX가 전부인 AMD는 똥줄을 탈 듯한...^^

리사 수 여사는 Radeon SSG를 Vega 기반으로 해서 파는 수 밖에 없겠어요. AMD만의 개성을 찾으려면

댓글

Profile

여우비

2년 전

P40의 저 아름다운 자태..

댓글

Profile

BluePencil

2년 전

파스칼에서 NNI 활용이 확실히 진보되었군요. P40과 P4의 확연히 다른 용도.. 다른 분들과 마찬가지로 AMD가 걱정됩니다.

댓글

사진 및 파일 첨부

여기에 파일을 끌어 놓거나 왼쪽의 버튼을 클릭하세요.

파일 크기 제한 : 0MB (허용 확장자 : *.*)

0개 첨부 됨 ( / )
 

애플 2016 회계연도 4분기 실적 발표 : 계속 신화를 써 나갈 수 있을까?

애플이 2016 회계연도 4분기 실적을 발표했다. 애플은 회계연도를 한 분기씩 당겨서 발표하기 때문에 실제 오늘 발표된 실적은 2016년 7월부터 9월까지의 실적인 셈이다. 애플 회계연도 기준으로 2016년 1분기에 분기 매출과 순이익에서 사상 최고치를 기록한 이후, 실제...

by iMola on 2년 전
996
VGA

밑도 끝도 없던 파스칼, 밑이 생기다 : 지포스 GTX 1050 / 1050 Ti 출시

밑도 끝도 없던 라인업에 마침내 밑이 생겼다. 파스칼 라인업의 막내 지포스 GTX 1050 시리즈가 그 주인공. GTX 1050는 750을, 1050 Ti는 950을(조금 더 거슬러 올라가면 750 Ti를) 각각 대체할 목적으로 출시되었다. 이들의 가격은 109 / 139달러. 둘 모두 TDP가 75W에 ...

by Dr.Lee on 2년 전
1,884 7

들어온 자, 남은 자, 떠난 자 : 연방의 엇갈린 운명

인텔과 AMD가 기가헤르츠 전쟁을 벌이고 엔비디아가 최초로 GPU라는 개념을 등장시킨 해인 2000년. 그해 인텔의 총매출은 300억 달러였고 AMD는 44억 달러, ATI가 13억 달러, 엔비디아는 이들보다 한참 작은 3.7억 달러에 불과했다. 14년이란 시간이 지난 작년엔 인텔이 ...

by Dr.Lee on 2년 전
1,483
VGA

GTX 1050 Ti가 불러온 나비효과 : 라데온 RX 470 가격인하설

다가오는 지포스 GTX 1050 시리즈의 출시에 발맞춰 AMD가 라데온 RX 470의 가격인하에 나설 것이라는 관측이 제기되었다. 현재 RX 470은 200달러 미만으로 선택 가능한 가장 좋은 그래픽카드라는 타이틀을 보유하고 있는데, 서드파티 제조사에 부여된 폭넓은 재량권을 바...

by Dr.Lee on 2년 전
2,041 3

애플이 새 기술 도입에 보수적일 수밖에 없는 이유 : 갤럭시 노트 7 폭발 사태를 바라보며

일반인들이 생각하는 것과는 다르게, 닥터몰라 유저들은 애플이 신기술 도입에 상당히 인색한 회사라는 것을 알고 계실 겁니다. 특히 아이폰에 말이지요. 애플의 특기는 누구보다 빠르게 신기술을 도입하는 것이 아니라, 시장에서 어느 정도 검증된 기술을 남들과는 다르...

by iMola on 2년 전
1,686 4

(2016.08.20) 인텔, 본격적으로 파운드리 사업에 뛰어들다

개인용 컴퓨터의 역사를 말할때는 물론이고 현재까지도 컴퓨터 산업을 논할 때 절대 그 이름을 빼놓을 수 없는 강력한 영향력을 가진 회사들이 있습니다. 여러분들의 머릿속에 떠오른 회사들은 각각 다를 수 있겠습니다만, 인텔이라는 회사가 저 범주에 속한다는 곳을 부...

by iMola on 2년 전
405

(2016.08.14) 아이맥을 휴대한다? 기승전 맥북프로

애플 아이맥 소개 페이지 중 사건의 발단은 간단했습니다. 필자는 IYD 관리자 중 유일하게 애플의 맥 컴퓨터를 사용하고 있지요. 꽤 오래 맥을 사용하기도 했고, 모든 워크플로우나 양식 등이 맥에서만 사용할 수 있는 포맷으로 제작되어 있기 때문에 일반 윈도우 컴퓨터...

by iMola on 2년 전
666
CPU

(2016.8.16) Inside Your Polaris : 라데온 RX 480, 470 크파 성능은?

폴라리스 아키텍처가 적용된 첫번째 제품, 라데온 RX 480을 지난 6월 29일 출시한데 이어 AMD는 나흘 간격으로 연달아 두번째와 세번째 제품을 이달 선보인 바 있습니다. 8월 4일과 8일 각각 출시된 라데온 RX 470, RX 460 얘깁니다. AMD로부터 샘플을 공수받아 이들의 ...

by Dr.Lee on 2년 전
1,082 1

(2016.8.16) 엔비디아 2017 회계연도 2분기 실적 발표 : 순이익 873% 증가의 착시

※ 이 글은 AnandTech의 기사(링크)를 번역한 것입니다. 엔비디아는 지난 8월 11일 자신들의 2017 회계연도 2분기 실적을 발표했다. 달력을 뒤져보고 싶을 분들을 생각해 오늘은 2016년 8월 16일이고, 엔비디아의 2017 회계연도 2분기는 지난 7월 31일을 기해 종료되었단 ...

by Dr.Lee on 2년 전
370
CPU

틱틱, 톡, 틱틱틱, 톡 : 느려지는 인텔 시계, 구원투수로 투입되는 커피레이크

빅 뉴스. 인텔의 2016-2018년 모바일 CPU 로드맵이 유출되었다. 그동안 베일에 싸여 있던 10nm 캐논레이크Cannonlake의 존재가 공식화된 한편 캐논레이크의 수율이 안정화될 때까지 임시로 투입할, 케이비레이크Kaby Lake의 2차 최적화 버전격인 커피레이크Coffee Lake의...

by Dr.Lee on 2년 전
2,424 7

애플, 다시 엔비디아의 그래픽 칩 도입하나?

약 11일여 전, 엔비디아가 소프트웨어 엔지니어 채용 공고를 냈다(링크). 물론 엔비디아가 채용 공고를 냈다는 것이 오늘 전해드릴 뉴스는 아니다. 이 채용공고의 내용이 중요한데, 애플의 새 그래픽 API인 메탈과 OpenCL을 다루는 소프트웨어 엔지니어를 구한다는 것이 ...

by iMola on 2년 전
1,528 1
CPU

스카이레이크-EP/EX 엿보기 : 28코어, 38.5MB L3 캐시, 165W TDP

(이미지 출처 : heise online) 약 2주 전, 외신을 통해 스카이레이크-EP/EX 기반의 제온(으로 추정되는) 엔지니어링 샘플의 정보가 일부 유출되었다. 인텔의 현직 최상위 CPU인 제온 E5/E7 V4가 브로드웰에 기반하고 있으며 이들이 내년 상반기 중 스카이레이크 기반의 ...

by Dr.Lee on 2년 전
3,663 13

아이폰 7 플러스의 놀라운 '피사계 심도 효과' 기능 써봤어요 - TechCrunch

본문은 테크크런치의 기사(링크) 전문을 번역한 것입니다. 본문에 포함된 모든 사진은 테크크런치의 기사 본문에 포함된 사진입니다. 아이폰 7의 출시 때 가장 많은 논란이 있었던 기능이 바로 새로운 '피사계 심도 효과' 였습니다. 이 기능은 흔히 전문가용 카메라의 '...

by iMola on 2년 전
2,938 4

SSD의 남하를 저지하라 : 하드디스크 진영의 최후 반격

정확히 7개월 전 오늘, 나는 이 글(링크)로 SSD 제조사들이 하드디스크로부터 저장장치 헤게모니를 빼앗아오기 위해 어떤 전략으로 접근하고 있는지 간략히 정리했었다. 그러나 모든 작전은 초안대로 실행되지 않는 법이다. 그들의 전략이 맞아 떨어졌다면 이미 우리는 ...

by Dr.Lee on 2년 전
3,790 14
VGA

내가 알파요 오메가니 : 파스칼의 시작과 마침, 지포스 GTX 1080 Ti / 1050

여러분이 가장 목말라할 소식이 무엇인지 나는 안다. 저렴하고 성능 좋은 그래픽카드가 대체 언제쯤 나오느냐는 거겠지. 그러나 안타깝게도, 한 컴덕 초딩이 십여년을 무럭무럭 성장해 이 글을 써내려(정확히는, 쳐내려)가기까지의 시간 동안에도 그 기도는 응답받지 못...

by Dr.Lee on 2년 전
4,849 16
VGA

엔비디아, 신경망추론(NNI) 딥러닝 위한 테슬라 2종 신규 발표

※ 이 글은 AnandTech의 기사(링크)를 초월번역해 재구성한 것입니다. 지난 몇달간 엔비디아는 자사의 GPU 라인업에 머리끝부터 발끝까지 차근차근 파스칼 아키텍처를 갈아입혀 왔다. 최고가 라인업인 테슬라는 다섯달 전 가장 먼저 파스칼을 적용해 탈바꿈한 바 있는데(...

by Dr.Lee on 2년 전
1,917 8 3

아이폰 7, 7 플러스 리뷰 모아보기 : 외신들이 평가하는 iPhone 7 시리즈

사진 : 애플 홈페이지 이제 아이폰 7, 7가 1차 출시국에서 출시되었습니다. 애플이 첫 주말 판매량을 공개하지 않겠다고 선언했을 때 쏟아지던 걱정들은 예약판매 규모가 아이폰 6s는 물론 6때보다도 훨씬 크다는 소식들, 일부 모델들이 이미 완판되어 출시일에 스토어에...

by iMola on 2년 전
4,289 8

iOS 10 프리뷰 : 성능과 개인정보 보호의 상관관계

애플 아이패드 프로 소개 영상(링크) 중 캡처 애플의 자체 설계 프로세서인 A6칩을 탑재한 아이폰 5 이래로 새로운 아이폰 출시행사에서 공개되는 애플의 새로운 자체 디자인 칩은 매우 큰 뉴스거리가 되었습니다. 작은 코어를 여러 개 집적하는 방법으로 전체 성능을 스...

by iMola on 2년 전
599 5
CPU

가난한 집 장남, 입신양명 꿈 가슴에 안고 : Zen 아키텍처 대해부

지난주 Hot Chips 컨퍼런스를 거치며 AMD는 단연 뜨거운 감자로 떠올랐다. 수많은 이들을 설레게 한 인텔의 카비레이크, 애플의 애플워치 시리즈2와 아이폰7 출시, 그리고 -설렘의 장르는 조금 다르지만 어쨌든- 삼성의 갤럭시노트7에 이르기까지 기라성 같은 제조사들이...

by Dr.Lee on 2년 전
5,630 15

애플 2016 회계연도 3분기 실적 발표 : 어둠 속에서 빛나는 희망

News Curator : Jin Hyeop Lee, Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 애플은 오늘 오전 6시, 2016 회계연도(통상연도 기준 2016년 2분기에 해당) 3분기 실적을 발표했다. 실적 발표 ...

by IYD on 2년 전
333
서버에 요청 중입니다. 잠시만 기다려 주십시오...