파스칼 GPU 기반 첫 상용 제품, 테슬라 P100

by IYD on 2016년 04월 06일 21시 53분 (3년 전) 조회: 320 추천: 1

News Curator : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

 

파스칼 GPU 기반 첫 상용 제품, 테슬라 P100

 

오늘 오전 GTC 기조연설에 연사로 나타난 사람은 아마도 하드웨어 업계에서 가장 유명한 동양인, 엔비디아 CEO 젠슨 황이었다. 약 두시간 가량 진행된 세션에서 인공지능과 딥러닝, 자동주행 자동차의 미래를 설파한 황 CEO는 발표 말미에 누구도 대놓고 묻지 않았던, 그러나 발표를 지켜보는 모두의 마음 속에 아마 공명하고 있었을 단 하나의 대상을 마침내 공론화했다. 2년만의 새로운 아키텍처, 파스칼이 바로 그것이었다.

 

 

이날 발표 자료를 통틀어 '파스칼' 아키텍처에 기반한 GPU는 총 두 차례 등장한 바 있다. 첫번째는 자동주행 자동차용 연산 모듈 'Drive PX 2'의 일부로서였다. 해당 모듈은 엔비디아가 오늘날까지 집대성한 모든 프로세서 설계 기술을 집약한 결정체라 할 수 있는데, 자체 설계 ARMv8 호환 CPU 아키텍처인 '덴버'와 '파스칼' 기반의 GPU 두 개를 탑재해 8 테라플롭스의 연산성능을 제공한다. 여기에 사용된 GPU는 GP106으로, 그간의 명명법 관례에 비춰볼 때 플래그십일 가능성은 낮다. 현 세대 기준으로 이에 대응하는 GM106 GPU는 지포스 GTX 960과 950에 쓰이고 있다.

 

오히려 사람들의 관심을 끈 것은 뒤이어 등장한 '테슬라 P100' 이었다고 할 수 있다. 사실 엄밀히 말해 '그래픽 처리 장치(GPU)'를 탑재했으되 그래픽카드는 아닌 이 제품은, 디스플레이 출력에는 전혀 관여하지 않으면서 순수한 연산용 코프로세서로서의 역할만 수행하는 일반적으로 접하기 힘든 컨셉의 장치이다. 아마도 그에 상응하는 것이겠지만 내년 1분기에나 일반 소비자용 시장에 풀릴 예정인 이 제품은, 예외적으로 슈퍼컴퓨터 시장에 오는 6월부터 공급될 것이라고 했다. 여기 B2C가 설 자리가 없음은 물론이다.

 

 

그럼에도 테슬라 P100에 사람들의 이목이 집중된 것은 이 제품에 쓰인 GPU가 바로 파스칼 아키텍처의 정점인 GP100이기 때문이다. 현세대 지포스 GTX 타이탄 X와 GTX 980 Ti에 각각 사용된 GM200의 진정한 후계자로 여겨지는 이 칩셋은 3840개의 쿠다코어, 240개의 TMU 등을 탑재하고 있으며 작동 속도는 1.3~1.4GHz 이상으로 대단히 높은 편이다. 이게 다가 아니다. IYD의 분석에 따르면 파스칼 아키텍처에서 쿠다코어 하나당 IPC는 맥스웰의 그것 대비 1.3배 이상으로 향상되었을 것으로 여겨진다. 결과적으로 GP100을 탑재한 시제품 그래픽카드는 현세대 최상위 모델들이 제공하는 것보다 두배 이상 빠른 성능을 가질 가능성이 커졌다. (이상은 다음의 글 참조 : 파스칼 아키텍처 분석 : 맥스웰 대비 30% 향상된 IPC)

 

금일 출시된 테슬라 P100은 명목상 직전 세대의 테슬라 M40을 승계하는 것이지만, 내용적으로는 전전세대의 테슬라 K80을 계승하는 형태에 더 가깝다. '연산 전용 가속장치'의 본분에 맞게 배정밀도 연산성능이 대폭 강화된 계보를 K80으로부터 직접 물려받았기 때문이다. 둘의 사이에 자리잡았던 M40은 이례적으로 배정밀도 연산성능이 낮았다. 비단 M40뿐만 아니라 맥스웰 아키텍처 자체의 한계였다.

 

 

(이미지 출처 : AnandTech)

 

언제부턴가 엔비디아의 '빅 칩'이 최초 등장할때 으레 그러했듯, 테슬라 P100에 탑재된 GP100 역시 이 칩셋의 풀 실리콘(풀 칩)이 전부 사용되지는 않았다. 수율 문제이거나 향후 풀 칩을 활용한 최상위 티어를 추가할 여지를 주기 위해서였으리라 짐작되는데, 어쨌든 그 결과 테슬라 P100에 사용된 GPU의 사양은 GP100의 풀 스펙보다 6.7% 가량이 줄어들어 있다. 구체적으로 60개의 스트리밍 멀티프로세서(SM) 모듈이 56개로 줄어들었고, 하나의 SM에 64개씩의 쿠다코어가 탑재되므로 쿠다코어 갯수는 3840개에서 3584개로 줄었다. 흥미롭게도 이 수치는 경쟁사 AMD의 라데온 R9 Fury와 동일한 것이다.

 

쿠다코어 갯수가 6.7% 줄어들었지만 작동 속도는 이제까지의 어떤 그래픽카드보다도 높아, 결과적으로 역사상 최고 수준의 연산성능을 갖는 GPU로 완성되었다는 점이 테슬라 P100의 빼놓을 수 없는 특징일 것이다. 단정밀도 기준 10.6 테라플롭스라는 연산성능은 AMD의 최상위 GPU, 피지 XT의 8.6 테라플롭스보다도 20% 가량 높으며 이로써 GP100은 십여개월 만에 Fiji로부터 최고 연산성능 GPU의 타이틀을 빼앗아오게 되었다. 이외에도 테슬라 P100이 어제 공식화되며 한가지 더 획득한 타이틀이 있다면, 업계 처음으로 HBM2 메모리를 사용한 상용 제품이 되었단 점이다. 4096비트의 메모리 버스와 4스택 HBM2를 통해 테슬라 P100은 720GB/s의 대역폭을 확보하게 되었다.

 

 

무엇보다 파스칼 아키텍처를 사용한 상용 제품으로써 빼놓을 수 없는 특징은 NVLink 인터페이스를 정식으로 지원하게 되었다는 것이다. 엔비디아가 해당 규격을 개발함에 있어 IBM과 긴밀히 협조했고, 따라서 IBM 파워 기반 플랫폼에서는 CPU와 GPU 상호간에 네이티브로 NVLink를 통한 교신이 가능하다. 아쉽게도 대다수(그리고 이 글을 읽는 여러분 중 절대 다수)의 x86 사용자들에게는 적용되지 않는 특징이나, 앞으로 이와 유사한 기술을 통해, 예컨대 적어도 효율이 훨씬 좋아진 SLI가 도입될 지 모르는 일이다.

 

비록 테슬라 P100은 그림의 떡에 그칠 가능성이 높지만, 이 제품이 품은 파스칼은 구경만 하기엔 너무나 매력적인 GPU이다. 머잖은 미래에 일반 소비자를 위한 '지포스' 파스칼이 등장하기를 바라 본다.

 


 

페이스북, 트위터에서 IYD를 팔로우하시면 저희가 놀아드립니다!
 
http://facebook.com/insideyourdevice
http://twitter.com/iyd_twit

 

댓글 4

지나가는사람

3년 전

HBM2를 탑재했는데 6월부터 공급하는게 가능한가요?
제가 듣기로는 3분기는 지나야 HBM2로 뭔가를 해볼 수 있다고 하던데요.

댓글 수정 삭제

IYD

3년 전

아마 대량생산 이야기가 아닐런지요...ㅋㅋ 지금도 테슬라 P100이 '현존'한다는 건 분명한 만큼 HBM2가 소량이나마 존재하고는 있겠죠. 다만 양산이라고 할 만한 수량이 되는 게 올 연말께라는 얘기가 아니었을지...

댓글

J

3년 전

저 비교표는 아난드텍이 작성한건데.. 출처정도는 남겨주시는게 좋지 않을까 합니다

댓글 수정 삭제

IYD

3년 전

감사합니다 :D

댓글

파스칼 GPU 기반 첫 상용 제품, 테슬라 P100

News Curator : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 파스칼 GPU 기반 첫 상용 제품, 테슬라 P100 오늘 오전 GTC 기조연설에 연사로 나타난 사람은 아마도 하드웨어 업계에서 가장 ...

by IYD on 3년 전
320 4 1

노트북 사용자를 위한 두번째 VR 솔루션, 쿼드로 M5500

News Curator : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 노트북 사용자를 위한 두번째 VR 솔루션, 쿼드로 M5500 가장 큰 연례행사인 GPU 테크놀러지 컨퍼런스(GTC) 준비에 여념이 없을 ...

by IYD on 3년 전
213 1

브로드웰-EP 기반 제온 E5 2600 v4 공식 출시

News Curator : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 브로드웰-EP 기반 제온 E5 2600 v4 공식 출시 인텔은 어제 자사의 새로운 서버용 CPU 제온 E5 2600 v4 제품군을 발표했다. 이들...

by IYD on 3년 전
363 1

또 하나의 듀얼 피지, 파이어프로 S9300 X2 발표

News Curator : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) AMD는 미 동부시 기준 오전 9시를 기해 HPC 시장을 겨냥한 그들의 최상급 전문가용 그래픽카드 겸 연산 가속기를 출시했다. 이젠...

by IYD on 3년 전
134 3

삼성, 바닥을 향한 질주에 동참하다 : DRAM 캐시 없는 초저가 SSD 발표

News Curator : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 삼성, 바닥을 향한 질주에 동참하다 : DRAM 캐시 없는 초저가 SSD 발표 PCI-Express 버스와 직결되는 M.2 인터페이스의 개발은 ...

by IYD on 3년 전
2,058 7

AMD 차세대 플래그십 '그린란드' : 4096SP, 128ROP, HBM2?

News Curator : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) AMD 차세대 플래그십 '그린란드' : 4096SP, 128ROP, 1TB/s HBM2? AMD의 차기 플래그십 GPU '그린란드' 스펙이 유출되었다. 정확...

by IYD on 3년 전
118 5

쿼드로 M6000 리뉴얼 : 장기집권의 서막?

News Curator : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 쿼드로 M6000 리뉴얼 : 장기집권의 서막? 세대교체기가 아닌 때 최상위 라인업이 리뉴얼되는 것은 퍽 익숙지 않은 일이다. 모두...

by IYD on 3년 전
200 5

'틱톡' 폐기한 인텔, 'P-A-O' 3단계 개발전략 도입

News Curator : Daeguen Lee(※ 이 글은 AnandTech의 원문(링크)을 번역한 것입니다.)'틱톡' 폐기한 인텔, 'P-A-O' 3단계 개발전략 도입인텔은 작년 연례보고서를 통해 지난 십여년간 자사의 제품 개발주기에 적용되어 온 '틱톡' 전략을 포기할 뜻을 시사한 바 있다. 잘 ...

by IYD on 3년 전
508 3

삼성, BGA방식의 SSD 공개 : 단 하나의 칩, 1.5GB/s의 성능

News Curator : Daeguen Lee(※ 이 글은 AnandTech의 원문(링크)을 번역한 것입니다.)삼성, BGA방식의 SSD 공개 : 단 하나의 칩, 1.5GB/s의 성능얼마 전 등장한 M.2 폼팩터는 오늘날 PC의 내부에서 저장장치가 차지하는 부피를 획기적으로 줄여준 바 있다. 이러한 추세에 ...

by IYD on 3년 전
312 3

애플 3월 스페셜 이벤트 결산 : 작은 고추가 맵다고? 작은 사과가 맵다.

Author : Jin Hyeop Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)애플의 3월 이벤트 'Let Us Loop You In'이 한 시간만에 막을 내렸습니다. 언제부턴가 그랬듯이 이번 애플의 발표회 역시 루머들을 확...

by IYD on 3년 전
154 9
서버에 요청 중입니다. 잠시만 기다려 주십시오...