자유 게시판

사이트 이용규칙을 준수하여
닥터몰라 회원과 자유롭게 소통하는 게시판입니다.

[잡담] 아난드텍의 볼타 아키텍쳐/테슬라 V100 기사

[게임미식가] 잼아저씨 | 조회 655 | 추천 3 | 2017.05.13. 09:06 http://drmola.com/bbs_free/165788

http://www.anandtech.com/show/11367/nvidia-volta-unveiled-gv100-gpu-and-tesla-v100-accelerator-announced

라이언 스미스의 기사를 번역한 것이고, 이에 대한 저작권은 투고자와 아난드텍에 있습니다.

 

sxm2-voltachipdetails_678x452.png

 

오늘 GTC에서 엔비디아의 CEO 젠슨 황이 첫번째 볼타 GPU와 볼타 아키텍쳐 제품을 선보였다. 첫 제품으로 연산의 최고점을 겨냥했으며 GPU 딥러닝의 새로운 도약을 가져올, 매우 공격적인 기술 제공 스케줄을 따르고 있다.

 

잠깐 짧은 역사 강의를 해보자면, 엔비디아는 2013년 볼타 아키텍쳐의 이름을 공개했다. 사실 이건 발표한 대로 되지 않았는데, 맥스웰-볼타는 맥스웰-파스칼-볼타가 되었다. 아직까지 볼타가 엔비디아가 공개한 로드맵의 끝자리에 있다. 지금까지 우리는 볼타가 존재한다는 것을 알긴 했지만 , 엔비디아는 실체를 다 공개하지 않고 세대 하나하나씩 공개해 나갔다.

 

볼타의 첫번째 제품으로 엔비디아는 지난 해 파스칼에서 보였던 행보를 따르고 있다. 일반 대중을 위한 행사는 치워놓고 소비자용 GPU 대신 기업,HPC,딥러닝에 집중하는 것이다. 볼타는 연산과 그래픽을 위한 온전한 GPU 아키텍쳐이다. 허나 오늘의 발표는 전자만을 이야기 했다. 그러므로 오늘 공개된 것은 첫 볼타 GPU의 연산 성능 위주였다.

 

엔비디아의 첫 볼타 GPU는 적절하게도 GV100이다. 파스칼 GP100의 계승자로 연산용 테슬라 제품군의 다음 플래그십이다.

 

2017-05-13 (1).png

 

들어가기 전에 먼저 확실히 하고 싶은 게 있다. 볼타는 엔비디아의 모든 면에서 새 아키텍쳐다. (이에 대해 정보가 더 공개되면 더 깊이 살펴 볼 것이다.) 볼타의 내부 구조가 비슷하기는 하나 파스칼은 12nm 공정이 아니며, 새로운 코어(텐서 코어)가 없다. 아키텍쳐의 큰 차이는 스레드 실행, 스케쥴링, 코어 레이아웃, 메모리 컨트롤러, ISA 등등이다. 이것이 엔비디아가 말하고자 하는 바일 것이고, 아직 비밀에 부치고 있는 것이다. 그런고로 오늘 발표로 내가 할 수 있는 것은 변죽을 울리는 것일 뿐이며 기본적인 내용에만 집중할 것이다. 볼타는 앞으로 몇주간은 온전히 드러나지 않을 것이다.

 

기본 정보로만 보면 GV100은 솔직히 대담한 GPU다. 지난 10년간 다른 GPU에 이러한 수식어를 쓴 적이 없다. 다이 사이즈와 트랜지스터 개수를 보면 엔비디아는 진짜 만들 수 있는 최대 크기, 즉 211억 개의 트랜지스터를 815mm2에 넣었다. TSMC의 새로운 12nm FFN(n은 nvidia의 n으로 엔비디아를 위해 커스텀 된 고성능 버전이란 뜻이다.) 공정으로 제작된다.

 

이러한 관점에서 보면, 엔비디아의 이전 타이틀 보유자는 GP100으로 610mm2였다. 그러므로 GV100은 새로운 공정이 적용되었음에도 33%더 커졌다. 사실 엔비디아는 TSMC의 웨이퍼에 맞춰 왔다. GV100은 팹에서 생산할 수 있는 최대 크기다. 엔비디아가 이러한 한계 크기에 도전한 건 낯설지 않다. GM200이 TSMC 28nm 공정으로 제조되었을 때도 마찬가지였다. 허나 이 때는 고작 601mm2일 뿐이었고, GV100은 그보다도 훨씬 크다.

 

왜 다이 크기를 가장 먼저 다뤘느냐 하면, 크게 보면 다이 크기가 성능과 상관관계가 있기 때문이다. 허나 더 중요한 것은 엔비디아가 한계를 초월하고자 하는 신호를 보내고 있단 것이다. 이번에 엔비디아는 수율을 고려하지 않았다. 저렇게 큰 칩은 건져내기가 어렵고, 특히 신공정 12nm FFN에선 더 그럴것이다. 엔비디아는 정상 제품 소수를 얻기 위해 엄청난 양의 불량 실리콘을 희생할 것이다. 그런고로 엔비디아는 칩당 $1만 5천 이상 내고 싶어하는 고객들에게만 팔 수 있는 것이다. 이는 엔비디아의 고객이 얼마나 강력한 GPU를 원하는지 보여주고, 엔비디아가 얼마나 강하게 현대 팹 기술을 밀어부치는지를 보여준다.

 

voltablockdiagram_575px.png

 

칩의 비현실적인 크기를 제쳐두고, GV100은 강력함을 보장한다. GV100에는 84개의 SM(SM당 64개의 코어가 있으므로 총 FP32 CUDA 코어는 5376개다.)과 2688개의 FP64 코어(그러니까 엔비디아는 1:2 배정밀도 비율을 유지한다), 그와 더불어 엔비디아가 텐서 코어라 부르는 새로운 코어가 있다.

 

텐서 코어는 볼타에만 있는 것으로, 크게 보면 좀더 까다롭고 더 유연하지 못한(허나 그래도 프로그래밍 가능한) 텐서 딥러닝 연산을 위해 디자인된 코어다. 이 텐서 코어는 4x4 행렬 연산을 수행하는 ALU들의 집합이다. 특정한 FMA(A*B+C)로 두 4x4 FP16 행렬을 곱하고 그 결과를 FP16 혹은 FP32 4x4행렬에 더해 최종 4x4 FP32 행렬을 만드는 것이다.

 

tensorop_575px.png

 

 

텐서 코어의 중요성은 행렬-행렬 곱셈 연산을 한 유닛에서 할 수 있다는 데 있다. 엔비디아는 이를 통해 더 높은 FLOPS를 한 연산에 할 수 있게 되었다. 하나의 텐서 코어는 클럭당 64 FMA 연산을 할 수 있으며(총 128 FLOPS다) 8개가 SM당 들어 있으므로 클럭당 1024FLOPS 를 SM에서 할 수 있다. 이에 비해 표준 CUDA 코어는 순수 FP16 연산에서 클럭당 256FLOPS를 SM에서 할 수 있다. 이런 상황에서 텐서 코어가 쓰이면 볼타는 파스칼의 4배 성능을 내는 것이다.

 

volta_sm_575px.png

 

텐서 코어가 얼마나 유연하게 쓰이는지, FP32 대비 다이에서 얼마나 차지하는지 등의 정보는 아직까지 모른다. 그러나 크게 보면 상대적으로 쓰기 까다로워 보이며, 다이 크기 대비 효율은 좋아보인다. 컨트롤 로직이나 다른 보조 하드웨어 추가 없이 수 많은 ALU 무더기를 하나의 코어에 집약했으니 표준 CUDA 코어보다는 트랜지스터 숫자가 많을 것이다. 대가는 유연성으로 엔비디아는 의도적으로 유연성과 스루풋 사이에서 선택을 한 것이다.

 

스펙 리스트를 따라가다 보면 각 SM에는 4개의 텍스쳐 유닛이 있고, 이는 GP100과 같다. 이 텍스쳐 유닛에 곁들여 엔비디아는 L1 캐시와 공유 메모리 아키텍쳐도 손봤다. GP100은 24KB의 L1/텍스쳐 캐시와 64KB의 공유 메모리를 SM당 갖고 있었으나 GV100은 이제 128KB의 L1 캐시/공유 메모리를 SM당 갖고 있다. L1캐시와 공유메모리의 구성 분할은 자유롭다. 이 캐시를 통합한 것을 떠나 이는 총 메모리를 40KB 증량한 것이다. 그에 비해 레지스터 파일은 256KB(4x16K 32비트 레지스터)로 이전과 같다.

 

GV100은 GP100처럼 84개의 SM이 2개 단위의 TPC로 나뉘어 있고, 이것은 42개의 TPC를 의미한다. 이 TPC 7개가 1개의 GPC가 되고 총 6개의 GPC가 된다. 이 괴물에는 다시 한번 HBM2가 쓰였으며, 엔비디아는 4스택을 GP100처럼 사용하였다. 하지만 흥미롭게도 테슬라 SKU 대비 25%의 메모리 동작속도 향상에만 그쳤으나 엔비디아는 메모리 효율성 향상으로 실 대역폭은 50% 향상되었다고 주장한다. GPC와 VRAM 사이의 L2캐시 또한 증설되어 이제 ROP/메모리 파티션당 768KB의 L2캐시가 존재한다. GP100은 512KB였다. 이는 총 L2 캐시 용량이 6MB임을 의미한다.

 

다시 돌아가 볼타는 또한 새 버전의 NVLink를 탑재했다. 이전에 발표된 NVLink2로 더 큰 대역폭을 가진다(쌍방향 20GB/s 에서 쌍방향 25GB/s). GV100에는 GPU당 6개의 NVLink 2가 있으며 GP100보다 2개 더 많은 것이다. 중요하게도, NVLink 2에는 GPU와 CPU의 동조를 돕는 캐시가 도입되었다. 이게 파워9 + 볼타 시스템에 큰 역할을 할 것이다.

 

마지막으로 온전한 정보는 더 기다려봐야 겠지만 엔비디아는 볼타에서 SIMT의 방식에 변화를 주었다. 개별 CUDA 코어의 32 스레드의 워프가 이제는 제한된 자율성을 가진다. 스레드는 이제 세부 단계에서 동기화가 가능하며, SIMT의 패러다임은 그 속에 살아 있고, 전체적인 효율성은 좋아졌다. 중요하게도 개별 스레드 단위로 동작이 가능해졌으며, 함께 다시 스케줄 될 수 있다. 이는 하드웨어 스케줄러가 볼타에서 어느 정도 돌아왔음을 뜻한다.

 

voltasimt_575px.png

 

 

 

전체적으로 GV100은 30억 달러의 연구/개발 비용이 들어간 프로젝트고, 이는 엔비디아의 가장 큰 프로젝트이자 가장 큰 GPU다. 엔비디아는 첫 GV100을 3사분기에 배송을 시작할 예정이며, 싸진 않다. DGX 시스템에서 개당 $1만8천 수준이다. 그러나 주머니가 그득한 고객들은 결국 엔비디아가 저렇게 큰 GPU를 생산하는 모험을 하게 해주었으며, 이 덕에 가장 강력한 GPU가 발매될 수 있었다.

 

테슬라 V100

 

GV100 GPU가 사용된 첫 제품은 당연히 테슬라 V100이다. 전작 P100처럼 이는 GV100 풀칩이 아니다. 84개 중 80개만이 수율을 위해 동작한다.

 

2017-05-13.png

 

 

 

테슬라 V100은 15TFLOPS의 FP32 성능을 내며, 30TFLOPS FP16, 7.5TFLOPS FP64, 120TFLOPS의 텐서 연산을 자랑한다. 최대 속도는 1455MHz이고 이것은 총 42%의 이론적인 FLOPS 향상폭을 뜻한다. 파스칼에 비하면 텐서 연산은 6-12배일 것이며, 정밀도에 따라 다르다.

 

테슬라 V100은 16GB HBM2로 패키징 되어 있으며, 아직 8스택 HBM2는 아직 아무도 생산 안하는 관계로 엔비디아는 4스택 이상으로 메모리를 늘리지 못했다. 그래도 동작 속도는 P100의 1.4Gbps 보다 25% 향상된 1.75Gbps다.

 

또한 테슬라 P100처럼 엔비디아는 메차닌 규격을 쓴다. 공개된 새 커넥터가 없으므로 추가 NVLink 연결 핀이 더 있을 것이나, 사이즈는 비슷할 것이다. 엔비디아는 이를 SXM2 폼팩터라 부른다.

 

TDP는 300W로 전작과 같다. 엔비디아는 전력 효율성이 P100보다 더 나을 것이라고 언급했으며, 이 말이 어디까지인지, 얼마나 자주 파워 스로틀이 걸리는 지를 지켜보는 것도 흥미로울 것이다.

 

테슬라 V100을 쓰는 첫 제품은 엔비디아 DGX-1V일 것이며, 엔비디아 DGX 서버의 볼타 버전이다. 파스칼 발매와 비슷하게 DGX 판매분은 하나에 8 GPU를 장착할 수 있으며, 프리미엄이 껴있다. DGX-1V는 $14만 9천일 것이며 3사분기에 배송되고 OEM P100은 4분기 까지 구할 수 없다.

 

teslacards_575px.jpg

 

마지막으로 메자닌 버전을 따라 두가지 PCIe 버전의 V100도 발표했다. 하나는 250W 풀 사이즈 모델이고 PCIe P100과 유사하다. 두번째 것은 높이는 같되 길이는 반인 1슬롯 모델로 "하이퍼스케일 추론을 위한 테슬라 V100"으로 포장되었다. 이것은 150W 카드로 데이터센터 추론 서버에 더 높은 밀도로 장착할 수 있음을 뜻한다. 스펙은 아직 발표되지 않았지만 메자닌 카드의 절반인 TDP임을 행각하면 아마도 더 낮은 클럭과 더 많이 비활성화 된 SM을 갖고 있을 것이다.

추천해주신 분들

  • |
  1. sxm2-voltachipdetails_678x452.png (File Size:340.1KB/Download:0)
  2. 2017-05-13 (1).png (File Size:62.3KB/Download:0)
  3. 2017-05-13.png (File Size:85.0KB/Download:0)
  4. voltablockdiagram_575px.png (File Size:179.1KB/Download:0)
  5. tensorop_575px.png (File Size:39.8KB/Download:0)
  6. volta_sm_575px.png (File Size:226.5KB/Download:0)
  7. voltasimt_575px.png (File Size:65.3KB/Download:0)
  8. teslacards_575px.jpg (File Size:43.3KB/Download:0)
facebook twitter google plus pinterest kakao story band

서명

Profile image

잼아저씨

(level 12)

1041047.png

저는 게임의 모든 것에 관심이 있는 미천한 호사가일 뿐입니다.

Steam : Uncle JAM  Origin : unclejamj  Uplay : unclejamj  PSN : unclejamj

Google+ : Jaejin Lee (Uncle JAM)

* 적용중인 트로피 :

Profile image Dr.Lee 2017.05.13 23:24
아이고 잼아저씨님, 좋은 뉴스글 감사합니다.
이 글은 닥몰 메인 및 페이스북 페이지에 게시되었습니다 :)
번호 분류 제목 테마(게임) 글쓴이 조회 추천 날짜
공지 신규유저를 위한 닥터몰라 사용설명서 ver 0.2 [35] updatefile 마린웨이브 685 27 06.05
공지 닥터몰라 스팀 그룹 비공개 및 초대 요청 방법 ZardLuck 896 0 10.12
공지 닥터몰라를 소개합니다 [18] Dr.Lee 1318 11 09.07
1622 [잡담] 대기업 브랜드에서도 게이밍 PC가 나오는군요 놀람 [5] file 삼성(Samsung) 썬업 256 2 05.14
1621 [잡담] 동원을 다녀왔는데... [10] Dr.Lee 172 5 05.13
1620 [질문] 저번주에 생긴 스팀 선물 시스템 변경에 대한 궁금증 EpikFail 69 0 05.13
1619 [잡담] 와 16쓰레드를 100%로 돌려보는군요 [8] file ZardLuck 362 1 05.13
1618 [잡담] 퀘이크 챔피언 해봤는데요 [1] 윤뎅구 60 0 05.13
» [잡담] 아난드텍의 볼타 아키텍쳐/테슬라 V100 기사 [1] file [게임미식가] 잼아저씨 655 3 05.13
1616 [잡담] 컴 조립 하면서 사리나오는 만화 [7] file 삑점 1048 5 05.13
1615 [잡담] 5월 12일 금요일. [5] Please& 90 1 05.12
1614 [잡담] 용산 구름다리 아시나요? 다시 연결 됩니다. [2] file 썬업 186 2 05.12
1613 [잡담] (약스포)고스트리콘 : 와일드랜드 엔딩 봤습니다 file [게임미식가] 잼아저씨 48 1 05.12
1612 [잡담] 메인보드 도매는 몇장 부터 구매 가능할까요? [3] 삑점 135 0 05.12
1611 [잡담] I need you human....뭐라고? [2] 4001jh 101 0 05.12
1610 [스샷] 1070FE입니다 +_+ [1] file 삑점 104 2 05.11
1609 [소개] 트랜스포머 5 새로운 영상 [2] ZardLuck 72 0 05.11
1608 [잡담] 볼타 관련 DG님의 의지 [3] 썬업 203 4 05.11
1607 [잡담] 테슬라 V100의 코어 구조 [3] file SamirDuran 246 0 05.11
1606 [잡담] 크고... 아름다워요... [4] file RuBisCO 193 1 05.11
1605 [잡담] 오늘 엔비디아에서 뭔가 발표를 하네요 [8] file 엔비디아(Nvidia) [게임미식가] 잼아저씨 264 2 05.10
1604 [잡담] 라라 랜드의 대선 예지력 [2] file ZardLuck 174 1 05.10
1603 [잡담] 투표하신 여러분 행운권 신청하셔야줭?? [7] file 썬업 159 3 05.09
1602 [잡담] (스포 주의) The Least of Us file [게임미식가] 잼아저씨 104 2 05.09
1601 [소개] 배틀 그라운드의 흔한 매복 file 유머(humor) ZardLuck 123 2 05.09
1600 [잡담] 엉엉 평창 올림픽 개회식 티켓 실패했습니다 file ZardLuck 47 2 05.09
1599 [잡담] 투표하고 왔네요 [2] 윤뎅구 44 2 05.09
1598 [잡담] 오늘 어쩌다 봤던 게임으로본 인생 2회차 [1] file 썬업 111 2 05.09