하드웨어 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[VGA] 라데온 인스팅트, 그리고 AMD가 그리는 인공지능의 미래

Dr.Lee | 조회 2113 | 추천 6 | 2016.12.21. 06:13 http://drmola.com/pc_column/113457

amd_26.jpg

 

모두가 4년만에 베일을 벗은 라이젠 CPU에 열광하기 딱 하루 전. AMD는 이례적으로 조용히 그들의 차기 GPU '베가'가 탑재된 시제품을 소개했다. 단독 발표조차 아니어서 폴라리스 기반의 다른 두 형제 그래픽카드에 살며시 묻어가는 모양새가 되었지만 사람들의 이목을 끄는 것까지 막지는 못했다. 이들 전체를 관통하는 새 그래픽카드 라인업의 브랜드명은 '라데온 인스팅트'. 그래. 본능이다.

 

이전까지 FP32, FP64 등 상대적 고정밀 영역에서의 연산성능 강화에 주력하던 AMD는 최근 HPC 시장의 흐름이 아주 죽을 맛이었을 것이다. 정밀한 계산을 필요로 하는 전통적 '컴퓨터', 즉 계산기의 기대역할은 어느 순간 '덜 정확하더라도 막대한' 연산을 누적해 인간 두뇌의 '학습'을 모방하는 머신 러닝/딥 러닝으로 바뀌어 있었고 이에 FP16, INT8 등 상대적 저정밀 영역에서 실력을 갈고 닦던 엔비디아가 가장 큰 수혜를 누렸다. 오늘날 GPU 기반의 HPC 시장의 90% 이상이 엔비디아의 수중에 있을 만큼 운동장은 기울어 버렸다.

 

amd_04.jpg

 

머신 러닝이 HPC의 트렌드가 되어버린 지금, AMD는 마침내 고집을 꺾고 백기투항을 결심한 듯하다. 순순히 '기계학습Machine Learning' 을 언급하는 대신 굳이 '기계지능Machine Intelligence' 이라는 신조어를 쓰는 꼬장꼬장함은 노선을 바꾼 이들의 마지막 자존심이 아닐까. ML이건 MI이건 머신 러닝을 수용한 이상 이들이 지향해야 할 점은 명백해졌다. 고정밀도 중심에서 저정밀도(대신 빠르게) 중심으로 피벗팅하는 것이 그것이다.

 

꼭 2년 전 엔비디아는 맥스웰 아키텍처 기반 GPU를 발표하며 2배속 FP16 연산의 운을 뗐었다. 다만 당장 지원되었던 것은 아니고 그로부터 수개월 뒤 출시된 '맥스웰 기반 내장 GPU를 통합한' 테그라 X가 첫 번째 2배속 FP16 연산 지원 칩셋이 되었는데, 당장 아키텍처의 큰 부분을 바꾸는 게 다소간 부담으로 작용했기 때문으로 여겨진다.

 

아키텍처와 파운드리를 분리해 대응할 수 없을 뿐더러 발전속도 자체도 CPU보다 훨씬 빠른 GPU 시장이기에 단 한 세대라도 아키텍처 개선 자체를 손을 놓을 수 없는 상황에, 주력 라인업과 모바일이라는 투 트랙에서 변칙적으로 '틱톡'을 구사한 이들의 전략은 이후 파스칼 아키텍처에 전면적인 2배속 FP16을 연착륙시킨 주요한 승인이 되었다.

 

amd_17.jpg

 

AMD가 지난 여름 폴라리스 GPU를 발표할 때까지만 하더라도 기계학습과 관련있는 어떤 언급도 나오지 않았던데다 당연히 FP16 지원에 관한 일언반구도 없었다. 그랬던 그들이 반년만에 2배속 FP16을 지원하는 베가를 만들어냈다? 분명히 '미싱 링크'가 있다. 최근 우연히 드러난 바에 따르면 그것은 다름아닌 플레이스테이션 4 프로였다. 외견상 폴라리스의 스펙을 차용했지만 단 하나, '원포인트 개선'을 가한 것이 바로 2배속 FP16의 지원이었던 것.

 

엔비디아가 테스트베드로 쓸 테그라가 있었듯 AMD는 콘솔 시장을 장악하고 있었던 -그렇기에, 주력 라인업과 반 세대 엇갈린 스텝을 밟을 수 있었던- 것이 변칙적 '틱톡' 시도를 가능케 한 것이다. 시도는 성공적이었고, AMD는 이를 바탕으로 베가를 만들어낸 것으로 여겨진다. 이에 따라 일부 외신(링크)에서는 플레이스테이션 4 프로에 탑재된 GPU 아키텍처를 아예 (폴라리스 아닌) 베가로 보아야 한다는 견해를 피력하기도 했다.

 

amd_16.jpg

 

그리하여 오늘의 주인공은 '베가를 탑재한 라데온 인스팅트', MI25 되시겠다. 새 명명법을 잠시 소개하자면 앞의 두 글자 -MI- 는 기계지능을, 뒤의 숫자는 각각의 부동소수점 연산성능을 표기한 것이다. 이름답게 25 테라플롭스의 연산성능을 갖춘 라데온 인스팅트 MI25는 단숨에 테슬라 P100을 뛰어넘는 FP16 가속기에 등극하게 되었고 그 격차는 무려 20%에 달한다. (참고 : 테슬라 P100의 FP16 연산성능은 20.7 테라플롭스(링크))

 

물론 2배속 FP16 가속이 적용되었을 경우의 얘기고 통상적인 FP32 기준 연산성능은 그 절반인 12.5 테라플롭스에 그친다. 그렇더라도 테슬라 P100은 물론 현존하는 최고 성능의 GPU인 엔비디아 타이탄 X보다 연산성능이 16%나 높다. (참고 : 타이탄 X의 FP32 연산성능은 10.7 테라플롭스(링크)) 예로부터 게이밍 성능보다 연산성능이 후하게 잡히던 AMD이지만 베가의 첫 등장이 인상적이라 하지 않을 도리가 없다.

 

나머지 두 라데온 인스팅트들은 각각 MI6(어떤 영화가 생각났다면 진거다), MI8로 폴라리스와 피지 GPU를 각각 탑재하고 있다. 베가와 달리 FP16 연산에 특화되지 않았단 점이 약점이라면 약점. 또한 이들 모두 FP16보다 더 낮은 정밀도를 갖는 INT8 연산에는 최적화되지 않았다. 이것이 어떻게 잠재적 약점이 될 수 있는지에 대해서는 후술하겠다.

 

amd_08.jpg

 

기계학습, 딥러닝의 분야는 크게 '훈련Traning'과 '추론Inference'의 두 갈래로 나뉜다. 이 중 추론은 비교적 소규모의 클라이언트에서도 가능하고 요구하는 연산량과 연산의 정밀도 모두 비교적 낮은 편이라 저정밀도 연산에 특화된 GPU일수록 절대적으로 유리한 분야이다. 상대적으로, 훈련은 소요되는 연산량도 많고 요구되는 정밀도 역시 추론보다는 높은 편이기에(그렇더라도 FP16 이상을 요구하지는 않는 것 같다) 더 대규모의 GPU를 필요로 한다.

 

앞서 엔비디아 역시 정확히 같은 접근법을 채택, 신경망훈련용 GPU로 GP100을 개발했으며 신경망추론용으로 GP102/104를 투입한 바 있었다(링크). 전자는 2배속 FP16 연산을 킬러 기능으로 탑재한 대신 INT8은 별다른 취급을 하지 않았고, 반대로 후자는 FP16 성능을 (다분히 의도적으로) 대폭 제한하는 대신 4배속 INT8 연산을 도입해 현존하는 최고의 추론용 가속기로 쓰일 수 있게 했다.

 

특히 이러한 접근 차이는 외견상 쿠다코어 수가 같은(=동급으로 보여지는) GP100과 GP102의 포지셔닝, 상하관계 등을 규명하는 데 핵심적인 근거가 되었고, 결과적으로 '그래픽카드로써' 상대적으로 캐주얼하게 HPC 시장에 투입될 '추론용' GP102와 '그래픽카드 아닌 가속기로써' 각 잡고 HPC 시장에 진출하는 '훈련용' GP100의 역할 분담을 효과적으로 해낸 것으로 평가받는다.

 

amd_15.jpg


훈련과 추론의 차이에 관해서는 위 슬라이드로 설명을 갈음한다. 결과적으로, 라데온 인스팅트 MI25는 현존하는 최고 성능의 '기계/신경망 훈련'용 가속기로써 재리매김하기 무리가 없지만 (4배속) INT8은커녕 (2배속) FP16마저도 지원하지 않는 MI6, MI8의 위상은 애매하다고밖에 표현할 수 없다. 잠재적 경쟁 상대로써 엔비디아가 '신경망 추론용 가속기'로 못박은 테슬라 P40이 무려 47 테라옵스, 그보다 하위 모델인 테슬라 P4마저도 22 테라옵스의 INT8 연산성능을 갖는 것에 비하면 이들의 6 / 8테라플롭스 FP32 성능은 초라하기(도 하거니와 장르를 완전히 잘못 잡은 것 같은데...) 그지없기 때문. 그나마 비벼볼 언덕이라면 FP32 연산성능만을 기준삼았을 때 MI6 / MI8이 P4보다는 빠르다는 것. 아, 내가 썼지만 왜 이렇게 구차하냐.

 

vega_01.jpg

 

그래도 이런 확고한 컨셉의 프로토타입을 보면 어쩔 수 없이 매료되게 된다. HBM의 사용으로 소비면적이 극단적으로 줄어든 베가 기판 4개를 직육면체의 4면에 배치한 '베가 큐브'. 개당 25 테라플롭스의 연산성능을 가지니 저 작은 큐브 하나가 100 테라플롭스의 슈퍼컴퓨터급 성능을 발휘한다는 얘기다.

 

amd_20.jpg

 

라데온 인스팅트의 강점으로 내세운 것은 오픈소스 플랫폼이라는 것. 오픈소스 기계지능 컴파일러인 MIOpen을 사용할 경우 피지 GPU 기반의 MI8로도 타이탄 X를 넘어설 수 있다고. 단순히 성능상의 이점뿐 아니라 개방성과 확장성을 무기 삼아 궁극적으로 시장의 판을 다시 짜고자 하는 게 AMD의 큰 그림이다. 물론 쿠다와 OpenCL, G-Sync와 FreeSync 등 이전에도 비슷한 구도의 공성전을 AMD는 많이 겪었고, 주로 공성에 늘 실패해 온 전력이 있다. 이번엔 과연 다를까.

 

하드웨어와 소프트웨어를 쌍끌이로 보급해 독점 생태계를 만들어가는 엔비디아와, 하드웨어를 직접 제조하되 소프트웨어는 '판을 까는' 조력자의 역할에 그치고 외부 플레이어의 중량감을 지렛대 삼아 저변을 확대하고자 하는 AMD의 전략 중 무엇이 옳고 그른지 지금으로써는 판단할 수 없다. 심지어 이런 전략의 대립이 비단 이 시장에서만 있었던 것도 아니다. RDRAM을 주류로 삼으려던 인텔에 대항해 거의 모든 반도체 제조사가 연합한 TeamDDR은 '인텔 패권주의'를 붕괴시키는 데 성공했고 그들의 성공이 메모리 역사의 물줄기를 비가역적으로 바꿔버린 반면, 또다른 대표적인 폐쇄주의자 애플과 나머지 모두의 전선은 오히려 최근 들어 더욱 알 수 없게 전개되어가고 있지 않는가.

 

amd_24.jpg

 

인간이 다른 척색동물과 구분되는 가장 큰 차이는 ‘파충류의 뇌’ 바깥을 둘러썬 컴퓨팅 파워의 집합체 ‘회백질(대뇌 피질)’이 고도로 발달해 있다는 점이다. 불행하게도 인간종의 진화속도보다 컴퓨터의 발전속도가 월등히 빨랐던 탓에 오늘날 회백질은 -그 빛나는 성취에도 불구하고- 지구상에 존재하는 가장 뛰어난 컴퓨터가 아니게 되었다. 설령 아직까지 몇몇 분야에서(예 : ‘직관’, ‘학습’ 등) 컴퓨터가 인간의 두뇌를 미처 따라잡지 못한 예가 있더라도 그 격차는 빠른 속도로 좁아져 인간의 신승에 그치거나, 속속 역전의 비보를 듣게 되는 상황이다. 모두가 알파고와 이세돌의 대결을 기억할 것이다. 이세돌이 다섯 판 중 단 한 판 건진 승리는, 앞으로 인류가 컴퓨터를 상대로 거둘 최후의 승리가 될 가능성이 높다. Again, 발전 속도의 곡선이 근본적으로 다른 차수(order)에서 전개되기 때문이다.

 

alphago.png

 

하지만 그것마저 본질은 아니다. 사실 오늘날 가장 발전된 로봇 기술은 방정식을 사람보다 빨리 풀거나 암호를 사람보다 빨리 맞추는 것에 있지 않다. 가장 뛰어난 과학자들이 모여 구현하는 것이라곤 어이없게도 갓 태어난 아기 수준의 인지능력이나 걸음마를 막 시작한 아이 정도의 보행능력이니까. 이미 인공지능의 미래가 ‘지능’ 그 자체는 아니라는 얘기다. 우리에게 가장 쉬운 것이 컴퓨터에게는 가장 어렵고, 실은 우리 스스로도 ‘파충류의 뇌’의 관할인 반사신경과 불수의근의 도움이 없다면 도저히 불가능한 작업인 그것. 요컨대 지능의 미래가 본능이라는 AMD의 감각적이기 그지없는 이 작명은 결코 틀리지 않은, 실은 너무나 사실에 가까운 것이다. 회백질의 영역을 이미 뛰어넘은 컴퓨터는 그 안으로 파고들어 ‘인공본능’을 구현하려 한다.

 

한때 AMD는 GPU의 미래를 지구 깊은 곳 ‘맨틀’에서 찾으려 했고 지금 그들은 우리 두뇌의 ‘더 깊은 곳’에서 컴퓨팅의 미래를 찾으려 한다. 공교롭게도 지구와 두뇌는 많은 면에서 닮았다. 인간이 이미 정복한 지각과 컴퓨터가 따라잡은 회백질은 우리 인식 속 ‘지구’, ‘뇌’ 에서 떠오르는 심상의 대부분을 담고 있되 전체의 극히 표피적인 부분일 뿐에 다름아니다. 모든 문명은 지각 위에 건설되었고 모든 '인간적'인 성취는 오로지 회백질이 열일한 덕이지만, 그게 전부는 아니란 얘기.

 

brain_earth.jpg

 

산업혁명 이래 폭발적으로 지적 탐구가 행해졌음에도 아직까지도 지각 아래쪽은 인간의 눈으로 탐사된 바 없고, 여전히 회백질 아래 ‘파충류의 뇌’의 작동원리는 완벽히 드러나지 않았다. 깊어질수록 닿기 어려운 지구와, 파고들수록 지능과는 멀어지고 생명 유지와는 직결되어 있는 뇌는 불연속면으로 분절된 물리적 구조만큼이나 인류 지식의 지평이 닿아 있는 정도까지도 닮아 있다. 어쩌면 가장 친밀하고 가까운 대상의 가장 미스테리어스한 부분이기에 단연 인류 최후의 탐험지가 될 수밖에 없는 그곳. 거기에 베가가 있다.

  • |
  1. amd_26.jpg (File Size:70.8KB/Download:5)
facebook twitter google plus pinterest kakao story band

서명

Profile image

Dr.Lee

(level 30)

* 적용중인 트로피 :

Profile image [게임미식가] 잼아저씨 2016.12.21 11:21
"베가는 과연 클럭이 높은 것일까, 아니면 SP가 많아진 것일까? 만약 클럭이 높아졌다면 베가는 어떻게 폴라리스보다 고클럭을 달성했을까?" 가 궁금합니다.
Profile image Dr.Lee 2016.12.21 18:05
저도 매우 궁금......
Profile image Nvidia 2016.12.23 16:34
히야... 본능이라 이름 참 잘 지었네요
Profile image Dr.Lee 2016.12.23 18:58
의도하고 지은 것일지 모르겠지만, 굉장히 진화방향(정확히는 생물 진화의 역방향)의 정곡을 찔렀단 생각이...
Profile image Bizu 2016.12.24 03:34
암드야 힘내라!
  • [카드뉴스] CPU WARS : EPISODE V "THE EMPIRE STRIKES BACK" [CPU] [카드뉴스] CPU WARS : EPISODE V "THE EMPIRE STRIKES BACK" [30] file

    ※ 닥터몰라 페이스북 페이지에 게시된 원본은 여기서 보실 수 있습니다! 안녕하세요 독자 여러분. 어느새 두번째 편으로 찾아뵙게 되었습니다. 이번 편에서는 제국의 필살기, 데스스타... 아니 코어 아키텍처가 어떻게 태동하였는지를 간단히 짚어보고, 코어 아키텍처 및 그 전신인 P6 아키텍처, 그리고 코어의 후신인 네할...

    • Dr.Lee |
    • 17.02.05 |
    • 조회 5435 |
  • [카드뉴스] CPU WARS : EPISODE IV "A NEW HOPE" [CPU] [카드뉴스] CPU WARS : EPISODE IV "A NEW HOPE" [27] file

    ※ 닥터몰라 페이스북 페이지에 게시된 원본은 여기서 보실 수 있습니다! 안녕하세요. 닥터몰라가 준비한 카드뉴스 그 네번째. <CPU WARS : 에피소드 4 '새로운 희망'> 편입니다. 금주부터 한달여간 연재될 <CPU WARS> 는 라이젠의 출시를 맞아, 카드뉴스라는 새로운 포맷으로 리부트된 <현대 CPU의 구조> 입니다. 지금까지 ...

    • Dr.Lee |
    • 17.01.30 |
    • 조회 12688 |
  • 다시 만난 세계 : 새로운 HEDT, 인텔의 출구전략 [CPU] 다시 만난 세계 : 새로운 HEDT, 인텔의 출구전략 [6] file

    (이미지 출처 : Benchlife) 오는 8월 개막할 Gamescom 행사에 맞춰 인텔이 라이젠의 라이벌을 준비하고 있다는 소식이다. 외신의 기사(링크)에 따르면 각각 스카이레이크와 케이비레이크의 HEDT판 실리콘들인 스카이레이크-X, 케이비레이크-X가 동시에 한 라인업으로 출시될 예정이며 이들은 모두 코어 i7-7800/7900 시리즈...

    • Dr.Lee |
    • 17.01.25 |
    • 조회 2861 |
  • [카드뉴스] 아이폰 발표 10주년. 아이폰이 바꾼 것 10가지. [etc] [카드뉴스] 아이폰 발표 10주년. 아이폰이 바꾼 것 10가지. [3] file

    스티브 잡스는 10년 전 오늘, 맥월드 행사에서 세 가지 ‘혁명적인’ 제품을 발표했습니다. 터치로 컨트롤하는 와이드 스크린을 탑재한 아이팟, 혁명적인 휴대폰, 획기적인 인터넷 커뮤니케이션 기기를 발표했죠. 아시겠지만 이 세 기기는 별도의 기기가 아니라 iPhone이라는 단일 기기입니다. 아이폰은 애플 뿐만 아니라 IT ...

    • iMola |
    • 17.01.10 |
    • 조회 942 |
  • 끊을 수 없는 고리 : 퀄컴의 야심과 TSMC, 삼성, 그리고 모두에게 얽힌 굴레 [모바일] 끊을 수 없는 고리 : 퀄컴의 야심과 TSMC, 삼성, 그리고 모두에게 얽힌 굴레 file

    2년하고도 1개월이 지난 끝에 퀄컴Qualcomm의 집념이 그 결실을 맺기 시작했다. 지난달 ARM 기반 48코어 SoC를 시연하며 스케일아웃scale-out 서버 시장에 진출하겠다는 목표에 성큼 다가선 것이다. 시연을 성공적으로 마치며 퀄컴은 자사의 서버용 SoC가 현 단계에 이미 완전히 작동 가능하고, 이른 시일 내에 상용화될 수 ...

    • Dr.Lee |
    • 17.01.10 |
    • 조회 1963 |
  • GCN 5.0 아닌 베가 1.0 : 최초 공개, 베가 아키텍처 개요 [VGA] GCN 5.0 아닌 베가 1.0 : 최초 공개, 베가 아키텍처 개요 [3] file

    베가는 AMD가 FinFET 제조공정으로 생산하는 첫 '빅 뷰티' 칩셋이다. 글로벌파운드리의 14nm FinFET 공정이 적용된 폴라리스가 반년 전 출시되었지만 하이엔드 라인업이 공석으로 남아 있었기 때문이다. 베가의 등장은 2015년 피지에 이어 21개월만의 하이엔드 세대교체이자, 2011년 12월 타히티 칩셋으로 GCN 아키텍처가 첫...

    • Dr.Lee |
    • 17.01.06 |
    • 조회 5390 |
  • 노트북 GPU 전 체급에 뻗어나가는 파스칼 : 지포스 GTX 1050 / 1050 Ti 가세 [VGA] 노트북 GPU 전 체급에 뻗어나가는 파스칼 : 지포스 GTX 1050 / 1050 Ti 가세 [3] file

    세계 최대의 소비자가전 전시회 CES가 이틀 전 개막했다. 엔비디아는 이날 자사의 노트북 GPU 라인업에 산뜻한 터치를 더했으니, 바로 메인스트림급 지포스 GTX 1050 / 1050 Ti를 모바일에도 이식한 것이다. 근래 지포스 10 시리즈에서 데스크탑과 모바일 GPU 사이의 차이가 극히 미미했던 것에서 짐작 가능하듯 1050 시리즈...

    • Dr.Lee |
    • 17.01.05 |
    • 조회 2530 |
  • 불쾌의 골짜기를 넘자 : 실감나는 VR을 위한 제안, 백팩형 PC [etc] 불쾌의 골짜기를 넘자 : 실감나는 VR을 위한 제안, 백팩형 PC [6] file

    가상현실이 벌써 2년째 ‘다가올 한 해의 트렌드’ 타이틀을 놓지 않고 있다. 이건 무슨 데뷔 2년차 신인같은 얘기. 이변이 없다면 얼마 남지 않은 내년초 특집이라는 명목 하에 장삼이사의 매체 최소한 어느 하나로부터는 재차 다뤄질 것도 같은, 그 찬란한 이름 VR. 3년째 유망할 신기루만 좇다 시나브로 망할 업체들이 하나...

    • Dr.Lee |
    • 16.12.23 |
    • 조회 1348 |
  • 어디로 가야 하죠, 인텔 아저씨 : 혼돈과 질서 사이 커피레이크 [CPU] 어디로 가야 하죠, 인텔 아저씨 : 혼돈과 질서 사이 커피레이크 [8] file

    인텔이 어렵다. 나를 개인적으로 아는 이들이 비슷한 가치의 다른 말로 '내가 가장 좋아하는 채소는 당근이다1)' 정도쯤을 떠올릴 만큼 어이없게 들릴지 모르겠지만 이것은 과거 어느 때보다 명확한 사실이다. 우선 인텔은 AMD, 엔비디아, 마이크로소프트 등 유수의 IT 기업이 환골탈태에 가까운 변신으로 신성장동력을 발굴...

    • Dr.Lee |
    • 16.12.22 |
    • 조회 3911 |
  • 라데온 인스팅트, 그리고 AMD가 그리는 인공지능의 미래 [VGA] 라데온 인스팅트, 그리고 AMD가 그리는 인공지능의 미래 [5] file

    모두가 4년만에 베일을 벗은 라이젠 CPU에 열광하기 딱 하루 전. AMD는 이례적으로 조용히 그들의 차기 GPU '베가'가 탑재된 시제품을 소개했다. 단독 발표조차 아니어서 폴라리스 기반의 다른 두 형제 그래픽카드에 살며시 묻어가는 모양새가 되었지만 사람들의 이목을 끄는 것까지 막지는 못했다. 이들 전체를 관통하는 새...

    • Dr.Lee |
    • 16.12.21 |
    • 조회 2113 |