지포스 GTX 1070, 1060의 ROP에 관한 비밀

by Dr.Lee on 2017년 05월 16일 10시 19분 (2년 전) 조회: 3,331 추천: 7

페이스북 퍼가기  

지난 세대 지포스 GTX 970의 메모리 / ROP 스캔들을 기억하는 분께는 묘한 기분을 불러일으킬 수도 있을텐데, 이 글에서는 지포스 GTX 1070, 1060의 ROP에 관한 잘 알려지지 않은 사실을 다뤄 보려 합니다. 대외적으로 VGA 계산기가 공개되지 않은지는 벌써 몇달이 되어가지만 내부적으로는 꾸준히 업데이트를 거쳐 활용 중이고, 조만간 비슷한 기능을 갖는 페이지를 사이트 내에 개설할 계획이지만 내부 사용 버전과는 항상 버전 차이를 두려고 하기에 여러분이 접하게 될 / 혹은 이미 접했거나 갖고 있는 구버전 VGA 계산기에서 선험적으로 검출 가능한 이슈였는지는 잘 모르겠습니다.

 

아, 미리 선을 긋자면 - 이번 이슈는 GTX 970때처럼 제조사가 명백히 잘못된 사실을 전파했다거나, 기타 윤리적 비난을 받을 만한 일을 한 것은 전혀 아닙니다. 오히려 파스칼 세대 들어 GTX 1070, 1060의 ROP가 활용되는 방식이 기존과 어떻게 달라졌는지를 알려드리는 것에 가깝겠네요. 다만 결과론적으로 최초 출시 당시 GTX 1070의 정확한 ROP 성능을 짐작할 수 없게끔, '충분한' 정보가 주어지지 않은 것은 아쉬움을 자아냅니다. 그 '충분한' 정보란, 바로 GTX 1070에 사용된 GP104 컷팅칩의 블록 다이어그램입니다. 좀 더 자세히 알아볼까요.

 

pascal_0.jpg

 

지포스 GTX 1080과 1070이 출시된 작년 7월, 많은 매체에서 이들의 리뷰가 우후죽순으로 쏟아졌지만 GP104 풀 칩이 적용되어 딱히 다이어그램을 새로 그릴 필요가 없던 GTX 1080과 달리 1070에 대해서는 여러 설이 분분했습니다. 세부적으로는 여러 바리에이션이 있었겠지만 대표적으로 두 부류로 분류하자면 위와 같이 대별될 수 있습니다. 엔비디아의 GPU 내부 분할단위인 "GPC" 4개를 그대로 유지한 채 각 GPC 내부에서 SM을 선택적으로 비활성화한 것(왼쪽)과 GPC 하나를 통째로 비활성화한 것(오른쪽)이 그것입니다.

 

이것이 어째서 차이를 가져오는지 잘 모르시겠다고요. 일단 GP104의 GPC가 어떻게 구성되는지 살펴보아야 합니다.

 

스크린샷 2017-05-16 오전 9.56.56.png

 

하나의 파스칼 GPC는 5개의 SM과 5개의 폴리모프 엔진 (이들을 묶어 텍스처 프로세싱 클러스터 TPC 라 함), 그리고 1개의 래스터 엔진으로 구성됩니다. 여기서 특별한 존재가 바로 래스터 엔진인데, 아시다시피 래스터라이징을 수행하는 ROP는 실은 래스터라이저라는 작업의 "백엔드"에 해당하고 GPC 내에 위치한 래스터 엔진이 바로 "프론트엔드" 역할을 수행합니다. 말하자면 둘의 쌍이 맞아 떨어져야만 최적의 래스터라이징 성능을 발휘할 수 있고, 둘이 처리할 수 있는 수량에 차이가 있다면 무조건 둘 중 낮은 쪽으로 래스터라이징 성능이 맞춰지게 됩니다.

 

GP104 칩셋은 풀 칩의 경우 4개의 GPC를 탑재하므로 곧 4개의 래스터 엔진이 있게 되고, 하나의 래스터 엔진은 클럭당 16개의 픽셀을 그려낼 수 있으므로 프론트엔드에서의 래스터라이징 성능은 최대 64픽셀 / 사이클이 됩니다. 한편 이 칩셋은 32비트 메모리컨트롤러+8 ROP 묶음을 8개 탑재하여 총 256비트의 메모리 인터페이스와 64개의 ROP(=래스터라이징 백엔드)를 갖게 됩니다. 즉 풀 칩 구성일 경우, 래스터라이징 작업은 프론트엔드와 백엔드가 모두 사이클당 64개씩 처리할 수 있으므로 64 ROP로 알려진 본연의 래스터라이징 성능을 발휘할 수 있습니다.

 

pascal_2.jpg

 

그러나 GTX 1070으로 넘어오면 이야기가 약간 달라집니다. 이제 왜 '두 가지' 블록 다이어그램이 혼용되는 게 혼란을 가져오는지 아시겠죠. 앞서 살펴본 것중 왼쪽의 다이어그램은 4 GPC가 있어, 비록 내부적으로 몇 개의 SM이 비활성화되기는 했어도 온전히 4개의 래스터 엔진(=64-width 프론트엔드)을 갖게 되지만 실제 드러난 바에 따르면 GTX 1070은 하나의 GPC를 통째로 비활성화한 것입니다. 따라서 3 GPC = 3 래스터 엔진 = 48픽셀 / 사이클의 래스터 프론트엔드 대역폭을 갖게 되고, 아난드텍이 벤치마크한 결과에서 정확히 이 점이 드러나고 있습니다.

 

"As for GTX 1070, things are a bit different. The card has all of the ROPs of GTX 1080 and 80% of the memory bandwidth, however what it doesn’t have is GP104’s 4th GPC. Home of the Raster Engine responsible for rasterization, GTX 1070 can only setup 48 pixels/clock to begin with, despite the fact that the ROPs can accept 64 pixels. As a result it takes a significant hit here, delivering 77% of GTX 1080’s pixel throughput. With all of that said, the fact that in-game performance is closer than this is a reminder to the fact that while pixel throughput is an important part of game performance, it’s often not the bottleneck."

 

스펙상으로는 GTX 1080과 완전히 동일한 ROP와 80% 수준의 메모리 대역폭 (주 : 256비트란 점은 같고, 1080은 10Gbps vs 1070은 8Gbps) 을 갖고 있는 GTX 1070이지만 네번째 GPC가 비활성화되어 있음으로써 실제 1080의 3/4 수준인 77%의 픽셀 필레이트 성능을 보였다는 언급입니다. 아시다시피 픽셀 처리능력(=래스터라이징 성능)은 성능을 결정짓는 매우 중요한 요소이지만, 다만 이것 자체가 병목현상을 빚는 경우가 아니라면 실제 성능 격차가 이 정도까지 벌어지지는 않을 것이라고 설명하고 있는데요. 뒤집어 말해 래스터라이징 성능이 병목현상을 빚는 경우라면 GTX 1070의 성능은 우리가 지금껏 알아온 것보다 더 큰 격차로 GTX 1080과 차이를 보이게 됩니다. 즉, GTX 1070의 "유효한" ROP 개수는 64개가 아닌 48개인 셈. 같은 현상은 GP106 칩셋을 사용한 GTX 1060에서도 관찰됩니다.

 

pascal_5.jpg

 

GP106 칩셋은 2개의 GPC를 탑재하지만 메모리컨트롤러+ROP 클러스터는 6개를 탑재하고 있어, 풀 칩에서부터 래스터 프론트엔드/백엔드가 불일치하는 다소 이상한 설계입니다. 따라서 GTX 1060은 192비트 메모리 인터페이스 / 48 ROP의 "공식" 스펙을 갖지만 실제로 사이클당 처리 가능한 픽셀 수는 32개로 제한되어 있습니다. "유효한" ROP 개수는 32개인 셈이죠.

 

"The GPU’s 10 SMs are divided up into two GPCs, half the configuration of GP104. This means that GP106 can rasterize 32 pixels per clock on the frontend, but the backend ROPs can accept 48 pixels per clock. This kind of imbalance is not a bad thing – the ROPs are responsible for other tasks such as MSAA that eat up more time – but it’s interesting thing to see happen, as it gives us a bit of an idea of what kind of bottlenecks NVIDIA needed to balance out behind the scenes in the development process."

 

다만 아난드텍의 설명에 따르면 래스터 프론트엔드와 매치되지 않는 "잉여" ROP도 완전히 쓸모없지는 않다고 합니다. 예컨대 MSAA 등 부하를 많이 주는 작업 처리에 시간을 단축해줄 수 있다고 하는군요. 어쩌면 엔비디아 내부적으로는 여러 부가적인 그래픽 효과들(앞서 언급했듯 MSAA 라든지)이 점차 전체 워크로드 중 차지하는 비율이 높아질 것으로 예상하고 이와 같이 '넉넉한' 백엔드를 갖게끔 설계한 것일 수도 있겠습니다. CPU 진영에서는 이와 같은 '넉넉한 백엔드' 철학을 가진 것이 대표적으로 둘 있는데, 하나는 AMD의 불도저이고 다른 하나는 인텔의 하스웰. 다만 둘 모두 호평을 받은 아키텍처였냐 하면... 노 코멘트.

 

아무튼. 잘 알려지지 않은 이런 사실을 한번쯤 다뤄주는 건 여러분의 지적인 컴퓨터 대화에 큰 도움이 되겠죠. 재미있게 읽으셨길 바라며 저는 이만!

댓글 3

Profile

잼아저씨

2년 전

파스칼은 클럭 못 올렸으면 우쨌을까 싶기도 합니다.

댓글

Profile

Dr.Lee

2년 전

사실상 동클럭일 때는 맥스웰과 성능차이가 거의 없을...

댓글

Profile

가비의_리

2년 전

고급진글이 자게에.. ㅎ

댓글

사진 및 파일 첨부

여기에 파일을 끌어 놓거나 왼쪽의 버튼을 클릭하세요.

파일 크기 제한 : 0MB (허용 확장자 : *.*)

0개 첨부 됨 ( / )
 
VGA

캡사이신 이벤트 : SIGGRAPH 2017 [LIVE]

안녕하세요 독자 여러분. 저는 지금 로스앤젤레스에서 개최되는 SIGGRAPH 2017 학회와 이에 연접하여 개최된 AMD의 라데온 베가 및 라이젠 스레드리퍼 테크 데이 행사에 참석하고 있습니다. 이벤트의 존재 자체가 이 글이 등록될 CAPSAICIN : SIGGRAPH 2017 행사 개막 전...

by Dr.Lee on 2년 전
1,334 1
CPU

라이젠 3 미니 리뷰 : AMD 남하 대작전 (7.29 내용추가)

안녕하세요 독자 여러분. 이 글이 공개된 현 시간부로 (한국시간 기준 7월 27일 오후 10시) 엠바고가 해제된 라이젠 3을 소개해드리기 위해 오랜만에 카드뉴스를 만들었습니다. 아니, 정확히는 만들다 말았습니다. 모종의 사정으로 인해 엠바고 해제 시간까지 제가 이 글...

by iMola on 2년 전
4,877 6

열심히 일한 당신 떠나라 : 휴가를 위한 앱 3종 세트

긴 장마도 끝을 보이고, 본격적으로 태양빛이 내리쬐는 여름이 시작되었다. 그리고 뜨거운 날씨와 함께 본격적인 피서 휴가 역시 떠날 때가 되었다. 휴가 때 집에서 만사를 제쳐두고 쉬고 싶은 사람도 있을 것이고, 휴양지에서 여유를 즐기는 사람, 배낭 하나 둘러매고 ...

by iMola on 2년 전
592

세계 이모지의 날 맞아 새로운 이모지를 선보인 애플

안녕하세요, 백투더맥의 에디터를 맡고 있는 쿠도군이라고 합니다. 첫 인사글을 겸해서 백투더맥에 쓴 글을 여기로 옮겨오게 됐습니다. 잘 부탁드립니다! 지난 7월 17일은 ‘세계 이모지의 날(World Emojis Day)’였습니다. 애플은 이 날을 기념해 올해 말 iOS와 macOS, 그...

by 쿠도군 on 2년 전
503

'맥은 비싸다'는 편견을 깨다 : iMac(Retina 5K, 2017) 리뷰

애플 로고가 그려진 컴퓨터는 특유의 날렵한 디자인과 함께 비싸다라는 이미지로 많은 사람들에게 각인되어 있다. 그리고 실제로도 애플이 판매하는 컴퓨터의 가격은 결코 저렴하지 않다. 현재 애플이 판매하고 있는 컴퓨터 중 가장 저렴한 모델은 62만원부터 시작하는 ...

by iMola on 2년 전
8,987 20
CPU

스카이레이크-SP 제온 VS EPYC 벤치마크 (아난드텍 기사 번역)

오늘 아침은 서버 시장에 매우 흥미로운 전환점이 되었다. 스카이레이크-SP 아키텍처 기반의 새로운 제온 스케일러블 프로세서 (제온 SP) 제품군이 정식으로 발표된 것이다. 이들은 새로운 플랫폼과 옴니패스 인터커넥트 패브릭 등 풍성한 신기술로 무장하고 있다. 코어 ...

by Dr.Lee on 2년 전
6,032 6

아이맥 프로 옵션별 가격 예상 : 저평가된 맥의 가치

WWDC17에서 맛보기로 깜짝 공개된 아이맥 프로. 27인치 아이맥의 형상에 단지 스페이스 그레이를 입혔을 뿐인 이 녀석이 보일듯말듯한 실루엣으로 키노트에 등장하는 순간 가슴은 왜 그리 두근거리던지. 저 혼자만의 경험은 아니었을 거라 믿습니다. 아이맥 프로를 설명...

by Dr.Lee on 2년 전
3,878 5
CPU

인텔, AMD, 엔비디아의 시행착오 : HPC와 AI라는 두 마리 토끼

인텔이 제온 파이 제품군의 가격을 대폭 인하했습니다. 최상위 모델인 제온 파이 프로세서 및 코프로세서 7290의 가격이 6500달러에서 3200달러로, 옴니패스 패브릭을 제공하는 파생 모델 7290F은 6700달러에서 3300달러로 떨어지는 등 각각 반값으로 내려진 것이 특징입...

by Dr.Lee on 2년 전
3,687 5
CPU

링 구조를 탈피한 스카이레이크-X/SP의 설계방식

인텔은 2011년 출시한 샌디브릿지부터 (정확히는 웨스트미어-EX부터) 링 구조를 도입해 코어 수 증가에 따른 복잡도를 완화해온 바 있습니다. 이전까지의 크로스바 구조에서 최대 8코어에 그쳤던 것과 대조적으로 링 구조를 채택한 최초의 CPU 웨스트미어-EX는 10코어로 ...

by Dr.Lee on 2년 전
4,004 11
VGA

PCI-Express 대역폭과 그래픽카드

개요 “내가 사용하는 메인보드는 PCI-Express 3.0을 지원하지 않는데 성능의 하락이 있는것이 아닐까?, 나는 멀티 그래픽카드 구성을 사용하는데 HEDT플랫폼을 사용하지 않으면 성능을 100%사용할 수 없는것이 아닐까?” 라는 의문을 가지고 계신분들이 계실겁니다. 결론...

by Archost on 2년 전
8,584 9

WWDC17, 애플이 풀어놓은 선물 보따리 - 하드웨어 편

원래, WWDC는 개발자를 위한 행사이다. 그리고 이번 WWDC에는 충분히 만족스러운 소프트웨어들이 그 내용을 장식했다. 하지만 애플은 이번 WWDC를 그냥 흘려 보낼 생각이 없었나보다. 오늘 애플의 기조연설은 시작부터 급했다. 팀 쿡은 무대에서 오늘 여섯가지 중요한 이...

by iMola on 2년 전
2,314 5

WWDC17, 애플이 풀어놓은 선물 보따리 - 소프트웨어편

산호세에서 애플의 연례 개발자 컨퍼런스인 WWDC17이 그 막을 올렸다. 행사의 시작을 알리며, 가장 이목이 집중되는 기조연설에서 애플은 두시간 삼십여분가량을 가득채운 선물 보따리를 풀어놓았다. 새로운 하드웨어를 기대하는 많은 사람들에게 기대 이하였던 적이 많...

by iMola on 2년 전
2,032 5
CPU

인텔의 14-18코어 HEDT CPU는 현존하지 않는다?

유명한 하드웨어 리뷰 유튜브 채널 Linus Tech Tips / LTT에서 평소와 사뭇 다른 어조의 동영상 칼럼을 하나 게시했습니다. 제목은 "I have something to say - Core i9 & X299". 뭔가 간절히 하고 싶은 말이 있는 것 같죠. 여느 LTT의 리뷰가 그렇듯 영상 초반부터 3분 ...

by Dr.Lee on 2년 전
8,643 12
CPU

인텔, 최대 18코어 스카이레이크-X 전격 발표

인텔은 오늘, 자사의 컨슈머 사업부이자 가장 큰 사업부인 클라이언트 컴퓨팅 그룹의 대표(GM) 그레고리 브라이언트 부사장의 입을 빌어 새로운 코어 X 시리즈 HEDT CPU를 발표했다. 알다시피 스카이레이크 아키텍처에 기반한 이 제품이 공개된 오늘은 5월 30일, 2017년 ...

by Dr.Lee on 2년 전
4,477 4

사랑과 전쟁 : 도시바, 샌디스크, 그리고 웨스턴디지털

도시바의 메모리사업부 매각이 한창 추진되는 가운데, 그간 침묵을 지키던 도시바-샌디스크 연합의 한 축 샌디스크가 어깃장을 놓을 조짐을 보이기 시작했다. 이들은 지난 2005년 낸드 플래시메모리 생산을 위한 공동자회사를 조인트 벤처로 설립, 각자의 브랜드를 붙이...

by Dr.Lee on 2년 전
1,233 1
CPU

반도체 수율에 관한 짧은 칼럼 : 에픽, 라이젠, 스윗 스팟

글로벌파운드리의 14LPP 제조공정이 매우 안정화되어, Zen 8코어가 모두 살아 있는 라이젠과 라이젠 스레드리퍼, 에픽 모두의 원형인 제플린 다이의 수율이 80%에 이른다는 이 글을 보고 문득 궁금해져 계산해 보았다. 머피의 수율모델에 따르면 반도체의 수율은 아래의 ...

by Dr.Lee on 2년 전
4,767 7

아이패드, 이렇게 사용합니다 : 일상편

이번 시리즈부터는 카드뉴스를 나레이션이 포함된 영상 형태로도 제공합니다. 영상 형태의 콘텐츠가 보고싶으신 분들은 영상을, 기존과 같은 웹 형식의 콘텐츠가 좋으신 분들은 스크롤을 내리시면서 읽으시면 되겠습니다. 얼마 전 올린 아이패드(2017) 자세히 알아보기는...

by iMola on 2년 전
2,992 2

애플과 접근성 : 세계 접근성 인식의 날을 맞아서

사진 : GAAD 5월 18일인 오늘은 우리에게 특별한 의미가 있습니다. 우리나라의 민주주의를 얻어내기 위해 일어난 5.18 민주화 운동이 있었던 날이기 때문입니다. 하지만 바로 오늘 5월 18일 목요일은 또 다른 의미를 가지고 있는 날이기도 합니다. 오늘은 Global Accessi...

by iMola on 2년 전
691 1
CPU

권불십년 : 9년 집권이 끝나다

근래 보기드문 숨가쁜 한 주였다. 지난주 오늘 들어선 새 정부는 한숨 돌릴 새도 없이 곧바로 임기를 개시했으며 지난 4년, 나아가 지난 9년간 차츰 굽어가며 지나온 궤도를 그 반대 방향으로 돌려놓기 위해 고군분투할 것이다. 9년. 아홉수. 금방이라도 끓어오를 것 같...

by Dr.Lee on 2년 전
4,849 7
VGA

지포스 GTX 1070, 1060의 ROP에 관한 비밀

지난 세대 지포스 GTX 970의 메모리 / ROP 스캔들을 기억하는 분께는 묘한 기분을 불러일으킬 수도 있을텐데, 이 글에서는 지포스 GTX 1070, 1060의 ROP에 관한 잘 알려지지 않은 사실을 다뤄 보려 합니다. 대외적으로 VGA 계산기가 공개되지 않은지는 벌써 몇달이 되어...

by Dr.Lee on 2년 전
3,331 3 7
서버에 요청 중입니다. 잠시만 기다려 주십시오...