지포스 GTX 1070, 1060의 ROP에 관한 비밀

by Dr.Lee on 2017년 05월 16일 10시 19분 (2년 전) 조회: 3,413 추천: 7

페이스북 퍼가기  

지난 세대 지포스 GTX 970의 메모리 / ROP 스캔들을 기억하는 분께는 묘한 기분을 불러일으킬 수도 있을텐데, 이 글에서는 지포스 GTX 1070, 1060의 ROP에 관한 잘 알려지지 않은 사실을 다뤄 보려 합니다. 대외적으로 VGA 계산기가 공개되지 않은지는 벌써 몇달이 되어가지만 내부적으로는 꾸준히 업데이트를 거쳐 활용 중이고, 조만간 비슷한 기능을 갖는 페이지를 사이트 내에 개설할 계획이지만 내부 사용 버전과는 항상 버전 차이를 두려고 하기에 여러분이 접하게 될 / 혹은 이미 접했거나 갖고 있는 구버전 VGA 계산기에서 선험적으로 검출 가능한 이슈였는지는 잘 모르겠습니다.

 

아, 미리 선을 긋자면 - 이번 이슈는 GTX 970때처럼 제조사가 명백히 잘못된 사실을 전파했다거나, 기타 윤리적 비난을 받을 만한 일을 한 것은 전혀 아닙니다. 오히려 파스칼 세대 들어 GTX 1070, 1060의 ROP가 활용되는 방식이 기존과 어떻게 달라졌는지를 알려드리는 것에 가깝겠네요. 다만 결과론적으로 최초 출시 당시 GTX 1070의 정확한 ROP 성능을 짐작할 수 없게끔, '충분한' 정보가 주어지지 않은 것은 아쉬움을 자아냅니다. 그 '충분한' 정보란, 바로 GTX 1070에 사용된 GP104 컷팅칩의 블록 다이어그램입니다. 좀 더 자세히 알아볼까요.

 

pascal_0.jpg

 

지포스 GTX 1080과 1070이 출시된 작년 7월, 많은 매체에서 이들의 리뷰가 우후죽순으로 쏟아졌지만 GP104 풀 칩이 적용되어 딱히 다이어그램을 새로 그릴 필요가 없던 GTX 1080과 달리 1070에 대해서는 여러 설이 분분했습니다. 세부적으로는 여러 바리에이션이 있었겠지만 대표적으로 두 부류로 분류하자면 위와 같이 대별될 수 있습니다. 엔비디아의 GPU 내부 분할단위인 "GPC" 4개를 그대로 유지한 채 각 GPC 내부에서 SM을 선택적으로 비활성화한 것(왼쪽)과 GPC 하나를 통째로 비활성화한 것(오른쪽)이 그것입니다.

 

이것이 어째서 차이를 가져오는지 잘 모르시겠다고요. 일단 GP104의 GPC가 어떻게 구성되는지 살펴보아야 합니다.

 

스크린샷 2017-05-16 오전 9.56.56.png

 

하나의 파스칼 GPC는 5개의 SM과 5개의 폴리모프 엔진 (이들을 묶어 텍스처 프로세싱 클러스터 TPC 라 함), 그리고 1개의 래스터 엔진으로 구성됩니다. 여기서 특별한 존재가 바로 래스터 엔진인데, 아시다시피 래스터라이징을 수행하는 ROP는 실은 래스터라이저라는 작업의 "백엔드"에 해당하고 GPC 내에 위치한 래스터 엔진이 바로 "프론트엔드" 역할을 수행합니다. 말하자면 둘의 쌍이 맞아 떨어져야만 최적의 래스터라이징 성능을 발휘할 수 있고, 둘이 처리할 수 있는 수량에 차이가 있다면 무조건 둘 중 낮은 쪽으로 래스터라이징 성능이 맞춰지게 됩니다.

 

GP104 칩셋은 풀 칩의 경우 4개의 GPC를 탑재하므로 곧 4개의 래스터 엔진이 있게 되고, 하나의 래스터 엔진은 클럭당 16개의 픽셀을 그려낼 수 있으므로 프론트엔드에서의 래스터라이징 성능은 최대 64픽셀 / 사이클이 됩니다. 한편 이 칩셋은 32비트 메모리컨트롤러+8 ROP 묶음을 8개 탑재하여 총 256비트의 메모리 인터페이스와 64개의 ROP(=래스터라이징 백엔드)를 갖게 됩니다. 즉 풀 칩 구성일 경우, 래스터라이징 작업은 프론트엔드와 백엔드가 모두 사이클당 64개씩 처리할 수 있으므로 64 ROP로 알려진 본연의 래스터라이징 성능을 발휘할 수 있습니다.

 

pascal_2.jpg

 

그러나 GTX 1070으로 넘어오면 이야기가 약간 달라집니다. 이제 왜 '두 가지' 블록 다이어그램이 혼용되는 게 혼란을 가져오는지 아시겠죠. 앞서 살펴본 것중 왼쪽의 다이어그램은 4 GPC가 있어, 비록 내부적으로 몇 개의 SM이 비활성화되기는 했어도 온전히 4개의 래스터 엔진(=64-width 프론트엔드)을 갖게 되지만 실제 드러난 바에 따르면 GTX 1070은 하나의 GPC를 통째로 비활성화한 것입니다. 따라서 3 GPC = 3 래스터 엔진 = 48픽셀 / 사이클의 래스터 프론트엔드 대역폭을 갖게 되고, 아난드텍이 벤치마크한 결과에서 정확히 이 점이 드러나고 있습니다.

 

"As for GTX 1070, things are a bit different. The card has all of the ROPs of GTX 1080 and 80% of the memory bandwidth, however what it doesn’t have is GP104’s 4th GPC. Home of the Raster Engine responsible for rasterization, GTX 1070 can only setup 48 pixels/clock to begin with, despite the fact that the ROPs can accept 64 pixels. As a result it takes a significant hit here, delivering 77% of GTX 1080’s pixel throughput. With all of that said, the fact that in-game performance is closer than this is a reminder to the fact that while pixel throughput is an important part of game performance, it’s often not the bottleneck."

 

스펙상으로는 GTX 1080과 완전히 동일한 ROP와 80% 수준의 메모리 대역폭 (주 : 256비트란 점은 같고, 1080은 10Gbps vs 1070은 8Gbps) 을 갖고 있는 GTX 1070이지만 네번째 GPC가 비활성화되어 있음으로써 실제 1080의 3/4 수준인 77%의 픽셀 필레이트 성능을 보였다는 언급입니다. 아시다시피 픽셀 처리능력(=래스터라이징 성능)은 성능을 결정짓는 매우 중요한 요소이지만, 다만 이것 자체가 병목현상을 빚는 경우가 아니라면 실제 성능 격차가 이 정도까지 벌어지지는 않을 것이라고 설명하고 있는데요. 뒤집어 말해 래스터라이징 성능이 병목현상을 빚는 경우라면 GTX 1070의 성능은 우리가 지금껏 알아온 것보다 더 큰 격차로 GTX 1080과 차이를 보이게 됩니다. 즉, GTX 1070의 "유효한" ROP 개수는 64개가 아닌 48개인 셈. 같은 현상은 GP106 칩셋을 사용한 GTX 1060에서도 관찰됩니다.

 

pascal_5.jpg

 

GP106 칩셋은 2개의 GPC를 탑재하지만 메모리컨트롤러+ROP 클러스터는 6개를 탑재하고 있어, 풀 칩에서부터 래스터 프론트엔드/백엔드가 불일치하는 다소 이상한 설계입니다. 따라서 GTX 1060은 192비트 메모리 인터페이스 / 48 ROP의 "공식" 스펙을 갖지만 실제로 사이클당 처리 가능한 픽셀 수는 32개로 제한되어 있습니다. "유효한" ROP 개수는 32개인 셈이죠.

 

"The GPU’s 10 SMs are divided up into two GPCs, half the configuration of GP104. This means that GP106 can rasterize 32 pixels per clock on the frontend, but the backend ROPs can accept 48 pixels per clock. This kind of imbalance is not a bad thing – the ROPs are responsible for other tasks such as MSAA that eat up more time – but it’s interesting thing to see happen, as it gives us a bit of an idea of what kind of bottlenecks NVIDIA needed to balance out behind the scenes in the development process."

 

다만 아난드텍의 설명에 따르면 래스터 프론트엔드와 매치되지 않는 "잉여" ROP도 완전히 쓸모없지는 않다고 합니다. 예컨대 MSAA 등 부하를 많이 주는 작업 처리에 시간을 단축해줄 수 있다고 하는군요. 어쩌면 엔비디아 내부적으로는 여러 부가적인 그래픽 효과들(앞서 언급했듯 MSAA 라든지)이 점차 전체 워크로드 중 차지하는 비율이 높아질 것으로 예상하고 이와 같이 '넉넉한' 백엔드를 갖게끔 설계한 것일 수도 있겠습니다. CPU 진영에서는 이와 같은 '넉넉한 백엔드' 철학을 가진 것이 대표적으로 둘 있는데, 하나는 AMD의 불도저이고 다른 하나는 인텔의 하스웰. 다만 둘 모두 호평을 받은 아키텍처였냐 하면... 노 코멘트.

 

아무튼. 잘 알려지지 않은 이런 사실을 한번쯤 다뤄주는 건 여러분의 지적인 컴퓨터 대화에 큰 도움이 되겠죠. 재미있게 읽으셨길 바라며 저는 이만!

댓글 3

Profile

잼아저씨

2년 전

파스칼은 클럭 못 올렸으면 우쨌을까 싶기도 합니다.

댓글

Profile

Dr.Lee

2년 전

사실상 동클럭일 때는 맥스웰과 성능차이가 거의 없을...

댓글

Profile

가비의_리

2년 전

고급진글이 자게에.. ㅎ

댓글

사진 및 파일 첨부

여기에 파일을 끌어 놓거나 왼쪽의 버튼을 클릭하세요.

파일 크기 제한 : 0MB (허용 확장자 : *.*)

0개 첨부 됨 ( / )
 
VGA

지포스 GTX 1070, 1060의 ROP에 관한 비밀

지난 세대 지포스 GTX 970의 메모리 / ROP 스캔들을 기억하는 분께는 묘한 기분을 불러일으킬 수도 있을텐데, 이 글에서는 지포스 GTX 1070, 1060의 ROP에 관한 잘 알려지지 않은 사실을 다뤄 보려 합니다. 대외적으로 VGA 계산기가 공개되지 않은지는 벌써 몇달이 되어...

by Dr.Lee on 2년 전
3,413 3 7
CPU

새로운 제온과 인텔의 스윗스팟 : 분할같은 통합 전략

지난 주에는 좀처럼 일어나지 않을 법한 일이 실제로 일어났었다. 인텔이 그들의 세일즈 채널에 내려보낸 제품 변동사항 공지(Product Change Notification) 문서가 불의의 사고로 유출되며 새로운 제온 라인업의 윤곽이 "본의 아니게" 드러난 것. 이 사고가 인텔의 뜻을...

by Dr.Lee on 2년 전
1,908 2

애플, 2017 회계연도 2분기 실적 발표

사진 : 애플 한국시간으로 오늘 오전, 애플이 회계연도 기준으로 2017년 2분기 실적을 발표했다. 애플의 회계연도는 실제 연도보다 한 분기만큼 빠르기 때문에, 오늘 발표된 애플의 실적은 지난 1월에서 3월까지의 실적이다. 오늘의 실적발표 이전, 시장은 애플이 전년 ...

by iMola on 2년 전
440
CPU

달라지는 인텔 : 6코어, 또는 8스레드 메인스트림?

컴퓨텍스에서 발표될 X299 메인보드와 발맞춰 인텔의 새로운 HEDT CPU 스카이레이크-X가 이르면 오는 5월 30일 출시된다는 소식입니다. 최대 12코어 24스레드, 하위 모델로 10/8/6코어 베리에이션이 있으며 컴퓨텍스 개막일인 5월 30일 데스크탑 CPU 사업부에 해당하는 ...

by Dr.Lee on 2년 전
2,796 12

지속 가능한 지구를 위해서 : 애플과 지구의 날

한참 시험준비에 여념이 없던 필자의 아이폰에 알람이 하나 도착했습니다. 평소에는 거의 알림을 보내지 않던 활동 앱이 알림을 보낸 것이었습니다. 그 내용은 바로 ‘지구의 날 특별 도전 목표’. 곧 다가올 지구의 날에 애플워치를 차고 야외로 나가서 건강 앱에 운동을 ...

by iMola on 2년 전
996 3
CPU

[Live] AMD 라이젠 5 런칭 행사 라이브 블로그

안녕하세요 닥터몰라 회원 여러분. 오늘 저와 자드럭님은 라이젠 5 런칭행사 취재차 합정에 와 있습니다. 오후 2시부터 5시 반까지 미디어 대상 사전 브리핑이 진행되고, 7시부터는 일반 회원 대상 메인 이벤트가 개최되는 일정인데요. 라이브블로그를 통해 행사에 참석...

by Dr.Lee on 2년 전
1,652 9
CPU

낙수효과가 시작되다 : 라이젠 5의 경제학, 라이젠노믹스

안녕하세요 닥터몰라 독자 여러분. 이 글이 공개되는 시점인 2017년 4월 11일 오후 10시(한국시각 기준)를 기해 AMD의 새로운 퍼포먼스-메인스트림급 CPU인 라이젠 5의 엠바고가 해제되었습니다. 퍼포먼스급 CPU 시장이 경쟁 체제로 돌입한 건 짧게 잡아도 2012년의 파일...

by Dr.Lee on 2년 전
24,688 32
CPU

팩트체크 : 인텔, AMD와 정말 손잡나?

만우절이 끝나기 무섭게 해외의 저명한 하드웨어 포럼/매체들은 우후죽순으로 기사를 쏟아내고 있습니다. 무슨 소식을 전해도 곧이곧대로 들리지 않을 만우절을 피한 수요가 분출된 것이겠지만 개중엔 만우절 끝물을 켜는 것도 섞여 있기 마련인데요. 이 중 저의 흥미를 ...

by Dr.Lee on 2년 전
2,900 5
CPU

CCX에 관한 해외의 분석 : 720p / 1080p 게임을 중심으로

AMD가 Zen 기반 CPU를 설계하며 코어 컴플렉스(CCX)라는 독특한 최소단위를 도입한 것은 이미 잘 알려진 사실입니다. 하나의 CCX는 4개의 Zen 코어와 그에 딸린 96KB L1 / 512KB L2 캐시(이상은 inclusive), 그리고 4개의 코어 전체에 걸쳐 공유되는 8MB L3 캐시(L1/L2와...

by Dr.Lee on 2년 전
4,958 11

어디로 가야 하죠, 인텔 아저씨 (2) : 전방위로 드리우는 먹구름

인텔은 빠르면 오는 여름, 차세대 HEDT CPU 시장에 스카이레이크-X를 투입할 것으로 알려졌다. 이와 앞서거니 뒤서거니 서버 시장용 스카이레이크-EP/EX가 등장할 것이라는 소문도 스멀스멀 피어오른다. 애초 24코어로 설계되었지만 제온 E5 시장에는 최대 22코어까지 활...

by Dr.Lee on 2년 전
2,349 9

공룡의 두번째 만찬 : 모빌아이를 150억 달러에 인수한 인텔

반도체 공룡 인텔이 또다시 몸집을 불린다는 소식이다. 작년 12월 자율주행 사업부를 창설하며(링크) 신성장동력 발굴에 박차를 가한 이들은 자율주행 기술의 핵심인 비주얼 컴퓨팅 분야의 떠오르는 샛별, 모발아이에 우호적 인수를 제안해 마침내 꼭 열흘 전인 지난 13...

by Dr.Lee on 2년 전
797 2

레드오션에 파란 물감을 풀다 : 애플, 앱스토어 인디게임 카테고리 분리

사진 : 애플 많은 분들이 아시는 것과는 달리, 아이폰이 처음 출시되었을 때는 서드파티 앱을 설치할 수 없었습니다. 웹브라우저를 이용한 간단한 앱을 웹앱 형태로 사용할 수 있을 뿐이었죠. 하지만 애플은 대략 1년만에 앱스토어를 열고 개발자들에게 아이폰 앱을 개발...

by iMola on 2년 전
767

아이폰 사진 어디까지 찍어봤니 : 기본편

오랫만에 카드뉴스로 여러분들께 인사를 드리게 되었습니다. 오늘의 카드뉴스의 주제는 '아이폰 사진 어디까지 찍어봤니'입니다. 오늘 풀어낼 이야기는 별도의 서드파티 앱 없이 아이폰 기본 앱만을 포함하는 것입니다. 여기서 말씀드리는 여러 가지 이야기들은 아이폰 ...

by iMola on 2년 전
1,025 7
CPU

한층 저렴해진 Zen을 만나다 - AMD, 라이젠 5 공개

AMD는 한국시각 기준 지난 15일 오전 11시, 웹 브리핑을 통해 자사의 퍼포먼스 CPU 라인업인 라이젠 5를 페이퍼 런치했습니다. 앞서 지난 2일 정식 출시된 하이엔드 라인업 라이젠 7은 자사 직전세대 제품 대비 경악할만한 성능향상을 이뤘음은 물론, 지난 11년간 경쟁상...

by Dr.Lee on 2년 전
8,845 35
VGA

[카드뉴스] 지포스 GTX 1080 Ti 리뷰 : 타이탄 X의 헌신

안녕하세요 독자 여러분. 엔비디아는 GDC 2017 기간 중인 지난 2월 28일 샌프란시스코에 세계의 테크 미디어를 초청, Editor's Day 행사를 개최해 이 자리에서 차세대 지포스 플래그십인 GTX 1080 Ti를 공개한 바 있습니다. 이후 3월 6일 오후 11시(한국시각 기준) 동영...

by Dr.Lee on 2년 전
4,785 27
CPU

Zen 기반 서버용 CPU, Naples가 예고되다

2주 전, AMD는 전 세계의 테크 미디어를 대상으로 출시를 한 주 앞두고 있던 "Zen"의 사전 설명회 격인 Tech Day 행사를 샌프란시스코에서 개최했습니다. 이 자리에서는 이미 지난 3월 3일 엠바고가 풀린 Zen 기반 HEDT CPU 라이젠 7뿐만 아니라 바로 지금 엠바고가 풀린...

by Dr.Lee on 2년 전
2,993 14

Make AMD Great Again : 아난드텍의 리사 수 박사 인터뷰

※ 이 글은 아난드텍의 기사를 초월번역(...)한 것입니다. Zen이 출시되기 일주일 전, AMD는 테크 미디어를 대상으로 새로운 라이젠 CPU 라인업을 사전 설명하는 "Tech Day"를 개최했다. 행사 일정 중 우리는 AMD의 CEO인 리사 수 박사를 약 삼십분간 인터뷰할 수 있었고,...

by Dr.Lee on 2년 전
4,170 18
CPU

[카드뉴스] CPU WARS : EPISODE VIII - THE LAST REBEL

안녕하세요 독자 여러분. 이 글이 공개되는 2017년 3월 2일 한국시간 기준 오후 11시 -> 3월 3일 자정, <현대 CPU의 구조>를 7년만에 리부트해 이 카드뉴스로 연재되게끔 한 장본인, 바로 AMD의 '라이젠'이 정식으로 출시되며 마지막까지 걸려 있던 엠바고가 해제되었습...

by Dr.Lee on 2년 전
20,194 68
VGA

GTX 1080 Ti 공개 : 누가 엔비디아를 떠밀었나

사진 : 엔비디아 엔비디아가 GDC 이벤트에서 자사의 새로운 플래그십 그래픽카드를 발표했다. 이번에 발표한 GTX 1080 Ti는 기존에 개인용 비디오 카드의 플래그십 자리를 차지하고 있던 GTX 1080을 대체하게 된다. 기존의 예상과 같이 GTX 1080 Ti는 타이탄 X와 같은 GP...

by iMola on 2년 전
5,274 10
CPU

[카드뉴스] LOW-V ONE : A CPU WARS STORY

안녕하세요 독자 여러분. 가장 중요한 에피소드 8을 코앞에 둔 지금, 잠시 쉬어가는 편으로 외전을 들고 찾아뵙게 되었습니다. 이름하야 LOW-V ONE : A CPU WARS STORY. 이번 편에서는 인텔과 AMD 양사의 저전력 CPU 아키텍처를 죽 훑어보며, 주류 아키텍처와는 또 다른 ...

by Dr.Lee on 3년 전
2,840 22
서버에 요청 중입니다. 잠시만 기다려 주십시오...