자유게시판

사이트 이용규칙을 준수하여
닥터몰라 회원과 자유롭게 소통하는 게시판입니다.

[잡담] CCX 구조에 관한 스쳐가는 생각 (2)

Dr.Lee | 조회 514 | 추천 7 | 2017.03.16. 14:45 http://drmola.com/bbs_free/146417

...그리하여, 앞의 글에서 CCX 구조로 인한 성능저하 폭의 최대치와 최소치를 대략적으로 추산해 보았는데요. 마침 며칠 전 쿠마키치님(킁킁... 왜때문에 우사미의 향기가 나지)이 올려주신 글을 보고 든 생각도 있고, 한데 종합해 끄적거려 보겠습니다.

 

CCX 구조에 관한 스쳐가는 생각 (1) : http://drmola.com/bbs_free/146357

우사미... 아니 쿠마키치님 글 : http://drmola.com/bbs_free/145598

 

아시다시피 라이젠은 거의 모든 분야에서 우수한 성능이지만 그나마 게임이란 분야가 비교열위라고 볼 수 있으며, 그 성능저하 양상이 어느 한가지 특성으로 수렴하지 않는다는 점에서(어떤 게임은 동급 인텔보다 우수하기도(메트로 등), 어떤 게임에서는 인텔보다 엄청나게 낮기도(>50%)) "게임"이라는 한 작업을 하나의 카테고리로 묶는 것 자체가 어려움을 주고 있기도 합니다.

 

출시되어 현존하는 타이틀은 엄청나게 많은데 그들 모두를 테스트할 수도 없거니와 기계적으로 모든 타이틀을 테스트하는 것이 전체 게임시장을 반영한다고 볼수도 없고(콜옵 시리즈와 지킬박사와 하이드를 1:1 비중으로 두는 거랄까요), 그렇다고 선별적으로 테스트를 하게 되면 필연적으로 따라붙는 "편향성" 논란. 사실 이미 수행한 벤치마크 결과에 후일담 성격의 글도 잘 쓰지 않는 저인데, 일차적으로 제가 노가다로 얻어낸 결과값을 무한히 신뢰해서이기도 하지만 끝없는 소모전을 감당할 멘탈/신체적 준비가 되어 있지 않아서이기도 합니다. 그럼에도 불구하고 이 이슈를 다시 끄집어낸 건, 분명 짚고 넘어갈 가치가 있다고 생각했기 때문입니다.

 

위의 쿠마키치님 글에 잘 정리되어 있듯 라이젠의 게임성능 저하는 일반적인 저성능 CPU의 그것과는 다소 궤를 달리합니다. 본질적으로 뛰어난 싱글/멀티스레드 성능을 갖췄단 점에서 통상적 게임성능 저하의 원인인 "약한 싱글스레드 성능" 분석도 잘 먹히지 않죠. 게다가 아직 많은 사이트에서 결과가 관찰된 것은 아니나, 위 글에 언급된 해외의 복수의 벤치마크에 따르면 일관되게 지적되는 점이 있습니다. 바로 1080 Ti 등 고성능 그래픽카드에서의 인텔과의 성능 격차가 오히려 1080 등 중상급에서보다 작게 나타난다는 것이죠. 따라서 CPU 자체보다는 플랫폼 차원의 성능 저하라는 쪽에 무게를 싣고자 합니다.

 

여기서 우리가 다시 돌아볼 수 있는 장면이 있습니다. 2008년의 네할렘(블룸필드)의 데뷔, 그리고 2015년 스카이레이크의 데뷔가 그것입니다.

 

스카이레이크 리뷰 -> http://drmola.com/pc_column/43353

 

닥터몰라가 IYD이던 시절 수행한 스카이레이크 벤치마크에서 당시 신상이었던 코어 i7-6700K는 하스웰/브로드웰보다 무척 개선된 연산성능을 갖고 있었지만, 어쩐 일인지 게임성능은 한자릿수 % 정도 떨어지는 모습을 보였습니다. 이 경우 역시 전통적인 '싱글스레드 성능 논법' 으로는 설명되지 않았습니다. (당연히, 스카이레이크의 싱글스레드 성능이 훨씬 더 좋았기 때문입니다) 이를 설명하기 위해 당시의 글에서도 네할렘의 사례를 언급했었는데요.

 

출시 초기 네할렘이 요크필드보다 유독 게임성능만 석연찮게 나오는 것은 어느 한 사이트만이 아닌, 많은 포럼에 걸쳐 광범위하게 지적된 현상입니다. 엉뚱하게도 이 이슈는 그래픽카드 성능이 가파르게 상승하며, 또한 SLI 구성 등을 시도하는 사람이 많아지며 사그라들었습니다. 왜냐면 고성능 구성에서 네할렘은 요크필드보다 단연 성능을 더 잘 뽑아낼 수 있었고, 따라서 최종 성능 역시 더 높아졌기 때문입니다. 비유하자면 아래와 같습니다.

 

<예시>

- 요크필드의 잠재력 : 150

- 블룸필드의 잠재력 : 200 / 플랫폼 최적화 패널티 10%

- 요크필드 플랫폼에서 "100"의 VGA 구동시 성능 : 100

- 블룸필드 플랫폼에서 "100"의 VGA 구동시 성능 : 90

- 요크필드 플랫폼에서 "100" SLI 구동시 성능 : 150

- 블룸필드 플랫폼에서 "100" SLI 구동시 성능 : 180

 

현재로서는 분석된 데이터도 그리 많지 않고, 무엇보다 라이젠 플랫폼이 등장한지 얼마 안 되어 최적화의 추세를 알 수 없는데다 각 제조사별 메인보드의 편차도 너무나 큰 것으로 나타나고 있어 절대적으로 결론을 내리기에 정보가 매우 부족한 상황입니다. 그러나 위의 사례에서 중요한 것은 단편적으로 보여지는 것이 어떤 플랫폼의(특히, 그것이 새로 등장한 것일 경우) 진가를 의미하지는 않는다는 사실입니다.

 

또한, 게임성능에서의 열세를 인정하더라도 여기에는 명백히 한계가 따라붙습니다.

 

1. FHD 이하의 저해상도에서만 관측할 수 있으며.

2. CPU에 따른 편차가 의미없어질 정도의 중저가 VGA에서는 (1070 이하) 도로 의미가 없어진다는 것.

 

다시 본론으로 돌아와, 이 모든 게임성능 저하의 원인이 CCX 하나인 것으로 보는 시각에도 무리수가 있음을 짚고 넘어갑시다. CPU WARS - Zen 편에서 아키텍처를 상세히 설명하며 지적했듯, Zen의 FPU는 레거시 코드에 최적화되어 있으며 특히 덧셈(FADD)과 곱셈(FMUL)이 적절히 혼재되어 있을 때 최적의 성능을 발휘할 수 있습니다. 뒤집어 말해, 레거시 코드가 아니거나 덧셈, 곱셈 중 하나가 일방적으로 우위를 점하는 코드의 경우 연산 성능은 인텔/불도저 FPU 대비 최대 절반 수준으로까지 저하될 수 있습니다.

 

CPU WARS - Zen 편 -> http://drmola.com/pc_column/141286

 

코드 특성을 탄다는 것은 곧 개별 프로그램의 특성을 많이 탄다는 얘기이기도 합니다. 반면 CCX는 CPU 자체의 불변의 구조이며, 내부에서 ALU를 사용하든 FPU를 사용하든 모든 코드가 필연적으로 겪어야 하는 보편적인 문제입니다. (이 모든 것이 이미 반영된 결과가 지금의 "라이젠의 성능" 임을 감안하면, "라이젠의 성능 저하" 라는 말 자체가 성립하지 않지만, 편의상 사용한다면) 라이젠의 성능 저하는 보편적인 케이스가 아닌, 게임이라는 한 장르 - 그 중에서도 일부 게임에 국한해 관측되기에 그 원인을 찾는 것도 '보편적인 특징'이 아닌 곳에서 찾는 게 맞을지 모릅니다.

 

이야기가 꽤 길어졌는데, 결국 (1) CCX 구조에 의한 성능 저하폭은 우리가 두려워하는 것만큼 크지는 않다. 2-8% 내외일 것이다 / (2) 보편적으로 발생하는 문제와 특정 상황에서만 발생하는 문제를 구분해 보아야 한다. CCX라는 구조는 고정불변의 보편적인 것으로 그 모든 특성이 반영된 것이 우리가 보는 총체적인 "라이젠의 성능"인 것. 유독 게임성능만 튄다고 생각한다면, 자연히 문제의 원인도 보편적인 데서가 아닌 어딘가 특별한 곳에서 찾아야 하지 않을까. / (3) 나는 그것이 FPU 문제에 차라리 가깝다고 생각한다. 물론 아직은 추측일 뿐 - 정도쯤 되겠습니다.

  • |
facebook twitter google plus pinterest kakao story band

서명

Profile image

Dr.Lee

(level 30)
-27%

* 적용중인 트로피 :

Profile image 게임미식가
잼아저씨
2017.03.16 14:59

저도 FPU의 약점에 가깝다고 생각해왔습니다. 사실 그거 아니고선 인텔과의 차이를 설명하기가 어렵죠. 

PCGH의 벤치마크를 보면 CPU 코어를 비활성화함에 따라 퍼포먼스가 떨어지는 걸 보면 단순한 멀티코어 지원 문제만은 아니리라 봅니다.

watchdogs.png

http://www.pcgameshardware.de/commoncfm/comparison/clickSwitch.cfm?id=137982

 

 

그래도 전 아직 이 설을 철회하진 않았습니다

 

2.jpg

Profile image Dr.Lee 2017.03.16 15:00
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 만능짤ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
Profile image 게임미식가
잼아저씨
2017.03.16 15:08

더불어 저 결과를 보면 게이밍에서 CCX구조의 비효율성도 시뮬레이트 되었는데 이렇습니다

 

 

  배필1 포아너 RotTR 와치독스 2 기하평균
4+0 134.9 155.5 57.4 42.1 84.4
2+2 122 149.6 53.1 41.7 79.7
차이 10.57% 3.94% 8.10% 0.96% 4.24%
Profile image Dr.Lee 2017.03.16 15:09
?!?!?! 저걸 어떻게 시뮬레이션 한거지?!?!? (동공지진)
바이오스 좀 제대로 뜯어봐야겠네요. 아놔... 아님 그냥 코어 번호대로 임의로 짐작한건가...
Profile image 게임미식가
잼아저씨
2017.03.16 15:17

http://www.pcgameshardware.de/Ryzen-7-1800X-CPU-265804/Tests/Test-Review-1222033/

 

Beim Test der CCX-Kommunikation hilft uns das UEFI: Dort haben wir die Möglichkeit, entweder 2+2 oder 4+0 Kerne zu testen. 2+2 bedeutet, dass beide CCX und dort je zwei CPU-Kerne aktiv sind. Jeder CCX respektive die beiden Kerne auf jeder Seite können auf ihre eigenen 4 MiByte L3-Cache zurückgreifen. 4+0 bedeutet, dass nur ein CCX rechnet, während der andere deaktiviert ist; hier stehen ebenfalls 4 MiByte L3-Cache zur Verfügung. Die spannende Frage lautet, was schneller ist: Vier Kerne, die direkt miteinander sprechen, oder vier Kerne mit größeren Laufwegen, aber doppelt so viel L3-Cache? Das sind die Ergebnisse:

대충 해석하면
CCX 커뮤니케이션을 테스트 하는 것은 UEFI의 도움을 받았습니다. (*대근님과 같은 크로스헤어를 사용하였습니다ㅋㅋ) 저희는 여기서 2+2 혹은 4+0 구조를 테스트했습니다. 2+2는 두 CCX와 두 코어를 각자 활성화 한것이고, 각 CCX의 2코어는는 각자 4MiB의 L3캐시 만큼을을 사용할 수 있습니다. 4+0은 하나의 CCX만을 활성화 한 것이고, 나머지는 비활성화 한 것입니다. 또한 4MiB의 L3 캐시를 사용할 수 있습니다. 신나는 질문은 어느 것이 빠르냐입니다. 4코어가 직접 대화하는 게, 아니면 4코어가 더 큰 레인으로 더 큰 L3 캐시 용량을 쓰는게 빠를까요? 이것이 결과입니다.

네요. 4+0쪽이 8MiB의 L3를 쓴 게 아니라 4MiB를 썼는데, CCX 구조의 비효율성이 생각보다 더 큰가봅니다.

Profile image 여우비 2017.03.16 15:15
GPU처럼 CPU도 사골을 진하게 끓여낼 거라고 보고 있습니다.
현재 사용 중인 시스템 중고 처리 후 R7 1700 + 1080 Ti 또 VEGA를 보고 있는데, 얼른 안정화가 끝나면 좋겠네요.
Profile image DR-BENQ 2017.03.16 16:40
암드는...오래된제품도..최적화 되면 ...성능향상 효과가 ㅋㅋ
Profile image ARMCC 2017.03.16 19:14
저게 FPU상의 약점이라면.... 게임 뿐만 아니라 그 FPU를 적극적으로 사용하는(특히 SSE 이상의 SIMD연산) 여러 기술/연산용 SW에서도 저 문제가 말 그대로 쏟아져 나왔어야 했을 겁니다....
Profile image 루인 2017.03.17 11:09
CCX사이를 이어주는 고속 패브릭이 너무 느린게 문제 인것 같습니다. 실제로 통신을 위해 고속 패브릭을 건너는 경우 레이턴시가 3배 가량 늦어집니다. 인코딩 같은 쓰레드 간에 통신이 적은 작업에는 문제가 안되는데 쓰레드 간에 통신이 잦은 게임일 경우 문제가 되는것 같습니다.
Profile image 컴맹 2017.03.18 12:13
오호 정말 깔끔한 정리네요. 여기저기 콜로세움에 이 링크 하나 붙여주면 잠잠할것 같습니다.
번호 분류 제목 테마(게임) 글쓴이 조회 추천 날짜
공지 닥터몰라 스팀 그룹 비공개 및 초대 요청 방법 ZardLuck 559 0 10.12
1287 [잡담] ㄷㄱ님 [3] SayAkhan 67 1 03.16
1286 [잡담] [일상]작은 소망. [4] Madtomato 39 2 03.16
1285 [잡담] CCX가 그렇게 큰 이슈이려나요... [2] 허쉬쵸콜렛 199 0 03.16
1284 [잡담] 가입했었는지 알았는데 안했었네요 [8] 윤뎅구 40 1 03.16
1283 [잡담] 이벤트가 또! 등록되었어요 [6] 닥터몰라(drmola) ZardLuck 100 5 03.16
» [잡담] CCX 구조에 관한 스쳐가는 생각 (2) [10] Dr.Lee 514 7 03.16
1281 [잡담] CCX 구조에 관한 스쳐가는 생각 (1) [5] Dr.Lee 985 5 03.16
1280 [소개] 윈도우 10edu버전 일부대학 무료 업그레이드 [2] 팽팽한펭귄 66 2 03.16
1279 [잡담] 오 이런 곳이~ (가입인사) [3] 스파이키 47 1 03.16
1278 [질문] 컴퓨터초기렉 관련 [5] HuNang 42 0 03.16
1277 [잡담] 으...이벤트 조건이 너무 엄청나군요... [1] 제로프레임 57 0 03.16
1276 [소개] 닥몰에서 라이젠 필드테스터 10인을 모집합니다. [5] Dr.Lee 90 3 03.16
1275 [잡담] 엔비디아는 사랑입니다. [4] 김초보 75 1 03.16
1274 [소개] 3D 반도체 그리고 3D 낸드 기술.... [1] 무암산인 108 2 03.15
1273 [잡담] 가입인사 올립니다. [10] 제로프레임 36 5 03.15
1272 [잡담] 나만 유플레이 게임 할때 서버 다운인가요.. 엉엉 [1] 썬업 26 0 03.15
1271 [잡담] 여러분들은 매스 이펙트 신작 기대하시나요? [6] 인내사범 48 2 03.15
1270 [소개] 당장 결제 버튼에서 손 떼세요!!!!! [12] Dr.Lee 163 5 03.15
1269 [잡담] 라이젠에 관해 너무 억측이 많은것 같습니다. [17] 쿠마키치 1137 10 03.15
1268 [잡담] 안힘세고 안강한 아침! [6] Madtomato 62 3 03.15
1267 [잡담] 요즘 마음에 드는 케이스를 찾았습니다.. [15] 지름(shopping) 썬업 180 2 03.14
1266 [잡담] 파나소닉 GX85 간단 후기 [10] 지름(shopping) 게임미식가
잼아저씨
120 0 03.14
1265 [소개] 기상을 지배하는 자가 세상을 지배한다 " 지오스톰" 예고편 [1] 영화 / MOVIE ZardLuck 43 0 03.14
1264 [소개] Naver Whale browser - 오픈베타 시작 [9] algalon 58 0 03.14
1263 [잡담] 네이버 PC버전 메인 개편 하네요 [3] 썬업 106 0 03.14