자유 게시판

사이트 이용규칙을 준수하여
닥터몰라 회원과 자유롭게 소통하는 게시판입니다.

[잡담] 코어 X HCC 모델 작동속도 추정 + AVX-512에 대해

Dr.Lee | 조회 907 | 추천 6 | 2017.07.19. 08:28 http://drmola.com/bbs_free/214620

정식 발표된 제온 스케일러블 프로세서 (이하 제온 SP) 제품군의 사양을 보던 중 재미있는 생각이 들었습니다. 이것으로 코어 X 시리즈의 남은 모델들의 사양을 유추해볼 수 있지 않을까?

 

스카이레이크-X/SP 다이는 다시 LCC, HCC, 그리고 XCC의 3종으로 나뉩니다. LCC는 코어가 4 x 3 구조의 타일처럼 배열되어 있는데, 이 중 2개는 코어가 아닌 메모리컨트롤러이므로 네이티브 10코어 구성이죠. 같은 방식으로 HCC는 4 x 5 구성의 네이티브 18코어, 최상위 XCC는 6 x 5 구성의 네이티브 28코어 다이가 됩니다. 다만 XCC 다이는 제온 SP를 제외하고는 쓰이지 않습니다.

 

현재까지 데뷔한 스카이레이크-X는 모두 LCC 다이 기반입니다. 그만큼 HCC 다이의 투입 시기를 신중하게 저울질하고 있다는 뜻이겠죠. 이 글에서는 아직 출시되지 않은 스카이레이크-X HCC 다이 기반의 코어 X 시리즈, 즉 i9-7920X / 7940X / 7960X / 7980XE의 성능을 보다 세밀하게 추정해보기 위해 같은 다이를 사용한 제온 SP의 사양을 바탕으로 몇 가지 실험을 수행할 것입니다.

 

구체적으로 이 글의 목표는 각 CPU가 전력을 최대로 소비하는 환경이자 실제 성능의 척도가 될, 올 코어 터보클럭을 추정해내는 것입니다. 그러기 위해 같은 다이의, 같은 코어 구성을 갖는 코어 X 시리즈와 제온 SP의 TDP를 비교해, 이 중 이미 사양이 공개된 제온 SP쪽의 올 코어 터보클럭과 TDP를 바탕으로 코어 X 시리즈의 올 코어 터보클럭을 역산합니다.

 

우선 이런 접근이 유효한지 확인하기 위해 코어 X 시리즈 중 이미 출시된 모델 (LCC 기반) 중 2종을 대상으로 실험을 시범 수행해 보았습니다.

 

skl-x-hcc.001.jpeg

 

우선 8코어 코어 i7-7820X와 비슷한 구성의 제온 실버 4110은 85W TDP에 2400MHz의 올 코어 터보클럭을 갖는 모델입니다. i7-7820X와 같은 140W TDP로 가정하고 그에 비례하여 올 코어 터보클럭을 다시 계산해보면 약 3953MHz로 실제 i7-7820X의 올 코어 터보클럭인 4000MHz와 근접하게 됩니다.

 

skl-x-hcc.002.jpeg

 

10코어 코어 i9-7900X과 비슷한 구성을 갖는 제온 실버 4114 역시 같은 방식으로 계산해보면 140W TDP일 때 올 코어 터보클럭이 4118MHz로 실제 i9-7900X의 올 코어 터보클럭인 4000MHz와 비슷해집니다.

 

이제 미지의 영역으로 들어가 봅시다. 아직 출시되지 않은 스카이레이크-X HCC 다이 기반의 코어 X 시리즈는 4종입니다.

 

skl-x-hcc.003.jpeg

 

다음 달 출시가 유력한 12코어 코어 i9-7920X는 당초 코어 X 시리즈의 최상위모델로 여겨지기도 했습니다. 인텔이 그보다 상위모델의 존재를 컴퓨텍스 전날까지 극비에 부친데다 (결과적으로 i9-7920X는 상위모델의 은폐막 역할을 톡톡히 했습니다) 링 구조를 폐기하고 메쉬 구조를 도입할 것도 예상할 수 없었으니까요.

 

계산에 따르면, i9-7920X까지는 하위 3개 모델과 마찬가지로 올 코어 부스트클럭 4000MHz를 유지할 것으로 보입니다.

 

skl-x-hcc.004.jpeg

skl-x-hcc.005.jpeg

 

코어 i9-7920X보다 상위 모델 3종은 그보다도 출시일정이 늦어 연말 혹은 내년 초가 유력합니다. 14코어인 i9-7940X의 올 코어 터보클럭은 3900MHz일 것으로 계산되었는데 하위 모델들이 이어 온 올 코어 터보클럭 4000MHz 릴레이는 여기서 끊어졌지만, 그래도 여전히 높은 클럭입니다.

 

16코어인 i9-7960X는 그보다 조금 더 낮은 3600MHz에서 모든 코어가 최대로 작동할 수 있을 것 같습니다. 여전히 전세대 최상위 모델인 i7-6950XE의 올 코어 터보클럭보다 100MHz 높고, 코어 수는 6개나 더 많습니다. 이들을 비교한 이유는 가격이 1700달러대로 비슷한 수준이기 때문입니다.

 

skl-x-hcc.006.jpeg

 

마지막으로 인텔의 최종병기가 될 18코어 코어 i9-7980XE. 올 코어 터보클럭은 3400MHz일 것으로 추정되는데요. 지금까지 살펴본 결과 코어 수가 늘어갈수록 올 코어 터보클럭이 4000 - 3900 - 3600 - 3400으로 완만하게 줄어드는 것은 상식적으로 보입니다.

 

결과적으로 아직 출시되지 않은 HCC 다이 기반 코어 X 시리즈 각 모델의 멀티스레드 성능을 '현존 최강' 코어 i9-7900X와 비교하면 아래와 같겠지요.

 

코어 i9-7920X : 120%

코어 i9-7940X : 136%

코어 i9-7960X : 144%

코어 i9-7980XE : 153%

 


 

한편, HCC 다이 기반 코어 X 시리즈는 하위 모델과 비교해 AVX-512 FMA 유닛이 하나 더 활성화된 것이 특징입니다. 배경을 조금 설명하자면 스카이레이크-X/SP에서 (한 아키텍처의 생애주기 내에서는 이례적으로) AVX-512라는 새로운 명령어 세트를 도입하며 지나친 설계부담을 피하고자 인텔은 다음과 같은 전략을 취했습니다.

 

"기존의 AVX FMA(=AVX2) 유닛 두 개를 묶어 AVX-512 FMA 유닛 하나에 대응하도록 할 것"

 

다름아닌 불도저의 FlexFP와 유사한 방식입니다. (이 때에는 128비트 SSE 유닛 두 개로 256비트 AVX 명령어를 처리) 다만 이렇게만 해 두어서는 AVX2와 AVX-512 사이의 스루풋 차이가 전혀 없게 되고, 따라서 인텔은 잘 활용되지 않던 세번째 부동소수점 포트에 별도의 AVX-512 FMA 유닛을 추가했습니다. 이 두번째 AVX-512 FMA 유닛은 처음이자 마지막으로 (one and only) 네이티브로 설계된 AVX-512 전용 유닛입니다.

 

따라서 AVX 이전의 코드에 대해서는 스카이레이크-X/SP는 2개의 FMA 유닛과 1개의 기타 유닛이 대응할 수 있으며 이 중 FMA 유닛은 자주 사용되는 FADD, FMUL, 또는 3피연산자 덧셈-곱셈 혼용연산인 Fused Multiply-Add (이것이 곧 FMA의 약자입니다) 를 수행합니다. 기타 유닛은 FP Shuffle 등 상대적으로 드문 빈도의 연산을 수행합니다. (최대 3-way 부동소수점 병렬처리가 가능합니다)

 

반면 AVX-512 코드에 대해서는 대응하는 유닛 구성이 달라지죠. 앞서 2개의 FMA 유닛이 하나로써 '첫 번째 AVX-512 FMA 유닛' 이 되며, 기타 유닛이 여기서는 '두 번째 AVX-512 FMA 유닛' 이 됩니다. 이때는 최대 2-way 병렬처리가 가능합니다. 만약 '기타 유닛'에서만 처리할 수 있는 드문 명령어가 들어올 경우 '기타 유닛'은 '두 번째 AVX-512 FMA 유닛'으로서의 역할을 동시에 수행할 수 없으니 일시적으로 AVX-512 스루풋의 절반을 희생해야 합니다.

 

결과적으로 AVX-512 코드를 처리할 경우 스카이레이크-X/SP의 내부에서는 아래와 같은 모드 전환이 있다고 볼 수 있습니다.

 

1. AVX-512 FMA 유닛 2개 (2-way)

2. AVX-512 FMA 유닛 1개 + 기타 유닛 1개 (2-way)

 

중요한 것은 두 모드 모두 스루풋에는 변함이 없습니다. 단지 자주 사용되는 FADD, FMUL, FMA 등의 명령어가 더 넓게 처리될 수 있는지 아닌지의 차이이죠. (물론 자주 사용되는 명령어를 빠르게 처리하는 것이 오늘날 CPU 성능향상의 키워드인 만큼 성능은 당연히 달라집니다)

 

인텔이 스카이레이크-X 기반 코어 i7과 i9, 제온 골드 5000 라인업 이하와 6000 라인업 이상에 차등화를 둔 것은 바로 '두 번째 AVX-512 FMA 유닛'입니다. 스카이레이크-X 기반 코어 i7과 제온 골드 5000 라인업 이하에는 이것이 없습니다. 즉 위에서 살펴본 두 모드 중 1번이 배제된 것과 같습니다.

 

1. AVX-512 FMA 유닛 2개 (2-way) <- 삭제!

2. AVX-512 FMA 유닛 1개 + 기타 유닛 1개 (2-way)

 

그러니까 요지는 다소 미묘한데, 스카이레이크-X/SP 하위 라인업에 AVX-512 FMA 유닛 하나가 비활성화되었다고 하여 (2 -> 1) 그 뉘앙스가 주는 것만큼 성능이 반토막나는 것은 아니라는 점과 (어쨌든 부동소수점 명령어 대역은 2-way가 유지됩니다), 그럼에도 불구하고 자주 사용되는 명령어를 처리하는 대역이 좁아진 만큼 성능이 떨어지는 것 자체는 분명하다는 점입니다.

 

한편 인텔은 과거 AVX2를 도입하면서도 그러했지만, AVX-512를 도입하면서도 이들 유닛이 가동될 경우 통상적인 (스펙상의) 터보부스트 시나리오와 다른 별도의 시나리오를 갖도록 했습니다. 이에 대해서는 앞서 이 글에서 소개했었습니다.

 

turbo1.png

<통상적인 터보부스트 시나리오>

 

turbo2.pngturbo3.png

<AVX2(좌) / AVX-512(우) 터보부스트 시나리오>

 

코어 X 시리즈나 제온 SP가 경쟁 제품에 대해 가질 수 있는 가장 큰 우위는 클럭입니다. 그런데 (앞서 코어 X 시리즈 HCC 모델과 비교에 사용한) 제온 골드 6132-6150을 기준으로 AVX2 구동시에는 올 코어 터보클럭에서 300-400MHz 낮아진 클럭이 적용되며, AVX-512 구동시에는 무려 900-1100MHz 낮아진 클럭으로 작동하게 됩니다.

 

설령 클럭이 낮아지더라도 AVX-512 FMA 유닛이 두 개 있는 경우라면 어쨌든 성능향상은 볼 수 있지만, 그렇지 않은 경우 경쟁 제품에 대한 큰 비교우위가 하나 사라지는 셈입니다. 게다가 AVX-512 코드를 많이 쓰지 않는 경우라면 경쟁 제품과 AVX2 스루풋의 격차는 더욱 좁혀지는데, 문제는 경쟁 제품에는 이러한 클럭 낮추기가 적용되지 않았다는 점입니다. (Zen은 128비트 부동소수점 유닛을 4개 탑재해 레거시 코드는 매우 빠르게 수행할 수 있습니다.)

 

결국 라이젠 스레드리퍼의 '진정한 경쟁상대'는 LCC 기반 제품이 아니라 향후 출시될 HCC 기반 제품이 될 가능성이 높은데, 바로 이 지점에 인텔이 고민해야 할 부분이 있지 않을까 합니다.

 

16코어 라이젠 스레드리퍼 1950X의 베이스클럭이 3400MHz로 공개되었으니 올 코어 터보클럭은 3500MHz 정도로 본다면, 적어도 인텔은 같은 코어 수에서, 실질적인 승부처인 AVX/AVX2에서의 연산 성능을 1950X보다 높게 유지해야만 체면이 서겠지요. 똑같이 16코어인 코어 i9-7960X의 올 코어 터보클럭은 3600MHz로 추정되는 상황. 표면상 인텔이 100MHz 앞서지만 AVX2 디스카운트가 적용된다면 예측불허의 영역으로 접어듭니다.

 

3500과 3600, 여기에 수백의 디스카운트. 엎치락뒤치락 우열을 가리기 힘든 숫자들 한복판에서 인텔과 AMD의 치열한 눈치싸움이 전개되고 있겠지요.

  • |
  1. turbo1.png (File Size:212.8KB/Download:0)
facebook twitter google plus pinterest kakao story band

서명

Profile image

Dr.Lee

(level 30)

* 적용중인 트로피 :

Profile image RuBisCO 2017.07.19 12:13
AVX512의 또다른 문제는 지원 프로세서간의 파편화를 빚어내고 있다는거죠. AVX 미지원 셀러론/펜티엄 계열 - AVX2까지만 지원하는 코어계열 - 제온파이 계열 - AVX512지원 코어 계열(FMA 1개) - AVX512지원 코어 계열(FMA 2개) - 캐논레이크 코어계열(FMA 유닛 숫자는 미지수)이 제각기 AVX512 명령의 지원 범위와 수준이 다 제각각으로 파편화되어있습니다.
Profile image Dr.Lee 2017.07.19 21:30
그러고보니 명령어 집합으로 밴다이어그램을 그린 것도 보았네요 (...) (절레절레)
Profile image Nvidia 2017.07.20 11:35
14코어 3.9Ghz ?!
번호 분류 제목 테마(게임) 글쓴이 조회 추천 날짜
공지 신규유저를 위한 닥터몰라 사용설명서 ver 0.2 [36] file 마린웨이브 871 27 06.05
공지 닥터몰라를 소개합니다 [18] Dr.Lee 1480 11 09.07
2416 [잡담] 키보드를 만들었습니다 [10] file [게임미식가] 잼아저씨 356 3 07.22
2415 [잡담] 영상감상요으로 태블릿을 샀는데요 [6] Rantert 139 0 07.22
2414 [잡담] 덩케르크 보고 왔죠 [1] 스피츠 70 0 07.22
2413 [잡담] 너무 덥습니다.. [5] file Madtomato 96 2 07.21
2412 [잡담] 내일이 중복이네요! [3] file enck 45 2 07.21
2411 [잡담] 삼성 태블릿 정말 너무한거같습니다 [6] Rantert 219 1 07.21
2410 [잡담] [트위치] 오늘도 신나는 고통 히오스^^ 리석하 14 0 07.21
2409 [잡담] 정말 습하고 더운 여름이네요 [3] 마린웨이브 54 2 07.21
2408 [잡담] <속보> 아기가 또 들어왔어요 [10] file Dr.Lee 350 11 07.21
2407 [소개] 백투더맥 에디터 쿠도군님을 소개합니다. [4] iMola 110 5 07.20
2406 [잡담] 히오스, 페이스북 이벤트 실물 전리품 상자 개봉기!! [1] file Heroes of the storm 마린웨이브 54 2 07.20
2405 [잡담] 14분 남았습니다 [1] 윤뎅구 105 2 07.20
2404 [질문] 유튜브 하시는 분 계신가요 [5] Warlord 92 2 07.20
2403 [잡담] 고양이 떡실신 시리즈 [31] file Dr.Lee 309 7 07.20
2402 [잡담] 내일 디아 시즌 시작이군요 [2] Warlord 81 1 07.20
2401 [잡담] 다키스트 던전 일기 file Darkest Dungeon Teemo 40 0 07.19
2400 [잡담] ZINC 님께서 나눔해주신 Crime Secrets 도전과제 100% 달성했습니다 [2] file Crime Secrets: Crimson Lily 프리맨 31 1 07.19
2399 [잡담] 반전 없는 라이젠 3 성능 예상(?) [3] file Dr.Lee 1241 9 07.19
2398 [잡담] KorPUBG+대모임의 배틀그라운드대회에 여러분을 초대합니다!! file 대모임 35 2 07.19
» [잡담] 코어 X HCC 모델 작동속도 추정 + AVX-512에 대해 [3] file Dr.Lee 907 6 07.19