하드웨어 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[CPU] 스카이레이크-SP 제온 VS EPYC 벤치마크 (아난드텍 기사 번역)

Dr.Lee | 조회 2365 | 추천 10 | 2017.07.12. 10:02 http://drmola.com/pc_column/211661

anand1-01.png

 

오늘 아침은 서버 시장에 매우 흥미로운 전환점이 되었다. 스카이레이크-SP 아키텍처 기반의 새로운 제온 스케일러블 프로세서 (제온 SP) 제품군이 정식으로 발표된 것이다. 이들은 새로운 플랫폼과 옴니패스 인터커넥트 패브릭 등 풍성한 신기술로 무장하고 있다. 코어 수가 더욱 늘어난 것은 물론이다.

 

한편 지난 달에는 AMD가 그들의 EPYC 7000 시리즈 프로세서를 발표한 바 있다. Zen 아키텍처를 기반으로 하여 코어 개수 및 I/O 인터페이스를 서버급으로 확장한 EPYC은 AMD에게 있어 기념비적인 작품이다. 거의 10년 가까이 공백으로 남아 있던 고성능 서버시장에 다시 경쟁을 불어넣게 되었기 때문이다. 출시는 다소 빨랐지만 EPYC 역시 제온 SP가 출시된 오늘을 전후로 선적이 진행 중이다.

 

anand1-02.jpg

 

인텔은 몇년만에 처음으로 실질적인 대체제가 존재하는 상태에서 신제품을 출시하게 되었고, 따라서 이들은 직전 세대의 제온 E5 V4보다도 AMD의 EPYC을 더욱 의식할 수밖에 없게 되었다. 이들은 아키텍처부터 채용한 명령어 세트, 메모리 계층구조, 내부 연결구조 등 어느 것 하나 닮은 구석이 없다. 그러나 잠시 후 리뷰를 통해 보게 되듯, 결국 돌고 돌아 매우 서로에 대해 경쟁력있는 일장일단을 갖게 되었단 점은 분명 흥미로울 것이다.

 

 

    AMD의 서버 CPU : EPYC

 

앞서 소개한 바 있는 Zen 및 EPYC 관련 기사를 읽었다면 이 장은 건너뛰어도 괜찮다. 그렇지 않은 이들을 위해 간단히 정리해보자. 우선 EPYC과 라이젠 모두를 관통하는 ‘최소 단위’는 4개의 코어를 묶은 CCX라는 단위이다. 비약적으로 향상된 Zen 코어 4개와 코어당 2MB씩의 L3 캐시 슬라이스를 묶어 하나의 CCX는 4코어, 8MB L3 캐시를 갖는다. CCX 내부에서는 L3 캐시를 액세스하는 데 최소 13ns(코어에 가장 인접한 L3 캐시 슬라이스인 경우), 인접하지 않은 슬라이스라도 15-19ns 내로 액세스가 가능해 매우 빠르게 접근할 수 있는 편이다. L3 캐시는 L2 캐시에 대해 exclusive하다.

 

anand2-01.jpg

 

두 개의 CCX가 모여 하나의 제플린 다이를 구성한다. 이때 AMD의 독자 인터커넥트 기술인 인피니티 패브릭이 두 CCX를 연결하게 되는데, CCX 내부에서 L3 캐시 접근이 매우 신속했던 것과 달리 다른 CCX의 L3 캐시에 접근하려면 유의미한 정도의 레이턴시가 발생하게 된다.

 

캐시 스눕 디렉토리 역시 각 CCX마다 별도로 존재한다. 따라서 개념상 16MB의 단일 L3 캐시를 공유한다기보다는 8MB씩의 L3 캐시가 별개로 존재하는 것에 가깝다. 하나의 제플린 다이 내에서도 그러할진대 EPYC은 심지어 4개의 제플린 다이를 MCM구조로 묶은 것이다.

 

anand2-02.png

 

다행히 각각의 다이는 모든 다이와 일대일로 연결되어 있어, 액세스를 위해 둘 이상의 다이를 건너가야 하는 일은 피할 수 있게 되었다. 다이 밖에서의 레이턴시를 최소화하려는 노력의 일환일 것이다. 어쨌든 이런 구조로 인해, EPYC은 2소켓으로 구성하더라도 내부적으로는 이미 가상의 8소켓이나 마찬가지인 셈이 된다.

 

anand2-03.png

 

AMD는 이런 ‘가상의 8소켓’에 충분한 대역폭을 제공하기 위해 각 소켓을 4개의 양방향 인피니티 패브릭으로 연결하는데 (역자 주 : 각 다이가 동일한 위상에 있는 다이와 일대일 연결) 하나의 연결은 다시 16개의 PCIe 라인을 점유하므로 무려 128개의 PCIe 라인이 소켓 사이의 통신에 사용되는 것이다.

 

이러한 구조로 인해 EPYC은 독립적으로 작동하는 여러 스레드를 활용하는 작업 -예를 들면 VM이나 HPC- 에는 매우 적합하지만 (코어와 캐시 사이의) 데이터 싱크가 중요시되는 트랜잭션 DB 등의 작업에는 상대적으로 덜 적합하다. 후자의 경우 데이터가 다이 사이를 오가는 경우, 또는 한 다이 내에서라도 CCX를 오가기만 하더라도 단일 다이 구성인 경우에 비해 불필요한 레이턴시가 추가로 발생하기 때문이다.

 

 

    AMD EPYC 7000 시리즈 SKU 소개

 

최대 32코어를 탑재한다는 점 외에도 EPYC은 2TB의 메모리와 128개의 PCIe 라인 등을 공통적으로 지원한다. 또한 최하위 2개 모델을 제외하고는 코어 개수 구성에 관계없이 모든 SKU에 걸쳐 제플린 4개분에 해당하는 64MB의 L3 캐시를 온전히 지원한다. (최하위 2개 모델은 32MB) 7000 시리즈가 있는 만큼 어쩌면 다이 수를 줄여 5000, 3000 시리즈를 낼 가능성도 있다. SKU별 스펙표는 아래와 같다.

 

anand3-01.png

 

최상위 모델인 EPYC 7601은 32코어, TDP 180W에 4200달러로 제공된다. 아래로 내려오면서 차례로 24, 16, 8코어 모델이 등장하는데 이들은 각각 CCX 내부에서 1, 2, 3개씩의 코어를 비활성화한 것이다.

 

EPYC의 풀 칩 구성에서 정확히 절반씩을 비활성화(16코어, 32MB L3)한 EPYC 7281은 650달러로 매겨졌는데 매우 흥미로운 2소켓 옵션이 될 것 같다. 최하위 모델인 8코어 EPYC 7251마저도 2TB 메모리와 128개의 PCIe 라인을 온전히 지원하고 있어 메모리 워크스테이션 구성에 있어서는 거의 인텔이 대응 가능한 모델이 없는 수준이다.

 

싱글소켓 전용으로는 아래의 3가지 SKU가 제공된다.

 

anand3-02.png

 

이들은 각각 같은 모델넘버를 갖는 2소켓용 EPYC과 똑같은 사양을 갖고 있지만 가격은 거의 절반 수준이다.

 

 

    스카이레이크-SP의 개요

 

스카이레이크-X/SP는 오리지널 스카이레이크와 비교해 큰 변화가 있는 아키텍처이다. 우선 L2 캐시 용량이 4배로 증가했으며 L3 캐시는 45% 작아진 대신 작동 방식이 non-inclusive로 달라졌고, AVX-512 명령어 세트를 지원하게 되었다.

 

anand4-01.png

 

Zen의 FPU가 2개의 128비트 FMAC만을 지원하는데 비해 (4개의 레거시 FP/SSE 연산을 지원하므로 이것 자체는 매우 강력한 편이다) 스카이레이크는 2개의 256비트 FMAC를 지원한다는 점을 인텔은 강박적으로 강조해 왔다. 스카이레이크-X/SP는 여기에 더해 1개의 512비트 FMAC를 추가 지원하게 된 것이다. 액면 그대로만 놓고 보면 AMD가 대단히 큰 결점을 가진 것 같다. 당장 256비트 AVX/AVX 2.0 연산(역자 주 : 앞으로 이들을 뭉뚱그려 AVX라 하겠다)에서 AMD의 스루풋은 인텔의 절반, AVX-512로 넘어갈 경우 4분의 1수준에 그치기 때문이다.

 

그러나 실제 성능발휘는 그리 간단하지 않다. AVX-512 명령어 세트가 현업 어플리케이션에 이식되려면 매우 오랜 시간이 걸릴 것이다. ANSYS 같은 매우 고가의 소프트웨어에는 많은 엔지니어가 달라붙어 (심지어 인텔의 조력을 받아서까지) 최신 명령어 세트에 최적화하는 작업을 거치겠지만 대다수의 소프트웨어는 그렇지 않다.

 

anand4-02.png

 

일단 최적화할 경우 AVX-512는 AVX보다 60%가량 더 빨라진다고 한다. 베스트 시나리오에서마저 정확히 2배의 스루풋을 달성하지 못하는 것은 AVX / AVX-512 등을 구동할 때 소비전력이 증가하므로 CPU의 작동 속도가 낮아지도록 설정되었기 때문이다. 일례로 제온 8176은 올 코어 터보클럭이 2.8GHz라고 명기해 두었지만 AVX 구동시에는 2.4GHz, AVX-512 구동시에는 1.9GHz로 상당히 낮아지는 것을 관찰할 수 있다.

 

anand4-03.png

 

마지막으로 AVX-512를 사용해야 할 정도로 부동소수점 연산을 빡세게 필요로 하는 어플리케이션은 오늘날 대부분 GPU 가속으로 넘어가는 추세라는 점, 부동소수점 어플리케이션의 상당수는 (CPU의 부동소수점 연산성능 자체뿐만 아니라) 메모리 대역폭에도 큰 영향을 받는다는 점을 고려해야 할 것이다.

 

 

    링 구조를 대체하는 메쉬 구조

 

링 구조에는 많은 장점이 있었다. 우선 고속화하기 쉽다. 오늘날 인텔의 CPU에서 구현되는 링 구조는 3GHz의 작동 속도를 가진다. 또한 특정한 코어가 자신에 인접한 L3 캐시 슬라이스를 접근하는 경우 레이턴시는 단 한 클럭 사이클밖에 소요되지 않는다. 오늘날 하나의 링이 가장 크게 확장된 브로드웰-EP/EX에는 12개의 코어가 한 링으로 연결되어 있는데 이떄 최악의 경우라도 12사이클 이내에는 접근할 수 있다. 평균적으로는 6사이클 정도가 소요될 것이다.

 

그러나 링 도메인이 2개 이상으로 불어나면서 예기치 못한 문제가 발생했다. 인텔은 하스웰-EP/EX부터 두 링 도메인을 버퍼 스위치로 접속하는 방식을 도입했는데, 이에 따라 링 도메인 사이를 오갈 때의 레이턴시가 증가하게 되었고 한 다이 내에서 캐시 일관성을 관리하기가 점점 복잡해졌다. (역자 주 : 정확히 지금의 AMD CCX 문제와 같다) 만약 현 수준보다 코어 수가 더 증가해, 3개의 링 도메인을 넣어야 하는 상황이 되기라도 했다면 문제는 더욱 심각해졌을 것이다.

 

anand5-01.png

 

따라서 인텔의 엔지니어들이 링 구조를 대체할 제3의 구조를 스카이레이크-X/SP에 도입한 것은 전혀 놀라울 일이 아니다. 이것이 바로 메쉬 구조이다.

 

anand5-02.png

 

링 구조와 비교해 메쉬 구조는 고속화가 어렵다는 단점이 있다. 오늘날 인텔의 언코어는 1.8-2.4GHz로 이전까지와 비교해 상당히 저속화되어 있다. 그럼에도 코어 개수를 전세대보다 더욱 늘릴 수 있게 되었다는 무시 못할 장점이 있고, 인텔에 따르면 L3 캐시 레이턴시 역시 10%밖에 늘지 않았다고 한다. 코어 개수의 증가 자체가 레이턴시 증가 요인이 되는 점과 전세대보다 코어 수가 늘었다는 (22개 -> 28개) 점을 감안하면 선방한 것이다.

 

anand5-03.png

 

물론 메쉬 구조 하에서도 최악의 경우 -가령 맨 위 최우측에서 맨 아래 최좌측으로 접근하는 경우- 레이턴시가 길어지는 것을 막을 수는 없지만 어쨌든 다이 자체를 넘어다녀야 하는 MCM의 경우보다는 낫다. 구체적으로 스카이레이크-X/SP의 레이턴시는 EPYC의 10분의 1정도에 불과하다. 따라서 스케일아웃에는 AMD보다 인텔의 솔루션이 더욱 나을 것이다.

 

anand5-04.png

 

다이 구조를 유심히 살펴보면 메쉬 구조 내에서도 크게 왼쪽 절반과 오른쪽 절반이 대칭적으로 구성되었음을 알 수 있다. 과거 두 개의 링 도메인에서 발생하는 문제를 해결하기 위해 이를 별개의 논리적 소켓으로 쪼개는 클러스터 온 다이(COD) 모드를 제공했던 인텔은, 제온 SP에서도 그것과 유사한 서브-NUMA 클러스터(SNC) 모드를 제공한다. 이를 통해 낮은 레이턴시를 중시하는 어플리케이션 하에서 성능을 더 높일 수 있다.

 

 

    인텔 제온 SP 시리즈 SKU 소개

 

인텔은 종전까지 사용해 오던 네이밍 규칙을 폐기하고 제온 E5 / E7의 전 라인업을 브론즈 / 실버 / 골드 / 플래티넘으로 일원화했다.

 

anand6-01.png

 

슬라이드에도 언급되어 있지만 접미사에 대해서만 간단히 다시한번 정리해 보겠다.

 

- M : 일반 모델 대비 2배의 메모리 용량 지원 (768GB -> 1.5TB)
- T : 더 긴 보증기간 지원
- F : 옴니패스 커넥터 지원

 

 

제온 플래티넘

 

anand6-02.png

 

“그동안 고객들 중에는 E7-8000 시리즈 한정으로 제공되는 특정 SKU가 최적인 경우가 있었다. 코어 개수는 적고 L3 캐시를 다량 탑재한 특수한 SKU 등이 그것이다. (4코어, 45 MB L3 등) 그러나 이들이 8소켓 구성을 염두에 두고 있지 않다면 아예 8로 시작하는 모델넘버엔 관심조차 갖지 않아 고려대상조차 되지 않는 맹점이 있었다. 네이밍 규칙을 바꾼 것에는 이러한 점도 작용했다.”

 

비록 제온 E7 라인업은 사라졌지만 제온 플래티넘은 정확히 그 가격대를 계승하고 있다. 차이점이 있다면 기존 E5 라인업을 통해서도 제공되었던 최대 다이 구성(XCC)이 모두 플래티넘에 흡수되었단 점이다. (역자 주 : E5 상위 모델로 인해 E7 하위 모델이 안 팔리니 E5 상위 모델을 없애고 모두 플래티넘이라는 이름 아래 구 E7의 가격을 매겨둔 것으로 해석할 수 있다)

 

anand6-03.png

 

최상위 모델인 제온 8180의 가격은 무려 10000달러를 돌파하며 기존 E7-8000 시리즈(7-8000달러)보다도 비싸졌다. 게다가 메모리 확장 모델인 제온 8180M은 그보다도 30%가 더 비싸다. 다만 기존의 가격대 안에서 28코어 플래그십을 원하는 고객들을 위해 8176이 제공되며, 코어 수를 조금 희생한다면 8170도 좋은 대안이 될 것이다.

 

 

제온 골드

 

anand6-04.png

 

제온 골드는 6100과 5100 시리즈라는 두 그룹으로 나뉘는 것이 특징이다. 이들은 지원하는 메모리 클럭과 UPI 인터커넥트의 수, 그리고 AVX-512 유닛의 개수로 구분된다. 제온 골드 자체는 플래티넘과 비교해 최대 4소켓까지만 구성 가능하며 최대 22코어 모델까지만 제공하는 차이가 있다.

 

제온 6100 시리즈는 AVX-512 FMA 유닛이 2개인 반면 5100 시리즈는 1개로 제한되어 있다. 또한 6100 시리즈는 최대 DDR4-2666 메모리를 지원하지만 5100 시리즈는 DDR4-2400 까지로 제한되어 있다. 마지막으로 6100 시리즈는 3개의 UPI 인터커넥트를 갖지만 5100 시리즈는 2개로 제한되어 있다.

 

UPI 인터커넥트의 수로부터 발생하는 차이로, 5100 시리즈는 4소켓 구성시 링 형태로밖에 연결할 수 없다. 따라서 모든 대각선이 이어지는 6100 시리즈에 비해 레이턴시에서 다소 불리할 수 있다.

 

anand6-05.png

 

anand6-06.png

 

이러한 특성으로 인해 제온 6100과 5100 시리즈는 사실상 별도의 티어로 봐도 무방할 만큼 큰 차이를 갖게 되었다. 굳이 이들을 하나로 묶을 공통점이 있다면 최대 4소켓 구성이 가능하다는 점뿐일 것이다.

 

 

제온 실버 및 브론즈

 

anand6-07.png

 

지금까지 제온 플래티넘에서 16종의 SKU, 골드에서 32종의 SKU를 살펴보았다. 그러나 이제부터 살펴볼 실버 및 브론즈 시리즈는 둘을 합쳐 10종의 SKU밖에 없으며 최대 12코어, 구성 가능한 최대 소켓 수도 2소켓에 불과하다. 전세대의 2소켓용 SKU 중 최상위 모델인 제온 E5-2699A V4가 최대 22코어까지 지원했던 것과 비교하면 현격히 낮아진 것인데, 코어 개수와 멀티소켓 지원을 묶어팔기하는 것으로 전략을 크게 바꾸었다고 볼 수 있다.

 

제온 5100 시리즈와 마찬가지로 이들은 AVX-512 FMA 유닛을 코어당 단 하나만 지원한다. 여기에 더해 실버는 UPI 속도가 9.6GT/s로 하향되었으며 (골드 위로는 10.4GT/s), 브론즈는 메모리가 DDR4-2133으로 한층 더 제한되어 있고 하이퍼스레딩을 지원하지 않는다. 후술하겠지만 이들은 AVX-512 구동시 클럭 역시 800MHz로 크게 낮아진다.

 

anand6-08.png

 

 

    새로운 터보 모드

 

<스카이레이크-SP의 개요> 장에서 잠시 언급했듯 제온 SP는 통상적인 경우, AVX를 구동하는 경우, 그리고 AVX-512를 구동하는 경우의 클럭 프로파일이 모두 다르다. 예컨대 제온 8180의 경우 아래와 같다.

 

anand7-01.png

 

똑같이 28코어를 탑재한 제온 8180과 8176을 비교해 보면 아래와 같다.

 

anand7-02.png

 

아래의 표는 거의 모든 라인업에 대해 통상적인 경우의 클럭 프로파일을 나타낸 것이다.

 

anand7-03.png

 

위 표에 따르면, 제온 골드 라인업의 6154는 18코어를 탑재하고 3.0GHz의 베이스 클럭을 갖지만 특이하게도 올 코어 터보와 최대 터보클럭이 모두 3.7GHz로 동일하다. 반면 TDP가 205W로 높은 편인데, 그보다 하위 모델인 6150은 똑같이 18코어를 탑재하고 있으면서 TDP가 165W로 (출시가 예고된) 코어 i9-7980XE와 같다.

 

AVX 및 AVX-512 구동시의 클럭 프로파일은 아래와 같다.

 

anand7-04.png

 

anand7-05.png

 

 

    AMD EPYC과 인텔 제온 SP 라인업 비교

 

표면상 일대일로 엇비슷한 코어 수 등에 불구하고, EPYC은 최대 2소켓까지 지원하지만 제온 SP는 8소켓까지 지원하는 등의 차이가 있다. 이를 반영해 전체적으로 인텔의 SKU 가격이 높게 분포해 있는데, 이를 가격대별로 비교해 보면 아래와 같다.

 

anand8-01.png

 

<AMD EPYC 7000 시리즈 SKU> 장에서 살펴본 싱글소켓 전용 SKU를 기억한다면 제온 실버 라인업과의 비교가 흥미로울 것이다. 2개의 (12코어) 제온 5118은 1개의 EPYC 7551P와 엇비슷한 가격인데 후자의 코어 수가 무려 8개나 더 많다. IPC가 다소 떨어지더라도 클럭이 비슷하므로 코어 수로 상쇄하고 남을 것이다. 게다가 보드 역시 (싱글소켓이므로) 훨씬 단순할 것이고 PCIe 라인 수도 더 많으며, 결정적으로 소비전력도 더 적다.

 

 

    벤치마크 결과

 

AMD는 EPYC의 출시에 발맞춰 최상위 SKU인 EPYC 7601을 보내 왔다. 반면 인텔은 제온 8180가 8176 중 하나를 선택하게 했는데, 양측의 TDP 규모를 비슷하게 맞춰 테스트하기 위해 우리는 제온 8176을 선택했다. (역자 주 : 그러고도 여전히 AMD측 대조군보다 인텔측 대조군이 2배 이상 비싸다)

 

 

메모리-대역폭

 

anand-mem01.png

 

AMD는 인텔 컴파일러(ICC) 하에서 자사 CPU의 성능이 잘 나오지 않는다고 불평해 왔지만 EPYC은 많은 메모리 채널수에 걸맞게 ICC 하에서도 가장 높은 대역폭을 보이고 있다. 쿼드채널인 제온 E5 V4보다는 약 45%, 6채널인 제온 SP보다도 25%가 높다. 다만 MCM 구조인 탓에 코어 개수별 스케일링에서는 다소 석연찮은 모습을 보인다.

 

anand-mem02.png

 

(역자 주 : 결론부터 말해 EPYC은 가능한 모든 다이가 활성화되어 있을 때만 온전히 8채널의 성능을 낼 수 있다. 특히 인텔측 대조군 2종이 모두 코어/스레드 수에 비례해 대역폭이 오르는 것과 달리, EPYC은 4스레드가 한 소켓에 몰려 있는 것보다 2스레드를 서로 다른 소켓에 배분한 때의 대역폭이 더 높다. 다이 사이를 넘나드는 레이턴시가 크기 때문에 스레드가 한 소켓/다이에 몰린 경우 다른 소켓/다이의 메모리컨트롤러를 굳이 접근할 실익이 없기 때문이다. 이는 하스웰-EP/EX에서도 지적된 바 있다.)

 


 

메모리-레이턴시

 

anand-mem03.png

 

EPYC의 L3 캐시 레이턴시에 주목하자. 처음 8MB 구간은 인텔측 대조군보다도 더 좋은(낮은) 레이턴시를 보이고 있지만 그 이후는 오히려 메모리에 접근하는 것과 별반 다르지 않은 레이턴시를 갖는다. 하나의 CCX가 관할하는 L3 캐시가 8MB인 것을 생각하면 납득가는 결과이다. 즉 CCX/다이를 넘나드는 경우 레이턴시가 급격히 증가하는 것이다. 따라서 단일한 64MB L3 캐시로 기능한다고 보기는 어렵고, 적어도 (8개의 CCX마다 하나씩) 8개의 스레드를 구동하는 경우 병렬로 8MB씩의 L3 캐시를 사용한다고 보는 편에 가까울 것이다.

 

anand-mem04.png

 

위와 동일하게, 첫 8MB 이내까지는 EPYC이 모든 대조군 가운데 가장 좋은 특성을 보이나 이후 레이턴시가 급격히 증가한다. 다만 DRAM 영역으로 넘어가면 비슷한 레이턴시를 보일 것이다.

 


 

메모리-데이터베이스 성능 : MySQL

 

db01.png

db02.png

 

<AMD의 서버 CPU : EPYC> 장에서 언급했듯, EPYC의 이러한 메모리 성능 특성으로 인해 데이터 트랜잭션이 자주 일어나는 데이터베이스 서버에서는 그리 좋은 성능을 보이지 못한다. (역자 주 : 벤치마크에서 가장 좋은 성능을 보인 제온 8176도 응답 속도는 6년 전의 제온 E5-2690에게 밀리는 모습을 보였는데, 8코어 단일 링 구조를 갖는 샌디브릿지-EP가 가장 짧은 레이턴시를 갖는 것으로 보인다)

 


 

정수연산-SMT on/off 비교

 

int-01.png

 

위 표는 SPEC CPU2006 벤치마크를 1스레드만 활성화한 상태로 진행한 것이다.

 

int-02.png

 

위 표는 같은 벤치마크를 1코어 / 2스레드만 활성화한 상태로 진행한 것이다. 앞서 얻은 결과와 비교하면 SMT 효율을 구할 수 있다.

 

int-03.png

 

종합해 보면 제온 E5 V4의 경우 SMT 적용시 20.1%, 제온 SP의 경우 19.6%의 성능향상을 보였고 EPYC은 28.3%의 성능향상을 보여 EPYC쪽이 SMT 효율이 더 높은 것으로 나타났다. 두가지 원인을 추정해볼 수 있는데, 첫째는 (앞서 메모리 항목에서 살펴본 이유로) EPYC이 싱글스레드만 구동할 때보다 2스레드를 구동할 때 메모리 대역을 더 높게 활용할 가능성이 있어서이고, 두번째는 Zen 자체가 병렬성을 도출하기 더 최적화된 아키텍처이기 때문이다. (역자 주 : 스카이레이크는 8-width, Zen은 10-width 백엔드를 갖고 있다)

 

어느 쪽이건, AMD의 엔지니어가 자사의 첫 SMT 기술을 도입한 결과로는 대단히 좋은 성과를 거뒀다.

 


 

정수연산-SPEC CPU2006

 

int-04.png

 

위 테스트 항목 중 <471.omnetpp>의 경우 EPYC에서 128스레드 구동이 불가능해 64스레드로 테스트한 것이다. SMT를 정상적으로 적용할 경우 20%가량 향상이 있을 것이라 짐작된다. 이를 제외하고라도 EPYC 7601은 같은 가격의 현세대 경쟁자인 제온 E5-2699A V4보다 무려 42% (문제의 항목을 포함하더라도 40%), 심지어 (미래의 경쟁자이자 두 배 비싼) 제온 8176보다도 6-7% 더 높은 정수 성능을 보여주고 있다.

 


 

정수연산-파일 압축 : LZMA

 

lzma01.png

lzma02.png

 

LZMA 벤치마크는 압축과 해제가 서로 다른 결과를 보였다. 파일을 압축할 때에는 캐시, 메모리 성능과 TLB 효율 등이 많은 영향을 미치고 제온 SP가 EPYC보다 높은 성능을 기록한 것은 그런 점이 반영된 것이다. 반면 압축을 해제하는 것은 상대적으로 CPU의 정수연산 성능에 많이 의존하며, 코어 수가 더 많은 EPYC이 거의 그 비율에 비례해 제온들보다 높은 성능을 보이고 있다.

 


 

정수연산-자바 : SPECjbb 2015

 

java01.png

java02.png

 

자바 벤치마크는 CPU 성능을 이상적으로 반영하는 시나리오가 아니다. 내부적으로 4개 그룹의 트랜젝션 인젝터와 백엔드를 테스트하기 때문이다. 즉 AMD에게 이상적인 조건이 아님에도 불구하고 EPYC은 제온 SP를 아주 근소한 차이로 앞서고 있다.

 


 

정수연산-빅데이터 : Apache Spark 2.1

 

bd01.png

 

빅데이터 크런칭은 대체로 정수연산을 활용하며 싱글스레드, 혹은 적은 수의 스레드만 활용하는 경우가 많다. 터보클럭이 더 높은 제온 SP가 경쟁자들을 리드하고 있다.

 


 

부동소수점-C-ray

 

fp-01.png

 

와, 무슨 일이 일어난거지? ("Wow, what just happened?") Zen의 4개의 FP 파이프라인이 빛을 발했다. EPYC은 모든 경쟁 상대를 최소 50% 이상의 격차로 따돌리고 있다. 다만 C-ray는 테스트 항목을 L1 캐시에 로드한 상태에서 진행하는데, L1 캐시 미스가 없는 한 넓은 FP 파이프라인의 병렬성을 활용하는 건 어려운 일이 아니다. 다음 벤치마크를 보자.

 


 

부동소수점-POV-Ray 3.7

 

fp-02.png

 

POV-Ray는 L2 캐시의 성능이 중요시된다. 따라서 EPYC의 특징인 높은 대역폭의 메모리를 활용하지 못하는 핸디캡이 있는데, 그럼에도 불구하고 EPYC은 제온 8176보다 16% 가량 더 높은 성능을 보이고 있다. 하지만 메모리 액세스와 AVX가 적용되면 어떻게 될까? 마지막 벤치마크를 보자.

 


 

부동소수점-NAMD

 

fp-03.png

fp-04.png

 

NAMD 바이너리는 인텔 컴파일러(ICC) 로 작성되고 AVX 명령어 세트를 지원한다. 그럼에도 불구하고 EPYC 7601은 인텔의 28코어 제온을 41% 격차로 앞서가는데, 린팩 등에서 쓰이는 벡터화된 명령어는 인텔이 더 빠르게 처리할 수 있지만 레거시 FP 코드는 Zen이 압도적으로 빠르기 때문이다.

 

더 최신 버전인 2.12에서도 마찬가지 결과를 보인다. 다만 최신 라이브러리를 썼을 때 인텔측 대조군은 일제히 소폭 올랐지만 EPYC은 약 4% 가량 성능이 낮아진 것도 주목할 만하다. 어쨌든 지금까지 살펴본 서로 다른 3종의 부동소수점 연산성능 벤치마크 결과는 한가지 결론을 도출하고 있다. 이론적으로는 Zen의 "피크 플롭스 성능"이 떨어질지 모르지만 아직까지 현업에서 사용되는 많은 FP 코드는 EPYC이 가장 빠르게 처리할 수 있다는 것이다.

 


 

    소비전력

 

power.png

 

(표가 의미하는 내용이 명백하고 이 장 자체가 짧아 번역을 생략했습니다.)

 


 

    결론

 

먼저 테스트 기간이 너무 짧아 서버 하드웨어/소프트웨어의 복잡다단한 면을 다 테스트할 수는 없었다는 점을 짚어 둔다. 그렇지만 전체적인 그림은 명확하다. 인텔의 새로운 메쉬 구조의 우수성과 AMD의 강력한 Zen 아키텍처에 대해 논하자면 끝도 없겠지만, 현업 종사자들을 위해 이론적인 배경 설명을 최소화하고자 한다. 당신이 원하는 키워드 -성능, 전성비, 가성비 등- 에 맞춰 결론을 내려 주는 게 현명하겠지.

 

인텔의 가격정책을 신경쓰지 않을 수 없다. 만약 가성비가 당신네 회사의 최우선 관심이라면 AMD의 EPYC은 매우 경쟁력있다. 데이터베이스 소프트웨어 및 벡터화된 코드를 처리할 용도가 아니라면, EPYC 7601은 단돈 4200달러에 8000달러를 넘는 인텔 제온 8176보다 근소하게 앞서는 성능을 제공한다. 심지어 가격을 생각하면 라이벌을 제온 8160으로 잡는게 더 타당한것 같다. 이쪽은 코어 수가 8176보다 4개 더 적고(24코어) 클럭도 200MHz 더 낮아 15%정도 더 낮은 성능을 보일 것으로 전망되는데, 그러면서도 가격은 가장 좋은 EPYC보다도 500달러가 더 비싸다(4700달러).

 

물론 제온 SP는 8소켓까지 구성 가능하다는 장점이 있다. 그러나 냉정히 말해 이 시장은 급속도로 축소되고 있으며 2소켓 구매자들은 무시할 수 없게 성장하고 있다. 우리가 아직 테스트하진 못했지만 AMD의 싱글소켓 전용 EPYC 역시 매력적이란 점을 언급해야겠다. 짐작컨대 EPYC 7551P 단일 구성은 거의 대부분의 제온 실버 듀얼 구성보다 성능이 좋을 것이다. 게다가 멀티소켓 구성에서 오는 비효율과 더 비싼 보드 등을 감수하지 않아도 된다. 가격에 민감한 이들이라면 대단히 뛰어난 선택이 될 것이다.

 

그러나, 당신이 구동하는 소프트웨어 자체가 비싼 경우에는 이야기가 조금 달라진다. 이 경우 제온 플래티넘을 사더라도 전체 예산에 가격탄력성을 주지 못할 가능성이 있다. 이 경우에는 제온 SP쪽이 최상의 싱글스레드 성능과 높은 스루풋, 인텔의 신뢰할만한 지원 등을 제공하므로 매력적인 선택지가 된다. 만약 HPC 소프트웨어를 구동하는 경우라면 AVX나 AVX-512로 인한 이득을 볼 수도 있다.

 

두번째로 고려해야할 것은 구매자의 특성이다. EPYC이 최고의 성능을 발휘하는 영역에서라도 ‘가상의 8소켓’을 최적화하려면 담당 직원이 상당한 노력을 기울여야 하는데 중소기업에서는 이것을 기대하기 어렵다. 반면 클라우드 벤더라면 이러한 튜닝은 한번 해놓고 나면 두고두고 써먹을 수 있는 투자가 된다. 마이크로소프트는 이미 애저 클라우드 데이터센터에 EPYC을 도입하고 있다.

 

이쯤에서 미래로 시선을 옮겨보자. 인텔은 메쉬 구조라는 진보된 기술을 도입하여 앞으로 코어 수를 더 늘리기 어렵지 않게 되었다. 그러나 한편으로는 ‘강력해진 AMD’ 라는 껄끄러운 상대를 마주하고 있다. 스칼라 부동소수점 연산성능은 단연 AMD가 앞서게 되었고 정수연산 성능은 동클럭일 경우 거의 같으나 인텔이 클럭에서의 우위를 바탕으로 겨우 누른 상황이다. 다만 듀얼 CCX 및 MCM 구조 등으로 낭비되는 성능이 현재로서는 많은데 AMD가 앞으로 이 점을 어떻게 개선해 나갈지가 관전 포인트이다.

 

마지막으로, AMD가 이렇게까지 해낸 것이 정말 대단하다는 이야기를 꼭 해야겠다. 그들은 경쟁력있는 성능의 새로운 서버 CPU를 가져왔을 뿐만 아니라 핵심적인 가격대의 시장에 이들을 배치했다. 인텔 역시 대단히 매력적이고 스케일아웃에 적합한 제품을 선보였지만 스카이레이크-SP의 신기술들이 지나치게 높은 가격에 묻히는 감이 있어 아쉽다.

 


 

※ 이 글은 아난드텍의 기사를 날림으로 번역한 것입니다.

  • |
  • |
  1. 아난드.png (File Size:879.0KB/Download:0)
facebook twitter google plus pinterest kakao story band

서명

Profile image

Dr.Lee

(level 30)

* 적용중인 트로피 :

Profile image 헤비메탈 2017.07.12 11:09

실질 성능은 모르겠지만 8180을 위시한 28코어 제품들이 한결같이 최대 부스트가 3.8이라는 것은
전세대의 2679로부터 최대 부스트 클럭은 0.5정도, 올코어는 잘 모르니 그렇다 치더라도

코어를 되려 8개가량 늘렸으니 괜찮은 성장이라 봅니다.
40%?의 코어 갯수증가라고 봐야할까요.

Profile image Takingdamages 2017.07.12 11:43
이어려운걸 AMD가 해냅니다 (??)
Profile image 무암산인 2017.07.12 12:02
... 저기 저 위에서 노는 거라...
Profile image LMB 2017.07.12 15:10

몇가지 눈에 띄는 게 있어서 적습니다. AVX-512 지원과 대역폭에 대해서입니다. 


AVX-512 명령어 세트가 현업 어플리케이션에 이식되려면 매우 오랜 시간이 걸릴 것이다. ANSYS 같은 매우 고가의 소프트웨어에는 많은 엔지니어가 달라붙어 (심지어 인텔의 조력을 받아서까지) 최신 명령어 세트에 최적화하는 작업을 거치겠지만 대다수의 소프트웨어는 그렇지 않다.
->
잘못된 내용입니다. 안시스 등에서 AVX-512 등을 지원하는 것은 아주 쉽습니다. 안시스 등의 해석 시간은 수치해석 표준 라이브러리가 대부분을 차지합니다. 그리고 인텔은 MKL (Math Kernel Library, https://en.wikipedia.org/wiki/Math_Kernel_Library) 이라는 최고의 수치해석 라이브러리가 있습니다. 그냥 AVX-512 지원하는 새 버전 컴파일러와 라이브러리로 컴파일만 다시 하면 됩니다. 심지어는, 컴파일도 다시 안 하고, 프로그램에 포함된 라이브러리 파일만 바꿔도 되는 경우도 있습니다. 당연히 성능도 제대로 나옵니다. 마찬가지로 GPGPU 지원도 쉽습니다. 표준 라이브러리를 GPU 버전으로 바꾸기만 하면 되니까요. 
물론, 표준 라이브러리 아닌 부분이 대부분을 차지하는 경우도 있습니다. 원래 코드가 벡터화 대응이 잘 되어 있으면, 새 버전 컴파일러와 라이브러리로 컴파일만 다시 해도 성능이 꽤 오르기도 합니다. 아니라면, 인텔 도움을 받던지 해서 프로그램을 고쳐야 합니다. 
 
마지막으로 AVX-512를 사용해야 할 정도로 부동소수점 연산을 빡세게 필요로 하는 어플리케이션은 오늘날 대부분 GPU 가속으로 넘어가는 추세라는 점, 부동소수점 어플리케이션의 상당수는 (CPU의 부동소수점 연산성능 자체뿐만 아니라) 메모리 대역폭에도 큰 영향을 받는다는 점을 고려해야 할 것이다.
->
맞습니다. 부동소수점 연산이 빡세면서 벡터화가 쉬운 경우는 GPU로 넘어갑니다. 가끔 벡터화가 어려운 경우는 여전히 CPU로 돌립니다. 이렇게 벡터화가 어려우면, 병렬화도 어려운 경우가 많습니다. 이런 때는 싱글 성능 높은 CPU가 최고지요. 미국 에너지부 요청으로 인텔이 만들었다는 4코어 5GHz 제온이 이런 목적으로 보입니다. 
그런데, FP 어플 상당수는 대역폭 영향이 크다고 하셨는데, 수치 해석은 아닌 경우가 많습니다. 위에서 적었듯, 수치해석 시간 대부분은 표준 라이브러리가 먹습니다. 이런 라이브러리 가운데 시간을 많이 먹는 행렬*행렬, FFT 등은 대역폭 영향이 적습니다. (입출력/연산 비율이 데이타가 커지면 0으로 수렴합니다. 따라서 이상적으로는, 대역폭 영향을 안 받게 만들 수도 있습니다.) 벡터*벡터 연산은 대역폭이 중요하지만, 시간은 별로 안 걸립니다. 


정리하면, 수치해석 프로그램 상당수에 AVX-512 지원은 아주 쉽습니다. 컴파일만 다시하거나 라이브러리 바꾸기만 하면 됩니다. 또한 대역폭 영향을 크게 받지도 않습니다. 

Profile image Nvidia 2017.07.18 02:28
레이턴시를 다소 포기하고 다코어로 가네요
  • 특별할 것 없어요 : 갤럭시 노트 FE 성능리뷰 [모바일] 특별할 것 없어요 : 갤럭시 노트 FE 성능리뷰 [6] file

    작년, 삼성의 플래그십 스마트폰인 갤럭시 노트 7이 처음 공개될 때만 해도 갤럭시 노트 7이 이런 최후를 맞을 것이라 예상하는 사람은 많지 않았습니다. 갤럭시 노트 7은 화려하게 출시되었지만 화려하게 폭발했고, 결국 모든 제품이 리콜되기에 이르렀습니다. 하지만 갤럭시 노트 7의 이런 운명에도 불구하고, 갤럭시 노트...

    • iMola |
    • 17.07.20 |
    • 조회 1131 |
  • '맥은 비싸다'는 편견을 깨다 : iMac(Retina 5K, 2017) 리뷰 '맥은 비싸다'는 편견을 깨다 : iMac(Retina 5K, 2017) 리뷰 [17] file

    애플 로고가 그려진 컴퓨터는 특유의 날렵한 디자인과 함께 비싸다라는 이미지로 많은 사람들에게 각인되어 있다. 그리고 실제로도 애플이 판매하는 컴퓨터의 가격은 결코 저렴하지 않다. 현재 애플이 판매하고 있는 컴퓨터 중 가장 저렴한 모델은 62만원부터 시작하는 맥 미니 모델이다. 하지만 이 맥 미니는 모니터가 포함...

    • iMola |
    • 17.07.17 |
    • 조회 2709 |
  • 스카이레이크-SP 제온 VS EPYC 벤치마크 (아난드텍 기사 번역) [CPU] 스카이레이크-SP 제온 VS EPYC 벤치마크 (아난드텍 기사 번역) [6] file

    오늘 아침은 서버 시장에 매우 흥미로운 전환점이 되었다. 스카이레이크-SP 아키텍처 기반의 새로운 제온 스케일러블 프로세서 (제온 SP) 제품군이 정식으로 발표된 것이다. 이들은 새로운 플랫폼과 옴니패스 인터커넥트 패브릭 등 풍성한 신기술로 무장하고 있다. 코어 수가 더욱 늘어난 것은 물론이다. 한편 지난 달에는 A...

    • Dr.Lee |
    • 17.07.12 |
    • 조회 2365 |
  • 아이맥 프로 옵션별 가격 예상 : 저평가된 맥의 가치 [etc] 아이맥 프로 옵션별 가격 예상 : 저평가된 맥의 가치 [5] file

    WWDC17에서 맛보기로 깜짝 공개된 아이맥 프로. 27인치 아이맥의 형상에 단지 스페이스 그레이를 입혔을 뿐인 이 녀석이 보일듯말듯한 실루엣으로 키노트에 등장하는 순간 가슴은 왜 그리 두근거리던지. 저 혼자만의 경험은 아니었을 거라 믿습니다. 아이맥 프로를 설명하는 많은 요소 중 제 가슴을 뛰게 한 건 무엇이었을까...

    • Dr.Lee |
    • 17.07.05 |
    • 조회 1958 |
  • 인텔, AMD, 엔비디아의 시행착오 : HPC와 AI라는 두 마리 토끼 [CPU] 인텔, AMD, 엔비디아의 시행착오 : HPC와 AI라는 두 마리 토끼 [5] file

    인텔이 제온 파이 제품군의 가격을 대폭 인하했습니다. 최상위 모델인 제온 파이 프로세서 및 코프로세서 7290의 가격이 6500달러에서 3200달러로, 옴니패스 패브릭을 제공하는 파생 모델 7290F은 6700달러에서 3300달러로 떨어지는 등 각각 반값으로 내려진 것이 특징입니다. 이외에도 3800달러이던 7230이 1900달러로, 250...

    • Dr.Lee |
    • 17.06.26 |
    • 조회 2808 |
  • 링 구조를 탈피한 스카이레이크-X/SP의 설계방식 [CPU] 링 구조를 탈피한 스카이레이크-X/SP의 설계방식 [11] file

    인텔은 2011년 출시한 샌디브릿지부터 (정확히는 웨스트미어-EX부터) 링 구조를 도입해 코어 수 증가에 따른 복잡도를 완화해온 바 있습니다. 이전까지의 크로스바 구조에서 최대 8코어에 그쳤던 것과 대조적으로 링 구조를 채택한 최초의 CPU 웨스트미어-EX는 10코어로 신고식을 치르기도 했죠. 그러나 링 구조에도 문제가 ...

    • Dr.Lee |
    • 17.06.16 |
    • 조회 3027 |
  • PCI-Express 대역폭과 그래픽카드 [VGA] PCI-Express 대역폭과 그래픽카드 [7] file

    개요 “내가 사용하는 메인보드는 PCI-Express 3.0을 지원하지 않는데 성능의 하락이 있는것이 아닐까?, 나는 멀티 그래픽카드 구성을 사용하는데 HEDT플랫폼을 사용하지 않으면 성능을 100%사용할 수 없는것이 아닐까?” 라는 의문을 가지고 계신분들이 계실겁니다. 결론부터 말하자면 “일정 속도 이상부터 차이가 없으며, 차...

    • Archost |
    • 17.06.16 |
    • 조회 2439 |
  • 인텔의 14-18코어 HEDT CPU는 현존하지 않는다? [CPU] 인텔의 14-18코어 HEDT CPU는 현존하지 않는다? [12] file

    유명한 하드웨어 리뷰 유튜브 채널 Linus Tech Tips / LTT에서 평소와 사뭇 다른 어조의 동영상 칼럼을 하나 게시했습니다. 제목은 "I have something to say - Core i9 & X299". 뭔가 간절히 하고 싶은 말이 있는 것 같죠. 여느 LTT의 리뷰가 그렇듯 영상 초반부터 3분 35초까지는 주인공 라이너스가 이번 컴퓨텍스 기간 중...

    • Dr.Lee |
    • 17.06.05 |
    • 조회 7105 |
  • 인텔, 최대 18코어 스카이레이크-X 전격 발표 [CPU] 인텔, 최대 18코어 스카이레이크-X 전격 발표 [4] file

    인텔은 오늘, 자사의 컨슈머 사업부이자 가장 큰 사업부인 클라이언트 컴퓨팅 그룹의 대표(GM) 그레고리 브라이언트 부사장의 입을 빌어 새로운 코어 X 시리즈 HEDT CPU를 발표했다. 알다시피 스카이레이크 아키텍처에 기반한 이 제품이 공개된 오늘은 5월 30일, 2017년 2분기이다. 2015년 3분기 스카이레이크가 출시된 이후...

    • Dr.Lee |
    • 17.05.31 |
    • 조회 3205 |
  • 반도체 수율에 관한 짧은 칼럼 : 에픽, 라이젠, 스윗 스팟 [CPU] 반도체 수율에 관한 짧은 칼럼 : 에픽, 라이젠, 스윗 스팟 [7] file

    글로벌파운드리의 14LPP 제조공정이 매우 안정화되어, Zen 8코어가 모두 살아 있는 라이젠과 라이젠 스레드리퍼, 에픽 모두의 원형인 제플린 다이의 수율이 80%에 이른다는 이 글을 보고 문득 궁금해져 계산해 보았다. 머피의 수율모델에 따르면 반도체의 수율은 아래의 2변수함수로 근사할 수 있다. 수율(yield rate)의 머...

    • Dr.Lee |
    • 17.05.26 |
    • 조회 2438 |