기타 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[CPU] 하스웰의 모든 것 : 실전편

IYD | 조회 91 | 추천 0 | 2014.11.03. 20:49 http://drmola.com/etc_column/40001

Author : Daeguen Lee

(Any action violating either CCL policy or copyright laws is strictly prohibited)

 

 

 

 

※ 재미없음 주의

 

지난 글에서는 아키텍처 레벨에서 하스웰이 어떤 변화를 가져왔는지 간단히 살펴보았습니다. 인텔로서는 코어 마이크로아키텍처 이래 처음으로 백엔드 대역폭을 넓히는 모험을 감행했다는 점과 그로 인해 x86 역사상 최대 규모의 연산유닛을 탑재하게 되었단 사실에 불구하고, 일상 사용환경에서의 성능이 크게 늘지 못했는데 이는 미시적으로는 하스웰에 새롭게 도입된 AVX2 명령어 세트 (그 중 핵심은 256bit 정수 벡터연산의 추가와 FMA의 도입입니다) 가 아직 최적화되지 못한 까닭이 크고, 보다 근본적으로는 과거 어느 순간 이래로 사용자들의 '컴퓨터 활용'을 주관하는 워크로드 자체의 진보가 정체되어 있기 때문입니다. 반대로 서버/워크스테이션 등에서 활용되는 '진보된' 어플리케이션 하에서 하스웰 기반 제품들은(특히, 제온은) 과거 여느 때와 마찬가지로 그 진가를 발휘하고 있어 데스크탑과 서버/워크스테이션 진영의 양극화는 나날이 가속화되고 있다고 할 수 있겠습니다.

 

이 글에서는, '실제 사용환경'을 특징별로 몇 가지 시나리오로 유형화해, 시나리오별로 각 세대별 인텔 프로세서 제품군이 보였던 성능 이행(pathway)을 이론적으로 재구성해 보려 합니다. 이를 통해 그간 인텔의 숨은 의도 내지는 매 세대 차기 프로세서를 설계함에 있어 그들이 어떤 전략과 비전으로 임했는지 간접적으로나마 알아 볼 수 있었으면 좋겠습니다.

 

우선, 인텔의 데스크탑 최상위 라인업에 해당하는 코어 i7 익스트림 제품군을 각 세대별로 나열해 보았습니다. 아키텍처 레벨의 진화는 고려하지 않고, 단순히 코어 갯수와 해당 갯수만큼의 코어가 활성화되었을 때의 터보부스트 클럭을 곱해 본 것입니다.

 

 

지금부터 풀어 갈 이야기는 프로세서 아키텍처에 대한 기본 지식이 없어도 유추할 수 있는 내용입니다. 보시다시피 가장 최근에 왕좌에 등극한 i7 5960X 익스트림 에디션은 다른 대조군들에 비해 상대적으로 낮은 클럭으로 작동하며, 따라서 6코어 이상이 사용되는 경우를 제외하고는 오히려 성능상 불리한 위치에 놓여 있는 것처럼 보입니다.

 

이야기를 좀 더 정교하게 꾸며 봅시다. 사실, 불과 8년 전만 하더라도 x86 데스크탑 시장에서는 '멀티코어 프로세서'라는 개념 자체가 없었습니다. 당시의 어플리케이션들을, 프로그래머들이 그것을 개발함에 있어 (최대) 몇 개의 스레드에서 돌아갈 것을 예상하고 최적화했는지를 기준 삼아 분류한다면 2스레드 이상으로 분류될 어플리케이션은 거의 없을 것입니다. 이 말은 곧 거의 모든 워크로드가 1코어 프로세서에 최적화되었다는 뜻이기도 합니다.

 

이 때와 비교해 시간은 많이 흘렀으되 오늘날에도 여전히 싱글스레드 성능은 일상적인 컴퓨팅 환경을 쾌적하게 하는 데 중요한 요소로 간주되고 있습니다. 만약, 위의 프로세서들이 모두 싱글스레드 구동에 최적화된 어플리케이션을 돌리는 데에만 이용된다면(물론 엄청난 재능의 낭비이긴 합니다만), 사용자가 마주하게 될 성능은 아래와 같이 보여질 것입니다.

 

 

앞서 제가 아키텍처 변화를 염두에 두지 않았기 때문에 오로지 작동 속도에 비례한 수치가 나왔습니다. 보시다시피 i7 5960X의 상대성능은 1세대 제품인 i7 975보다도 낮게 나타나고 있습니다만, 이것만으로 i7 5960X가 i7 975보다 나쁜 프로세서라고 판단할 사람은 아무도 없을 것입니다. 그렇다면, 그렇게 믿는 근거는 또 무엇이란 말입니까.

 

우리 모두는 i7 5960X가 8개 코어를 탑재하고 있음을 알고 있습니다. 사람들이 i7 5960X가 i7 975보다, 나아가 i7 3970X나 i7 4960X보다 더 좋은 프로세서라고 쉽게 믿는 데에는 직관적인 "코어 갯수" 라는 정보가 한몫합니다. 요컨대 현실 속에서 프로세서의 최대 코어 갯수가 성능으로 고스란히 환산될 경우의 수가 어떤지와는 별개로, 프로세서가 최대로 처리할 수 있는 코어(스레드) 갯수가 사람들이 '좋은 프로세서'를 판별하는 중요한 척도로 쓰이고 있다는 점이죠.

 

사실 이와 같은 인식은 아주 현실과 동떨어진 것만도 아닙니다. 지난 글에서 내내 강조했듯(그리고 이 글 첫 문단에서, 지난 글을 요약하며 다시 한번 강조했듯) 워크로드의 '양극화'는 나날이 가속되고 있으며 양쪽 극단이 대표하는 것은 적은 코어 갯수로 처리 가능한 싱글스레드 최적화 어플리케이션이기도 하지만 다른 한편은 최대 코어 갯수에 영향을 받는 고도로 병렬적인 어플리케이션이기도 하기 때문입니다. 이를 간단히 그림으로 나타내 보면 아래와 같을 것입니다.

 

 

각 프로세서의 싱글코어 상대성능 및 최대 코어 상대성능을 나타내 보면 아래 표와 같습니다. (최대 코어 상대성능 수치값 중 파란색은 i7 975 싱글코어를 기준으로 한 것이고, 빨간색은 동 프로세서 최대 코어(=4코어)를 기준으로 한 것입니다.)

 

 

즉, 방금 가정해 본 '양극화 시나리오' 하에서 각 프로세서의 실 성능은 위 표에 나타난 두 가지 수치의 평균값과 비슷할 것입니다. (어디까지나 "양극화"를 가정한 만큼, 각 극단의 구체적인 비율이 어떻게 되는지는 잠시 접어 두고 편의상 1:1로 가정합니다.)

 

여기서 잠깐. 우선 '최초의 듀얼코어 프로세서'가 세상에 등장한 날로부터 8년쯤이 지난 2014년에 우리가 살고 있음을 새삼 떠올려 봅시다. 사실, 8년이란 시간은 꽤 긴 시간입니다. 오늘날 어떤 어플리케이션이 많은 코어 갯수를 잘 활용하지 못한다고 불평을 들을 때에도 막상 2코어까지는 잘 활용하는 경우가 많습니다. 다시 말해 사람들의 일반적인 인식과는 달리, 실제 워크로드의 구성 비율은 '극단적으로' 양극화되지는 않았으리라는 추측도 가능합니다. 싱글스레드, 듀얼스레드, 최대 스레드의 3극을 갖는 모양이라면 어떨까요.

 

 

그렇다면 싱글코어 성능과 최대 코어 성능만으로 포트폴리오를 구성해서는 안 되겠죠. 일단 듀얼코어 상대성능을 나타내 보면 아래 표와 같겠습니다. (파란색 수치는 앞서 보여드린 표와 같고, 빨간색은 i7 975 듀얼코어를 기준으로 한 것입니다.)

 

 

만약 이 표가 작성된 시점이 듀얼코어 프로세서가 막 등장하기 시작했던 2006~2007년 쯤이었다면, 위 표에 나타난 싱글코어 / 듀얼코어 상대성능의 반영비율은 8:2 정도가 되지 않았을까요. 반면 듀얼코어용 어플리케이션이 많이 등장한 시점에는 5:5, 혹은 그 이상으로 듀얼코어 상대성능의 비중이 커질 수도 있을 것입니다.

 

비슷한 방식으로 멀티코어화에 대응해 봅시다. 우선 1코어~최대 코어까지 모두 같은 비율로 성능 포트폴리오상에 반영된다고 가정해 보겠습니다.

 

 

참고로 포트폴리오 계산법은 (표에 구해진) 상대성능값의 역수를 모두 더해 그 합의 역수를 구하는 방식을 취했습니다. 즉 일정한 분량의 과제를 1코어부터 최대 코어까지 활성화시켜 가며 처리할 때 드는 시간을 구해, 총 소요시간의 역수를 상대성능으로 본 것입니다.

 

 

일단, i7 5960X는 어떤 대조군보다도 많은 코어 갯수로 무장했지만 1~6코어까지의 작동속도가 다른 대조군들보다 낮은 까닭에 모든 코어갯수별로 같은 비율의 워크로드가 적용된 포트폴리오 하에서는 오히려 i7 3970X나 i7 4960X보다 낮은 평균 성능을 보이고 있습니다. 그러나 워크로드의 양극화(내지는 삼극화) 추세에 비춰 볼 때, 위의 시나리오가 현실을 잘 대변한다고 보기는 어렵습니다. 앞서 거론한 극단적인 양극화 시나리오를 포함해, 몇 가지 다른 시나리오를 상상해 봅시다.

 

1. 싱글/최대 코어 양극화

2. 싱글/듀얼/최대 코어 3극화

3. 싱글/듀얼/쿼드/최대 코어 4극화

 

마지막 3번 시나리오는 '쿼드코어'를 고유한 영역을 갖는 하나의 극으로 격상시킨 것인데, 쿼드코어 자체도 시장에 등장해 주류가 된 지 시간이 꽤 흘렀음을 감안하면 여기에 최적화된 어플리케이션이 일정한 지분을 차지하는 것이 영 이상하지만은 않으리란 생각에서 출발한 것입니다. 구체적으로 4코어까지는 지원하되 그 이상의 코어를 제대로 활용하지 못하는 어플리케이션이 여기 속하는데, 마침 오늘날의 3D게임 중 상당수가 이러한 모습을 보이고 있기도 합니다. 어쨌든 하나의 시나리오로써 분석해보는 의미가 있을 듯 하여 넣어 보았습니다.

 

 

각 시나리오별로 성능을 계산해 보면 아래와 같습니다.

 

 

▲ 양극화 시나리오

 

 

▲ 3극화 시나리오

 

 

▲ 4극화 시나리오

 

각 시나리오별 분석 결과를 토대로 보면, 의외로 i7 5960X의 약세가 두드러진다고 할 수 있습니다. 물론 인텔이 출시한 역대 데스크탑 프로세서 중 가장 많은 코어를 탑재한 만큼 많은 코어를 모두 굴릴 때에는 다른 대조군이 따라잡을 수 없는 성능임이 자명하나, 중요한 것은 i7 5960X가 좋은 결과를 보이는 포트폴리오가 한정적이라는 점에 있습니다. 특히 많은 어플리케이션들이 최적화되어 있을 듀얼코어 및 쿼드코어 어플리케이션의 반영 비중이 높아질수록, 직전 세대의 i7 4960X에 비해 비교열세를 보이는 점이 의미심장합니다.

 

실상 i7 4960X마저도 i7 5960X가 등장하기 전까지는 정확히 i7 5960X와 같은 장점(=많은 코어)과 약점(=퍼포먼스급 대비 낮은 클럭)을 가지고 있던 제품이었으며, 특히 그 약점을 부각시키던 비교대상은 다름아닌 i7 4790K/4770K와 같은 퍼포먼스급 쿼드코어 제품이기 때문입니다.

 

결국 우리 모두가 이미 알고 있던 평범한 결론 ("빡세게 멀티코어를 쓸 게 아니면 i7 4790K가 낫다.") 에 도달합니다. 그나마 이 글의 성과라면 막연히 '일상적인 사용에는 4790K가 좋겠지' 생각되어지던 것을 보다 적나라하게 드러내 준 것이 아닐까 싶습니다. 저 역시 위의 표들을 작성하는 동안 i7 5960X가 저렇게나 약세를 보일 수도 있다는 사실에 적잖이 충격을 받았단 사실을 밝힙니다. (작업 내내 몇번씩, 혹시라도 잘못 계산한 게 아닌가 고치고 또 고치고... 의 연속이었습니다.)

 

물론, 지금까지 살펴본 것은 단순히 코어 갯수와 작동 속도의 곱일 뿐이며 각 세대간 아키텍처 변화는 전혀 고려하지 않았음을 글 서두에 미리 밝혀 둔 바 있습니다. 먼젓번 글에서 아주 러프하게 명령어 세트 변화에 따른 부동소수점 성능 변화를 추적해 보았는데, 마지막으로 이들을 적용해 i7 5960X의 명예를 조금이나마 회복(?)시켜 주면서 글을 맺으려 합니다.

 

AVX를 지원하는 CPU의 경우 전체 워크로드 중 AVX를 지원하는 코드의 비중이 늘어남에 따라 성능이 좋아질 것은 당연합니다. 문제는 그 '비율'에 있는데, 먼젓번 글에서는 명령어 세트가 도입된 초창기의 지원 어플리케이션 비율을 20%로, 시간이 흘러 어느 정도 저변이 확장되었을 때를 50%로 가정해 시뮬레이션을 한 바 있습니다. 같은 내용을 한번 시각화해 보았습니다.

 

 

 

위에서부터 차례로 20% / 50% AVX 코드가 적용된 경우입니다.

마찬가지 방식으로, 하스웰 아키텍처부터 인텔 프로세서에 적용된 FMA의 이론적인 영향력 또한 계산해 볼 수 있겠습니다.

 

 

 

지금까지 계산한 결과 중 AVX / FMA 각각에 대해 20%씩 최적화된 시나리오가 오늘날 AVX / FMA의 현황을 대변한다고 가정하고, 이를 바탕으로 i7 익스트림들의 성능을 계산해 보면 아래와 같습니다.

 

 

i7 5960X에 가장 불리한 시나리오 중 하나였던, 싱글코어부터 최대 코어까지 각각 최적화된 워크로드가 모두 같은 비율로 적용된 포트폴리오에서의 결과입니다. 보시다시피 대조군 중 가장 높은 상대성능을 보이게 되어 간신히 체면치레는 한 듯 합니다. 물론 그렇더라도 적은 코어갯수에 최적화된 어플리케이션이 포트폴리오에 포함된 한, i7 5960X를 제대로 써먹지 못하는 사실 자체는 변함이 없습니다.

 

여태껏 하스웰 이야기만 했으니 잠시 이야기를 돌려 보겠습니다. 사실 제게는 하스웰이라는 한 아키텍처, 한 세대에 대한 궁금증 외에도 다른 많은 의문이 있었습니다. 그 중 어떤 것은 심지어 5년이 넘는 시간 동안 여지껏 미스테리로 남아 있기도 했는데, 바로 블룸필드와 린필드 사이의 관계 설정이 그것입니다. 구체적으로는 500~600달러라는 공통된 가격대에 놓여 있던 i7 940과 i7 870의 바톤 터치가 논리적으로 설명되지 않는 모순처럼 보였습니다.

 

 

(그림이 축소되어 있으니 꼭 크게 확대해 보시기 바랍니다. 그림 속 빨간 상자로 표시한 부분입니다.)

 

빨간 상자 안의 부분만 제외하고는 모든 분야에서 전혀 모순이 없습니다. 시간이 흐를수록, 그리고 라인업이 아래에서 위로 올라갈수록 더 고성능의 신제품으로 치환되는 자연스러운 흐름을 볼 수 있으나 유독 블룸필드가 린필드로 이행하는 저 빨간 상자 안의 시기만큼은 자연스럽게 보이지 않았다는 이야기입니다. 굳이 표현하자면 '역변' 이란 느낌이랄까요.

 

하지만 이 글을 작성하는 도중, 같은 방법으로 블룸필드와 린필드를 링 위에 올려 보면 실마리를 찾을 수 있지 않을까 하는 생각이 들었습니다. 지금부터 그 실험 결과를 소개해 드리려 합니다.

 

우선, 그 전에 네할렘(웨스트미어) - 샌디브릿지(아이비브릿지) - 하스웰 사이의 가장 거시적이고 큰 차이부터 짚고 넘어갑시다. 바로 언코어의 작동 속도입니다.

 

 

네할렘 아키텍처를 설계하며, 인텔은 그때까지 CPU 외부에 있던 메모리컨트롤러를 CPU 다이 안으로 통합하는 한편 L3캐시와 함께 '언코어'라는 이름으로 묶어 별도의 클럭 도메인을 할당합니다. (작동 속도를 달리한 정확한 이유는 모르겠지만 수율이나 소비전력과 관계가 있지 않을까 싶습니다.) 이 네할렘 아키텍처를 사용한 최초의 CPU인 블룸필드는 i7 익스트림과 비 익스트림 라인업 모두에 적용되었는데, 익스트림과 비 익스트림을 구분하는 중요한 특징 중 하나가 바로 언코어의 작동속도 차이였습니다.

 

몇 달의 시간이 지나, 블룸필드의 3채널 DDR3 메모리 인터페이스를 2채널로 줄인 대신, 그때까지도 메인보드상에 잔존하던 PCI-Express 라인 컨트롤러를 재차 CPU 다이 안으로 통합한 '2세대 네할렘', 린필드가 세상 빛을 보게 됩니다. 외견상 메모리 인터페이스가 3분의 2로 감소해 블룸필드의 마이너 버전처럼 여겨졌지만 PCIe 컨트롤러까지 내장해 외려 다이 사이즈는 블룸필드보다 더 커졌습니다. 그리고 가장 중요한 가격 설정에 있어서, 린필드를 채용한 새로운 i7 라인업인 i7 870은 블룸필드 기반의 i7 940과 완전히 같은 가격이 매겨지며 '대체재' 임을 확실히 했습니다. 여기서 사용자들의 혼란이 시작됩니다.

 

물론 린필드를 지원하는 P55 메인보드가 X58 보드보다 저렴하고, DDR3 메모리도 한 개 덜 끼워도 되니 거기서 값 차이가 벌어진다고는 하지만 인텔이 여지껏 자사의 CPU 가격을 매김에 있어 CPU 외적인 요소를 배려(?)한 적은 단 한 번도 없었단 점에서 설득력이 떨어진다고 할 수 있습니다. 결국 인텔은 i7 870을 최소한 i7 940 이상으로 판단했거나, 혹은 둘이 공존하며 서로 다른 영역에서 장점을 발휘할 것을 기대했다고밖에 볼 수 없습니다. 그리고 여기, 인텔의 판단 과정을 추적해봄직한 실마리가 하나 있습니다. 우선 당시 i7의 주요 라인업을 한번 살펴봅시다.

 

 

우선, 메모리는 잠시 후에 논하기로 하고 (물론 블룸필드와 린필드를 논함에 있어 메모리의 차이는 대단히 중요합니다! 뒤에서 논한다는 것이지, 논하지 않겠다는 얘기가 아닙니다) CPU 코어 클럭을 주의깊게 살펴보면 한 가지 경향성이 관찰됩니다. 4코어 -> 3코어 -> 2코어 -> 1코어로 이행하는 과정에서 블룸필드보다 린필드 쪽이 더 높은 비율로 클럭을 향상시키고 있다는 점입니다. 이를 앞서 살펴본 '양극화 시나리오', '3극화 시나리오' 등에 대입해 본다면 어떠할까요. 굳이 계산을 해 보거나 그래프를 그려 보지 않더라도, 1~2코어 성능이 중시되는 포트폴리오에서 린필드가 비교우위를 갖게 될 것이 자명합니다. 다시 말해 린필드는 블룸필드보다 더 '원시적인 워크로드'에 대응하기 위해 만들어진 것이라 할 수 있겠습니다.

 

이를 뒤집어 생각하면, 블룸필드는 비록 출시일자는 린필드보다 먼저이지만 보다 미래지향적인 워크로드에 대응하기 위한 설계였다고 평가할 수도 있겠고, 또 달리 보면 '지나치게 미래지향적이었기에' 전통적인 어플리케이션 성능을 더욱 높일 요량으로 린필드를 투입했다고 볼 수 있겠습니다. 사실 i7 870과 i7 940의 스펙상의 기본 클럭은 모두 2.93GHz로 동일하나, 린필드의 터보부스트가 훨씬 공격적으로 발현되는 덕분에 다양한 레벨의 워크로드에 능숙하게 대응할 수 있는 편입니다.

 

인텔이 기대한 둘의 역할론이 서로 분리되어 있음을 시사하는 것은 이뿐만이 아닙니다. 또 다른 증거는 언코어와 메모리입니다.

 

앞서 네할렘의 코어와 언코어가 비동기화되어 있음은 이미 언급했는데, 사실 '비동기'라는 것은 단순히 작동 속도가 다르다는 것만을 의미하지 않습니다. 예를 들어 i7 940의 기본클럭이 2.93GHz인데, 언코어를 이에 맞춰 2.93GHz로 오버클럭한다고 하여 둘이 동기화되는 것은 아니라는 의미입니다. 정확히 두 클럭 도메인(=코어, 언코어)을 오가는 메커니즘을 알 수는 없으나, 편의상 둘의 공약수인 BCLK를 중간에 단 한 사이클 경유한다고 가정해 보도록 하겠습니다. 이 경우 i7 940의 레이턴시는 다음과 같이 구해집니다.

 

- i7 940의 레이턴시 : (코어 내에서 체류한 시간) + (BCLK 경유 1사이클) + (언코어 내에서 체류한 시간)

 

마찬가지 공식으로 i7 870, i7 965 XE 등 다른 프로세서의 레이턴시 역시 구해볼 수 있습니다. 편의상 코어 내 / 언코어 내에서 체류하는 시간을 각각 50사이클씩, 다시 말해 각 도메인의 클럭 주기의 50배씩으로 잡고 한번 계산해 보겠습니다.

 

 

보시다시피 i7 870은 높아진 언코어 속도에 기반해 i7 940보다 더 낮은 레이턴시를 보입니다. 물론 레이턴시가 메모리 접근 속도를 결정짓는 유일한 변수인 것은 아닙니다. 또 다른 중요한 변수는 메모리 대역폭입니다. 공식적으로, 각 프로세서가 지원하는 메모리에 따른 대역폭은 아래 표와 같습니다.

 

 

정리하자면, 블룸필드는 상대적으로 높은 레이턴시를 가지는 반면 대역폭이 높고, 린필드는 반대로 대역폭이 낮은 대신 레이턴시 역시 낮다는 장점이 있습니다. 어느 한 쪽이 일방적으로 우세한 결론이 아니란 점에서 인텔이 블룸필드와 린필드의 타겟 시장 자체를 달리 설정했다는 추측에 무게가 실리는데, 직관적으로 생각해볼 때 블룸필드/린필드는 각각 다음과 같은 워크로드 하에서 우위를 보입니다.

 

- 블룸필드 : 메모리에 자주 접근하지 않고, 한번에 큰 데이터 덩어리를 가져오는 경우

- 린필드 : 메모리에 자주 접근하며, 한번에 작은 데이터 덩어리를 가져오는 경우

 

해당 모델에 관해서는, 예전에 제가 작성했던 <현대 CPU의 구조 : 메모리 계층 구조와 성능> 글에 정확히 같은 내용을 서술한 대목이 있으니 참고하시면 될 것 같습니다. 여하튼 그 글에서도 레이턴시와 대역폭을 서로 주거니받거니 한 두 모델의 성능을 시뮬레이션한 그래프가 있어 발췌해 보았습니다. 아래의 그래프입니다.

 

 

레이턴시와 대역폭이 둘 다 낮은 아래 모델은 500MB 스트림까지는 위의 모델보다 좋은 성능을 보이지만, 스트림 크기가 1GB를 넘어가는 순간 성능관계가 역전됩니다. 이 모델의 경우에 대입해 보았을 때, 블룸필드는 상대적으로 큰 데이터가 오고가는 환경에서 더 좋은 성능을 보이리라 짐작할 수 있습니다. 그렇지 않은 환경일 경우, 더 높은 클럭까지 등에 업은 린필드가 단연 우세합니다.

 

즉, 이 기나긴 삼천포의 결말은 아래의 한 문장으로 요약됩니다.

 

"린필드는 역변이 아니었다."

 

...아까부터 왜 뻔한 말만 반복하냐 물으신다면(ㅠㅠ), 아무리 뻔한 결론일지라도 단순히 '그런가보다...' 하고 받아들이는 것과, 직접 가능한 계량적인 방법들을 동원해 분석해 보는 것 차이엔 큰 간극이 있다는 점을 지적하고자 합니다. 솔직히, 재밌지 않았어요???

(......아... 글쓴이 누군지 몰라도 참 염치없다... ㅡㅡ;;ㅋㅋㅋㅋㅋㅋ)

 

내친 김에 샌디브릿지와 하스웰의 레이턴시까지 한번 시뮬레이션해 보도록 하겠습니다.

 

 

샌디브릿지는 언코어와 코어를 동기화시켜 하나의 클럭 도메인 내에서 작동합니다. 즉 '도메인과 도메인 사이'를 옮겨가는 것을 가정할 필요가 없죠. 반면 하스웰은, 비록 언코어가 코어(의 기본 작동속도)와 동일한 속도로 작동하기는 하나 분명히 비동기화되어 있습니다. 그 이유에 관해서는 이전 글인 '아키텍처편'에 언급한 바 있으니 여기서는 따로 언급하지 않겠습니다. 어쨌든 코어와 언코어가 도로 비동기화된 탓에 하스웰의 레이턴시는 (실제로 측정해 보면 저 정도로 차이가 나지는 않습니다만) 샌디브릿지/아이비브릿지보다 늘어지는 편입니다.

 

그럼... 이것으로 길고 재미없던 '실전편'을 마치겠습니다.

 

다음 편이자 마지막 편인 제3편의 부제는 '제온편'으로 구상해 두었는데, 아이비브릿지-E / 하스웰-E의 언코어는 데스크탑용 아이비브릿지 / 하스웰과 판이하게 다른 구성을 취하기 때문에 이에 대해 언급할 부분이 많습니다. 이야기를 어떻게 풀어 가든 이번 편보다는 재미있지 않을까 조심스레 추측해 보는 바입니다. (아니 글을 내가 쓰면서 무슨 추측을...?!?!?! ㅋㅋㅋㅋ)

 

다시 한번, 재미없고 긴 글 읽어 주셔서 감사합니다.

 

모두 좋은 하루 되세요 :-)

 

//

 

아래 위젯은 일종의 크라우드펀딩 플랫폼인 티스토리 '밀어주기' 서비스 위젯입니다. 100원부터 3000원까지의 범위 내에서 소액기부가 가능하며, 이런 형태의 펀딩이 성공적일 경우 '이해관계자로부터 독립된 벤치마크' 의 지속 가능한 원동력이 되리라 생각합니다. 물론 후원 없이 제 글을 읽어 주시는 것만으로도 저는 독자 여러분께 감사합니다 :)

 

 

 

 

IYD's Signature

적용중인 트로피가 없습니다.

DR.MOLA

레벨 Lv. 2 (31%)
포인트 501 p
출석 11 일 (개근 0 일)

IYD'님의

  1. 12_polar_01.png (File Size:18.1KB/Download:0)
  2. improve_2.png (File Size:55.7KB/Download:0)
  3. improve_1.png (File Size:54.4KB/Download:1)
  4. 11_main_02.png (File Size:3.8KB/Download:0)
  5. uncore_05.png (File Size:4.1KB/Download:2)
  6. improve_3.png (File Size:54.0KB/Download:1)
  7. 15_main_04.png (File Size:5.7KB/Download:1)
  8. 17_main_05.png (File Size:9.1KB/Download:2)
  9. uncore_02.png (File Size:4.8KB/Download:0)
  10. 20_main_07.png (File Size:8.3KB/Download:1)
  11. 18_polar_03.png (File Size:31.3KB/Download:1)
  12. 16_polar_00.png (File Size:10.9KB/Download:0)
  13. uncore_04_edit.png (File Size:4.5KB/Download:0)
  14. 14_polar_02.png (File Size:24.6KB/Download:1)
  15. improve_4.png (File Size:54.9KB/Download:0)
  16. 21_main_08.png (File Size:9.2KB/Download:0)
  17. improve_result.png (File Size:13.3KB/Download:2)
  18. 10_main_01.png (File Size:9.8KB/Download:1)
  19. uncore.png (File Size:11.4KB/Download:1)
  20. 19_main_06.png (File Size:6.4KB/Download:3)
  21. roadmap.png (File Size:133.5KB/Download:0)
  22. latency_twodiff.jpg (File Size:50.6KB/Download:1)
  23. 0_intro.jpg (File Size:185.7KB/Download:1)
  24. uncore_03_edit.png (File Size:7.5KB/Download:7)
  25. 13_main_03.png (File Size:6.1KB/Download:0)
facebook twitter google plus pinterest kakao story band
Profile image T-Z 2014.11.04 01:09
무플이군요!
선댓글 후 읽겠습니다 ^.^!
수정 삭제
Profile image IYD 2014.11.04 01:45
첫 댓글...^^ 감사합니다~!
Profile image 김부자 2014.11.04 21:52
군대에서 보다가 이제 사회나와서 보고있네요 좋은글 감사합니다 ^^
수정 삭제
Profile image IYD 2014.11.07 20:58
와~ 꾸준히 제 글을 봐 주셔서 감사합니다. 늦었지만 전역 축하드리구요...^^
Profile image 우왕 2014.11.05 04:55
우왕.. 잘 보고있습니다. 좋은글 써주셔서 감사합니다.
다음편 꼭 기대하고 있겠습니다!! ㅎㅎㅎ
수정 삭제
Profile image IYD 2014.11.07 20:59
감사합니다. 저도 다음 편을 기다리고 있는 중입니다. (?!) ㅋㅋㅋㅋ
Profile image 롬메 2014.11.22 14:55
다음편~ㅋ기다려지네요
수정 삭제
Profile image IYD 2014.11.23 01:20
아이고;;; 너무 늦어지면 안 될텐데 ㅋㅋㅋ
  • 가격인하로 재조명된 레이븐 릿지 : 기업용 PC, 지금은 맞고 그때는 틀리다 [CPU] 가격인하로 재조명된 레이븐 릿지 : 기업용 PC, 지금은 맞고 그때는 틀리다 [3] file

    Zen 아키텍처가 등장한지 11개월만인 지난 2월, AMD는 드디어 APU 시장에 라이젠 브랜드를 투입하기 시작합니다. Zen과 Vega가 결합된 레이븐 릿지가 바로 그것이었습니다. 뛰어난 CPU / GPU 성능 밸런스와 가성비로 주목받으며 닥터몰라의 리뷰(링크)에서도 '드디어 AMD가 진검승부를 시작했다' 고 총평했었는데요. 그랬던 ...

  • 틱틱, 톡, 틱틱틱, 톡 : 느려지는 인텔 시계, 구원투수로 투입되는 커피레이크 [CPU] 틱틱, 톡, 틱틱틱, 톡 : 느려지는 인텔 시계, 구원투수로 투입되는 커피레이크 [7] file

    빅 뉴스. 인텔의 2016-2018년 모바일 CPU 로드맵이 유출되었다. 그동안 베일에 싸여 있던 10nm 캐논레이크Cannonlake의 존재가 공식화된 한편 캐논레이크의 수율이 안정화될 때까지 임시로 투입할, 케이비레이크Kaby Lake의 2차 최적화 버전격인 커피레이크Coffee Lake의 존재가 새롭게 드러났다. 커피레이크는 케이비레이크...

    • Dr.Lee |
    • 16.09.26 |
    • 조회 수 2349 |
  • i7 6950X의 가격 정책에 관한 소고 [CPU] i7 6950X의 가격 정책에 관한 소고 [4] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 지난주 공개된 인텔의 새 익스트림 에디션, 코어 i7 6950X는 여러 면에서 그동안의 궤를 벗어나 있는 제품이다. 코어 갯수가 늘었다거나 그에 따라 '전례없는' 성능을 가졌단 얘긴 결코 아...

    • IYD |
    • 16.06.07 |
    • 조회 수 339 |
  • 인사이드 메모리 : 램타이밍, 클럭, DDR 규격별 분석 [CPU] 인사이드 메모리 : 램타이밍, 클럭, DDR 규격별 분석 [15] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) (image source : Micron Crucial) 오늘날 컴퓨터 하드웨어의 발전속도가 정체되었음을 시사하는 지표는 한두 가지가 아닙니다. 익숙한 인텔 CPU는 벌써 몇 세대째 한자릿수의 성능향상률을...

    • IYD |
    • 15.10.06 |
    • 조회 수 2346 |
  • 제온의 모든 것 : (1) 이론편 [CPU] 제온의 모든 것 : (1) 이론편 [16] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 1. A Brief History of Xeon 안녕하세요 독자 여러분. 오늘은 벌써 반년 전 약속한 + 예고편을 올린지도 벌써 한달이 되어가는 제온 리뷰를 보여드릴 차례입니다. 오랜 기다림 끝에 내놓은...

    • IYD |
    • 15.06.01 |
    • 조회 수 172 |
  • AMD Zen 미리보기 : 현대 CPU의 구조 2015 [CPU] AMD Zen 미리보기 : 현대 CPU의 구조 2015 [20] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분. 오랜만에 글다운 새 글을 들고 여러분을 찾아뵙게 되어 기쁜 글쓴이입니다. 이 글은 며칠 전 있었던 AMD의 주주총회와 거기에 뒤따라 개최된 Financial Analyst D...

    • IYD |
    • 15.05.08 |
    • 조회 수 269 |
  • L3 캐시가 게임성능에 미치는 영향 [CPU] L3 캐시가 게임성능에 미치는 영향 [4] file

    Author : Daeguen Lee (Any action violating either CCL policy or copyright laws is strictly prohibited) 그제 BEST CPU FOR GAMERS 12월호를 등록하며 드린 약속을 지키게 되었습니다. 공언했던 새 글을 기한 내에 소개하는 게 참 오랜만입니다. 우선 이 글의 기원에 관해서는 BEST CPU FOR GAMERS 12월호 마지막 문단...

    • IYD |
    • 14.12.07 |
    • 조회 수 405 |
  • 하스웰의 모든 것 : 실전편 [CPU] 하스웰의 모든 것 : 실전편 [8] file

    Author : Daeguen Lee (Any action violating either CCL policy or copyright laws is strictly prohibited) ※ 재미없음 주의 지난 글에서는 아키텍처 레벨에서 하스웰이 어떤 변화를 가져왔는지 간단히 살펴보았습니다. 인텔로서는 코어 마이크로아키텍처 이래 처음으로 백엔드 대역폭을 넓히는 모험을 감행했다는 점과 그...

    • IYD |
    • 14.11.03 |
    • 조회 수 91 |
  • 하스웰의 모든 것 : 아키텍처편 [CPU] 하스웰의 모든 것 : 아키텍처편 [10] file

    Author : Daeguen Lee (Any action violating either CCL policy or copyright laws is strictly prohibited) 오랜만에 새 글을 올립니다. 이 블로그의 시작이 된 글이기도 하고, 엄청난 손가락노동을 기꺼이 감수한 한 독자분 덕분에 국방망(군용 인트라넷) 내에까지 전파되어 여러 군인 독자들과 저를 연결해 준 글이기도 ...

    • IYD |
    • 14.10.31 |
    • 조회 수 191 |
  • [CPU] 마침내 게이머가 이겼다 : 하스웰-E를 생각하며

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 오늘 새벽 공식 출시된 하스웰-E의 각 라인업을 전세대 카운터파트인 아이비브릿지-E와 SKU 대 SKU로 비교했을 때, 인텔 코어 i7 (이하 모델넘버 앞 "인텔 코어 i7" 부분 통째로 생략. 이 ...

    • IYD |
    • 14.08.30 |
    • 조회 수 70 |
  • A short essay on "Kaveri" [CPU] A short essay on "Kaveri" [13] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 사실 "Future is fusion" 이라는 AMD의 슬로건에서부터 예견되었던 것이기도 하지만 CPU+GPU 이종교배의 진정한 힘은 다이사이즈 축소를 통한 원가절감 따위를 훨씬 상회하는 것이리라. Ma...

    • IYD |
    • 13.11.27 |
    • 조회 수 52 |
  • [CPU] 잊혀진 아키텍처들 (예고편) [22] secret

    비밀글입니다.

    • IYD |
    • 11.10.17 |
    • 조회 수 5 |
  • 파이프라이닝의 이해 [CPU] 파이프라이닝의 이해 [22] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) (그림 출처: 위키피디아)명령어가 수행되는 과정을 아래와 같다고 칩시다.인출 - 디코드 - 실행 - 쓰기(완료)이 네가지 과정은 각각 해당 과정의 기능에 맞는 하드웨어에 의해 수행되고이...

    • IYD |
    • 11.03.02 |
    • 조회 수 332 |
  • 멀티스레딩 기술의 이해 [CPU] 멀티스레딩 기술의 이해 [53] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 오늘은 현대 CPU의 성능향상 기법 중 하나인 SMT에 대해 간단히 알아 보겠습니다.SMT는 Simutaneous Multi-threading의 약자로, 동시에 여러 스레드를 처리하는 기법을 통칭합니다.CPU의 ...

    • IYD |
    • 11.02.05 |
    • 조회 수 330 |
  • 현대 CPU의 구조 : 프론트엔드 편 [CPU] 현대 CPU의 구조 : 프론트엔드 편 [36] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) Tweet 얼마 전 백엔드 구조를 중심으로 현대의 CPU에 대해 알아 보았습니다.(현대 CPU의 구조 강좌 <백엔드 편> ☞ 여기)이번 강좌에서는 그때 설명하지 않고 남겨둔 프론트엔드에 대해 간...

    • IYD |
    • 11.01.22 |
    • 조회 수 337 |
  • 현대 CPU의 구조 : 백엔드 편 [CPU] 현대 CPU의 구조 : 백엔드 편 [56] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) Tweet 오늘날 컴퓨터는 다양한 형태와 기능을 갖추고 인간의 생활을 도와주고 있습니다.재미있는 점은 컴퓨터들이 쓰이는 용도나 형태가 천차만별임에도 그 기본 원리는 거의 같다는 점입...

    • IYD |
    • 11.01.22 |
    • 조회 수 495 |
  • 오버클럭의 공학적 배경 [CPU] 오버클럭의 공학적 배경 [26] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) Tweet 흔히, "오버클럭을 하면 소비전력이 늘어나기 때문에 전압을 더 줘야 한다" 고 생각합니다.하지만 과연 이게 맞는 명제일까요?만약 위의 명제가 참이라면 오버클럭시 CPU의 요구전압...

    • IYD |
    • 11.01.14 |
    • 조회 수 159 |
  • 현대 CPU의 구조 : 메모리 계층 구조와 성능 [CPU] 현대 CPU의 구조 : 메모리 계층 구조와 성능 [9] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 1. Introduction앞서 작성했던 두 '현대 CPU의 구조' 강좌의 속편입니다. 무려 7개월 만의^^;- 현대 CPU의 구조 -백엔드 편-: http://iyd.kr/57- 현대 CPU의 구조 -프론트엔드 편-: http:/...

    • IYD |
    • 10.11.24 |
    • 조회 수 355 |
  • [CPU] Tightening tRFC : DRAM Refresh Cycle secret

    비밀글입니다.

    • IYD |
    • 10.10.27 |
    • 조회 수 1 |
  • [CPU] Memory Overclocking via D.O.C.P. [7] secret

    비밀글입니다.

    • IYD |
    • 10.09.09 |
    • 조회 수 3 |