하드웨어 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[CPU] [카드뉴스] CPU WARS : EPISODE I - THE PHANTOM MENACE

Dr.Lee | 조회 4070 | 추천 11 | 2017.02.11. 17:55 http://drmola.com/pc_column/132180

※ 닥터몰라 페이스북 페이지에 게시된 원본은 여기서 보실 수 있습니다!

 

카드뉴스-CPU WARS 04.001.jpeg

 

안녕하세요 독자 여러분. 이번 주엔 유독 자주 찾아뵙는 것 같지만 기분 탓이겠죠. 에헴.

전편으로부터 10년을 거슬러 올라간 이번 편의 제목은 "보이지 않는 위협".

인텔의 탕아, <넷버스트> 아키텍처의 특징을 조목조목 짚어 보는 시간을 갖도록 하겠습니다.

 

이전 편들(이지만 시간상으로는 뒤의 이야기들)인 1편, 2편, 3편을 미리 보시고 오시면 좋습니다 :)

 

카드뉴스-CPU WARS 04.002.jpeg

 

별로 영양가 없는 지식을 하나 소개하자면,

최초의 CPU는 8086보다도 오래된 1971년의 인텔 <4004>를 꼽을 수 있겠는데요.

4004의 클럭은 메가헤르츠 단위조차 아니었던 740KHz.

 

그리고 현존하는 최고 클럭의 x86 CPU 역시도 위에 언급된 코어 i7-7700K가 아닙니다.

아시겠지만, AMD의 FX-9590은 최대 5GHz의 터보 클럭을 갖고 있죠.

 

처음엔 이 둘로 카드뉴스 첫 장을 작성했다가, 아무래도 운율을 맞추는 등의 문제로 8086과 i7-7700K로 바꿨다는 사실.

(그리고 FX의 경우, 이후 에피소드에서 불도저 아키텍처를 소개하기 전 등장시키는 것이 좀 애매해 보이기도 했습니다.)

 

카드뉴스-CPU WARS 04.003.jpeg

 

카드뉴스-CPU WARS 04.004.jpeg

 

카드뉴스-CPU WARS 04.005.jpeg

 

카드뉴스-CPU WARS 04.006.jpeg

 

12,000개의 마이크로옵을 저장할 수 있는 트레이스 캐시.

x86 명령어로 환산하면 16KB의 L1 명령어 캐시와 비슷한 효율이라고 합니다.

 

지난 편에서 샌디브릿지가 네할렘과 차별화된 가장 큰 차이점으로 신설된 <마이크로옵 캐시> 를 꼽았는데요.

바로 넷버스트 아키텍처의 트레이스 캐시에서 그 흔적을 찾아볼 수 있습니다.

 

카드뉴스-CPU WARS 04.007.jpeg

 

크리티컬 패스의 의미를 좀 더 자세히 살펴보도록 하죠.

CPU의 수행 단계는 보통 아래와 같습니다.

 

- 일반 : L1 캐시 -> 명령어 인출 -> 디코드 -> 재정렬 -> 수행 -> 쓰기

- 넷버스트 : 명령어 인출 -> 디코드 -> 트레이스 캐시 -> 재정렬 -> 수행 -> 쓰기

 

여기까지는 캐시의 위치만 바뀌었을 뿐, 전체 단계는 동일합니다.

하지만 L1 캐시 미스가 발생하지 않는 경우에는 아래와 같은 차이가 생기는데요.

 

- 일반 : L1 캐시 -> 명령어 인출 -> 디코드 -> 재정렬 -> 수행 -> 쓰기

- 넷버스트 : 명령어 인출 -> 디코드 -> 트레이스 캐시 -> 재정렬 -> 수행 -> 쓰기

 

즉, 디코드 이전 단계가 수행 경로에서 배제되어 더 빠른 수행이 가능해지는데요.

이것이 '디코더를 크리티컬 패스에서 뺀다' 의 의미입니다.

 

카드뉴스-CPU WARS 04.008.jpeg

 

클럭은 전기 신호가 0에서 1이 되는 순간과 1에서 0이 되는 순간으로 이뤄집니다.

전자를 라이징 엣지, 후자를 폴링 엣지라고도 하죠.

 

넷버스트의 SIU는 한 클럭의 두 엣지에 모두 연산을 수행할 수 있어,

이론적으로 2GHz CPU의 경우 4GHz의 속도로 정수 연산을 수행하게 됩니다.

 

물론, SIU에서 '모든' 정수 연산을 수행하는 건 아닌 데다,

고클럭이 무조건 고성능으로 이어지는 것만도 아니었기에 전반적으로 넷버스트의 정수 연산 성능은 상당히 나빴습니다.

이는 백엔드 자원의 부족함뿐만 아니라, 정수 연산을 많이 사용하는 어플리케이션(오피스, 서버 환경에서 많이 쓰임)의 특성상

부동소수점 연산을 많이 사용하는 경우보다 캐시 미스가 발생할 확률이 더 높기 때문이기도 했습니다.

 

캐시 미스가 발생하면, 트레이스 캐시로 은폐하던 넷버스트의 열악한 디코더 성능이 그대로 노출되는 점. 앞 장에서 살펴보셨죠.

 

카드뉴스-CPU WARS 04.009.jpeg

 

카드뉴스-CPU WARS 04.010.jpeg

 

카드뉴스-CPU WARS 04.011.jpeg

 

카드뉴스-CPU WARS 04.012.jpeg

 

상업적으로도 윌라멧은 그리 큰 성공을 거두지 못했고,

펜티엄 4가 많이 팔리게 된 것은 130nm 공정의 <노스우드>가 제조되면서부터였습니다.

 

제조공정이 개선되어 작동 속도가 3GHz 이상으로 오른 반면 발열과 소비전력은 낮아졌고,

내장 L2 캐시 용량이 512KB로 두 배 증가하며 성능도 윌라멧보다 개선되었기 때문이죠.

 

카드뉴스-CPU WARS 04.013.jpeg

 

프레스캇은 90nm 공정으로 제조되었는데, 당시 누설전류를 간과한 설계로 소비전력이 오히려 폭증하는 기현상을 겪습니다.

설상가상, 파이프라인이 역대 최고로 깊어졌지만 소비전력이 발목을 잡아 클럭은 그만큼 올리지 못했고,

이에 파이프라인이 깊어진 장점이 사라지며 단점만이 고스란히 노출되는 최악의 실패를 겪습니다.

내장 L2 캐시 용량을 노스우드의 두 배인 1MB로까지 올렸음에도 IPC 하락이 커버되지 않은 것.

 

서버용 다이인 <갤러틴>을 펜티엄 4 익스트림 에디션이라는 이름으로 투입한 것도 이 시기입니다.

갤러틴은 L1 / L2 캐시 외에, 2MB의 L3 캐시를 CPU 내부에 탑재한 첫 x86 CPU입니다.

물론, 이렇게 하고도 당시 펜티엄 4의 경쟁 상대들보다 높은 성능을 보이는 데는 실패했습니다.

 

카드뉴스-CPU WARS 04.014.jpeg

 

하이퍼스레딩은 이런 절박한 상황을 타개하기 위해 도입되었습니다.

 

카드뉴스-CPU WARS 04.015.jpeg

 

카드뉴스-CPU WARS 04.016.jpeg

 

다만 하이퍼스레딩을 도입한 것도 당시엔 큰 효과가 없었는데요.

1코어의 자원으로 성능을 높인다는 것의 전제는 코어 내 자원이 비효율적으로 놀고 있어야 한다는 것이기 때문입니다.

아시다시피, 넷버스트 아키텍처 내부에서는 자원이 부족하면 부족했지 절대 남아 돌지 않았고,

따라서 성능이 오르는 경우보다 내려가는 경우가 더 많은 악순환으로 이어졌습니다.

 

하이퍼스레딩은 코어 아키텍처 들어서 사라졌다가, 네할렘부터 다시 도입되었는데

이 시기부터는 멀티코어 CPU가 일반화되고, (그럼에도 불구하고) OS / 어플리케이션이 멀티코어를 (아직까지는) 잘 지원하지 못하며

CPU 내 유휴 자원이 많아지는 등 하이퍼스레딩이 성능 향상으로 이어지기에 좋은 환경이 조성됩니다.

 

카드뉴스-CPU WARS 04.017.jpeg

 

카드뉴스-CPU WARS 04.018.jpeg

 

카드뉴스-CPU WARS 04.019.jpeg

 

비슷한 시기 인텔 역시 x86의 뒤를 이을 64비트 ISA의 개발에 착수했고,

나아가 새로운 64비트 ISA와 함께, 레거시 x86 진영은 넷버스트에 맡겨 투 톱으로 내세울 작정이었다고 합니다.

결과부터 말하자면 투 톱이 모두 처참하게 무너져 인텔의 2000년대 초반은 악몽이 되고 말았습니다.

 

카드뉴스-CPU WARS 04.020.jpeg

 

카드뉴스-CPU WARS 04.021.jpeg

 

카드뉴스-CPU WARS 04.022.jpeg

 

지금까지의 다이어그램과 다른 점이 하나 있다면, 재정렬 버퍼(에 해당하는 명령어 제어 유닛)의 그라데이션.

 

편의상 x86 명령어가 유통되는 과정은 빨간색으로, 마이크로옵은 파란색으로, 그 중간인 디코더는 보라색으로 그렸는데요.

뒤에 설명하겠지만 K8의 디코드 방식이 다소 특이하게 이뤄져,

디코더를 거치고도 한동안은 "매크로옵" 이라는 중간적 단위로 존재하며 수행 유닛까지 전달되기 때문입니다.

 

카드뉴스-CPU WARS 04.023.jpeg

 

카드뉴스-CPU WARS 04.024.jpeg

 

비순차 수행 CPU를 구현하려면 상당한 양의 자원을 마이크로옵 추적 및 재정렬에 사용해야 합니다.

x86 명령어를 내부 처리 단위인 마이크로옵으로 분해, 수행 과정을 거친 뒤 메모리에 쓸 때에는

다시 원래 프로그램의 순서에 맞게 재배열하는 과정이 필요하기 때문인데요. (또한 이를 위해 수행의 전 과정 동안 추적되어야 합니다.)

 

K8은 마이크로옵을 일정 조건 하에 두 개씩 묶어 "매크로옵"이라는 단위로 취급함으로써,

그만큼 발생가능한 불확정성의 수를 줄여 마이크로옵 추적 및 재정렬에 드는 자원을 줄이고자 한 것입니다.

 

인텔에서도 이와 비슷한 기법을 코어 아키텍처 직전, 즉 펜티엄 M을 도입하며 개량된 P6에서 선보였는데요. (마이크로옵 퓨전)

인텔은 x86 명령어 자체를 가리키는 말로 "매크로옵"을 사용하고 있기 때문에,

똑같이 마이크로옵 두 개를 묶은 단위를 일컫는 개념이지만 AMD와는 달리 "퓨즈드 마이크로옵" 이라는 용어를 사용합니다.

 

카드뉴스-CPU WARS 04.025.jpeg

 

정수 스케줄러(들) 한정으로 6 마이크로옵 이슈라는 것이고, 부동소수점 스케줄러까지 포함하면 총 9 마이크로옵 이슈가 됩니다.

 

카드뉴스-CPU WARS 04.026.jpeg

 

구체적으로,

P6 디코더 3개 -> K8 3개 -> 코어 4개

P6 재정렬 버퍼 40 엔트리 -> K8 72 엔트리 -> 코어 96 엔트리

P6 스케줄러 24 엔트리 -> K8 24 엔트리(정수) -> 코어 32 엔트리

P6 백엔드 5-wide -> K8 백엔드 6-wide -> 코어 백엔드 6-wide

 

즉, K8에 비해 뒤처지던 것들을 모두 같거나 더 높게 개선한 것.

 

카드뉴스-CPU WARS 04.027.jpeg

 

바르셀로나는 최초로 출시된 서버용 다이의 이름이기도 하고, 이후 데스크탑 시장에는 <아제나> 라는 이름으로 소개됩니다.

 

카드뉴스-CPU WARS 04.028.jpeg

 

카드뉴스-CPU WARS 04.029.jpeg

 

카드뉴스-CPU WARS 04.030.jpeg

 

Dr.Lee's Signature

* 적용중인 트로피 :

DR.MOLA

레벨 Lv. 30 (-19%)
포인트 96,101 p
출석 11 일 (개근 0 일)

Dr.Lee'님의

  1. 카드뉴스-CPU WARS 04.001.jpeg (File Size:514.0KB/Download:0)
facebook twitter google plus pinterest kakao story band
Profile image 떼삼사 2017.02.11 18:20
새 편 또 나왔다! 심심하던 중 반갑게 봤습니다. 감사합니다.
Profile image Dr.Lee 2017.02.14 15:18
흐흐 다섯번째 편도 나왔습니다! 보러 가시죠!
http://drmola.com/133321
Profile image [게임미식가] 잼아저씨 2017.02.11 18:58

넷버스트는 반면교사로 코어를 낳았으니 새옹지마네요. 반면 암드는 성공속에 ㅠㅠ 10여년간 CPU를 지배해온 인텔의 지명 시리즈, 과연 오랜 참선 뒤에 AMD는 무엇을 보여줄지 진심으로 기대됩니다.

Profile image Dr.Lee 2017.02.14 15:19
수리사느님의 지난 2년을 평가할 차례...
Profile image 지노 2017.02.11 21:25
하이퍼쓰레딩이 나온지 제법되었군요. 10년동안 탈탈 털렀다니, 이번엔 좀 밟아줄 수 있을까요.
Profile image Dr.Lee 2017.02.14 15:19
라읍읍... 읍읍읍...
Profile image RS 2017.02.12 00:20
암드야 힘내!
Profile image Dr.Lee 2017.02.14 15:20
암드야 힘내! (2)
Profile image algalon 2017.02.12 01:18
이번 편은 반가운 코드네임들이 많이 보이네요 ㅎㅎ
라이젠이 어떻게 나올지 기대됩니다..
Profile image Dr.Lee 2017.02.14 15:20
흐흐 에피소드가 지날수록 시간이 현재에 가까워지며 익숙한 이름이 많아질 겁니다.ㅎㅎ
그런 김에 오늘 등록된 다섯번째 편도 보고 가세요! -> http://drmola.com/133321
Profile image RuBisCO 2017.02.12 02:18
저 넷버스트 시절에 펜티엄M 들어가는 보드랑 펜티엄M을 직접 구해다 쓰는 분들이 있었죠. 오버클럭 상태에서 성능이 데스크탑들을 가뿐히 제끼는 물건이어서 성능만으론 가장 좋았는데 불행히도 저같은 일반 소비자가 구하기는 힘들어서... ㅠㅠ
Profile image Dr.Lee 2017.02.14 15:21
헉 넘나 신기한 것... 아니 펜티엄 M을 "오버클럭할 수 있는" 보드가 있었군요!?!?!
Profile image RuBisCO 2017.02.15 04:14
예. 보드 자체에서 되는 연구소스러운 물건들도 있었고 안되는 물건(노트북 등)이라고 해도 핀 장난질로 클럭을 올릴 수 있었습니다. 문제는 웹에서만 보고 탐은 나지만 구할 수는 없는 그림의 떡이어서... ㅠㅠ
Profile image 앙리앙뚜와 2017.02.12 08:43
프레스캇.. 프레스핫이라고 불리던 그 이름 맞나요
글 재미있게 잘 봤습니다!
Profile image Dr.Lee 2017.02.14 15:21
넵 그 프레스캇 맞습니다!! 역사적인 녀석이죠 ㅋㅋ
Profile image SamirDuran 2017.02.12 09:02
암드의 잃어버린 10년...
Profile image Dr.Lee 2017.02.14 15:21
시무룩...
Profile image 여우비 2017.02.12 12:44
흑흑... 암드야..
Profile image Dr.Lee 2017.02.14 15:21
흑흑...
  • 권불십년 : 9년 집권이 끝나다 [CPU] 권불십년 : 9년 집권이 끝나다 [7] file

    근래 보기드문 숨가쁜 한 주였다. 지난주 오늘 들어선 새 정부는 한숨 돌릴 새도 없이 곧바로 임기를 개시했으며 지난 4년, 나아가 지난 9년간 차츰 굽어가며 지나온 궤도를 그 반대 방향으로 돌려놓기 위해 고군분투할 것이다. 9년. 아홉수. 금방이라도 끓어오를 것 같은 임계치 근방의 긴장감이 감도는 숫자. 오늘 우리는 ...

    • Dr.Lee |
    • 17.05.16 |
    • 조회 4482 |
  • 지포스 GTX 1070, 1060의 ROP에 관한 비밀 [VGA] 지포스 GTX 1070, 1060의 ROP에 관한 비밀 [3] file

    지난 세대 지포스 GTX 970의 메모리 / ROP 스캔들을 기억하는 분께는 묘한 기분을 불러일으킬 수도 있을텐데, 이 글에서는 지포스 GTX 1070, 1060의 ROP에 관한 잘 알려지지 않은 사실을 다뤄 보려 합니다. 대외적으로 VGA 계산기가 공개되지 않은지는 벌써 몇달이 되어가지만 내부적으로는 꾸준히 업데이트를 거쳐 활용 중...

    • Dr.Lee |
    • 17.05.16 |
    • 조회 2497 |
  • 삼성 갤럭시 S8 vs LG G6 번들이어폰 비교 [음향기기] 삼성 갤럭시 S8 vs LG G6 번들이어폰 비교 [4]

    안녕하세요 언더케이지 음향리뷰 담당 STUDIO51입니다. 저번 G6 리뷰와 마찬가지로 영상에서 미처 다 못 전해드린 내용을 글로 보충합니다. 이번 측정에 사용된 모든 이어폰은 커널형 이어폰으로, Audio Precision의 어쿠스틱 측정 프로토콜과 G.R.A.S의 이어 시뮬레이터를 사용하여 측정하였습니다. 측정개요 소리를 녹음하...

  • 아이패드(2017) 자세히 알아보기 [모바일] 아이패드(2017) 자세히 알아보기 [5] file

    애플이 갑작스럽게 아이패드를 공개한지도 꽤나 시간이 흘렀다. 새로 출시된 9.7인치 아이패드임에도 불구하고 43만원이라는 저렴한 가격과 가격에 걸맞지 않는 탄탄한 성능은 많은 사람들의 이목을 끌기에 충분했다. 현재 고급형 스마트패드 시장에서 새로 출시된 9.7인치 아이패드의 A9칩에 대해 성능우위를 주장할 수 있...

    • iMola |
    • 17.05.15 |
    • 조회 3220 |
  • 새로운 제온과 인텔의 스윗스팟 : 분할같은 통합 전략 [CPU] 새로운 제온과 인텔의 스윗스팟 : 분할같은 통합 전략 [2] file

    지난 주에는 좀처럼 일어나지 않을 법한 일이 실제로 일어났었다. 인텔이 그들의 세일즈 채널에 내려보낸 제품 변동사항 공지(Product Change Notification) 문서가 불의의 사고로 유출되며 새로운 제온 라인업의 윤곽이 "본의 아니게" 드러난 것. 이 사고가 인텔의 뜻을 정면으로 거스른 것임은 두말할 필요조차 없다. 다만...

    • Dr.Lee |
    • 17.05.06 |
    • 조회 1548 |
  • 기나긴 아이패드 실험의 종착지 : 아이패드 [모바일] 기나긴 아이패드 실험의 종착지 : 아이패드 [13] file

    사진 : Justin Sullivan / Getty image 2010년 봄, 애플의 한 스페셜 이벤트에서 최초의 아이패드가 발표되었다. 스티브 잡스는 쇼파에 앉아 새로운 아이패드를 사용하는 모습을 시연했으며, 반응은 폭발적이었다. 당시 아이패드는 PC의 미래로 보였고, 실제로 뜨거운 시장 반응 역시 이를 증명하는 듯했다. 아이패드 이전에...

    • iMola |
    • 17.04.30 |
    • 조회 3012 |
  • 달라지는 인텔 : 6코어, 또는 8스레드 메인스트림? [CPU] 달라지는 인텔 : 6코어, 또는 8스레드 메인스트림? [12] file

    컴퓨텍스에서 발표될 X299 메인보드와 발맞춰 인텔의 새로운 HEDT CPU 스카이레이크-X가 이르면 오는 5월 30일 출시된다는 소식입니다. 최대 12코어 24스레드, 하위 모델로 10/8/6코어 베리에이션이 있으며 컴퓨텍스 개막일인 5월 30일 데스크탑 CPU 사업부에 해당하는 클라이언트 컴퓨팅 그룹의 수장(GM) Navin Shenoy 전무...

    • Dr.Lee |
    • 17.04.25 |
    • 조회 2312 |
  • [Live] AMD 라이젠 5 런칭 행사 라이브 블로그 [CPU] [Live] AMD 라이젠 5 런칭 행사 라이브 블로그 [9] file

    안녕하세요 닥터몰라 회원 여러분. 오늘 저와 자드럭님은 라이젠 5 런칭행사 취재차 합정에 와 있습니다. 오후 2시부터 5시 반까지 미디어 대상 사전 브리핑이 진행되고, 7시부터는 일반 회원 대상 메인 이벤트가 개최되는 일정인데요. 라이브블로그를 통해 행사에 참석하지 않은 여러분께도 생생한 정보를 전해드리도록 하...

    • Dr.Lee |
    • 17.04.12 |
    • 조회 1450 |
  • 낙수효과가 시작되다 : 라이젠 5의 경제학, 라이젠노믹스 [CPU] 낙수효과가 시작되다 : 라이젠 5의 경제학, 라이젠노믹스 [32] file

    안녕하세요 닥터몰라 독자 여러분. 이 글이 공개되는 시점인 2017년 4월 11일 오후 10시(한국시각 기준)를 기해 AMD의 새로운 퍼포먼스-메인스트림급 CPU인 라이젠 5의 엠바고가 해제되었습니다. 퍼포먼스급 CPU 시장이 경쟁 체제로 돌입한 건 짧게 잡아도 2012년의 파일드라이버 FX 이후 5년만이죠. 그리하여 오늘의 제목은...

    • Dr.Lee |
    • 17.04.11 |
    • 조회 22203 |
  • 코원 PLENUE 2 측정리뷰 :: 진화라 부를 수 있는 도약 [음향기기] 코원 PLENUE 2 측정리뷰 :: 진화라 부를 수 있는 도약 [26]

    프롤로그 SNR :: Signal to Noise Ratio, 신호대 잡음비 SNR은 흔히 쓰이는 단어는 아니지만 생각 외로 널리 쓰이는 단어 중 하나입니다. 신호와 노이즈는 불가분한 관계이기 때문입니다. SNR은 신호의 품질을 결정하는 가장 중요한 척도입니다. 흔히 다이나믹 레인지 (DNR) 이라고도 표현합니다. 왜곡 없는 소리를 추구하는...