기타 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[CPU] 멀티스레딩 기술의 이해

IYD | 조회 97 | 추천 0 | 2011.02.05. 14:17 http://drmola.com/etc_column/29869

Author : Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

오늘은 현대 CPU의 성능향상 기법 중 하나인 SMT에 대해 간단히 알아 보겠습니다.
SMT는 Simutaneous Multi-threading의 약자로, 동시에 여러 스레드를 처리하는 기법을 통칭합니다.

CPU의 성능을 올릴 때엔 '병렬성'(parallelism)이란 것을 추구하는 경우가 일반적인데
병렬성은 다시 명령어 수준(instruction level) 병렬성과 스레드 수준(thread level) 병렬성으로 나뉩니다.
전자의 경우 프로세서 내부의 각 명령어 처리장치를 늘림으로써 간단히 구현할 수 있고,
후자는 조금 더 복잡한데 보통 프로세서의 갯수 자체를 늘림으로써 구현할 수 있습니다.
그런데 물리적인 프로세서의 갯수를 늘리지 않고 단지 여러 스레드를 동시에 집어 넣기만 함으로써도
하나의 CPU 코어에서 여러 스레드를 병렬로 처리할 수 있기도 한데, 이를 SMT라고 합니다.

SMT 기술 중 가장 잘 알려진 것은 인텔의 하이퍼스레딩입니다.
하이퍼스레딩의 핵심은 CPU에 추가적인 트랜지스터를 투입하지 않고 스레드 수준 병렬성을 확보하는 것인데
즉 CPU가 처리하는 스레드가 늘어남에도 불구하고 추가적인 연산장치를 구현하지 않은 것이 특징입니다.
기존의 CPU 설계에 아주 사소한 수정만을 가해 최대 두 배의 성능향상을 꾀한다는 컨셉은 굉장히 매력적인데,
실제로 이 기술의 효용은 두배는커녕 1.5배에도 미치지 못할 때가 많습니다.


이 포스팅에서는 현행 하이퍼스레딩의 작동 원리와 그 효율이 그리 좋지 않은 이유 & 좋아지기 위한 조건,
그리고 하이퍼스레딩 외에도 현존하는 다른 SMT 기법에 대해 간단히 알아보도록 하겠습니다.

목차는 아래와 같습니다. (바로 보시려면 챕터 이름을 복사한 뒤 Ctrl+F로 검색해 주세요)

Chapter 1: 1 Core / 1 Thread 모델
Chapter 2: 2 Cores / 2 Threads 모델
Chapter 3: 1 Wide Core / 1 Thread 모델
Chapter 4: 1 Core / 2 Threads 모델 (인텔 하이퍼스레딩)
Chapter 5: 1 '2-Core-like' Module / 2 Threads 모델 (AMD 클러스터 멀티스레딩)
Chapter 6: 모델 비교 및 분석


Chapter 1: 1 Core / 1 Thread 모델

우선 보통의 1코어/1스레드 구조를 상상해 봅시다.



▲ 회색 상자가 CPU를 나타냅니다.
이 가상의 CPU는 네 개의 연산 유닛을 갖고 있고 각각 A, B, C, D라 이름붙여져 있습니다.
현실에서는 CPU의 연산 유닛은 굉장히 다양한 종류를 갖는데, 간단히 열거하자면

- 정수 스칼라 유닛 (ALU)
- 부동소수점 스칼라 유닛 (FPU)
- 정수 벡터 유닛 (MMX)
- 부동소수점 벡터 유닛 (SSE, AVX)

등으로 나뉩니다. 첨언하자면, 그림의 A, B, C, D유닛의 기능이 위에 열거한 대로 매치되는 건 아닙니다.
아무튼... 그림을 설명하자면 이 가상의 CPU에 두 개의 서로 다른 스레드가 투되는데
각각의 스레드는 프로세서 내부의 연산 유닛을 서로 다른 비율로 점유하고 있습니다.
일반적인 1코어/1스레드 CPU에서 한 스레드가 완전히 끝나기 전에는 다른 스레드를 처리할 수 없으므로
전체 처리시간은 각 스레드의 처리시간을 산술적으로 더한 값과 같습니다.

스레드 1의 경우, 연산유닛 B에서 가장 많은 시간을 잡아먹혀 총 3 사이클이 걸리고
스레드 2의 경우는 연산유닛 C에서 가장 많은 시간을 할애해 총 4 사이클만에 작업이 완료되었습니다.
즉 이 경우, 이 CPU가 스레드 1과 2를 모두 완료하는 데 걸린 시간은 7 사이클입니다.
총 4개의 유닛이 7 사이클동안 (4 x 7 = 28) 16개의 명령어를 처리했으니 가용률은 16/28 = 57%가 됩니다.

위 그림에서 나타낸 스레드는 비교적 일반적인 상황을 가정한 것인데
만약 두 스레드가 극단적으로 하나의 자원(연산유닛)에서 경합하는 경우라면 어떻게 될까요?


▲ 위 그림은 스레드 1 / 2 모두 연산유닛 B에 극단적으로 매달리고 있는 상황입니다.
이 경우 두 스레드가 처리되는 동안 다른 유닛은 그저 놀고만 있고, B만 엄청나게 구르고 있죠.
이 경우의 가용률은 매우 나빠집니다. (25%)

반대로, 두 스레드의 자원이 서로 배타적이어서 스레드 간의 경합이 없는 경우를 보겠습니다.


▲ 이 때에는 두 스레드가 경합하는 자원은 없지만
어차피 한 스레드가 완료되기 전에는 다음 스레드를 처리할 수 없으니 총 8 사이클이 걸렸습니다.
이 때의 가용률은 50% 되겠습니다.
이러한 경우라면, 한번에 두 스레드를 처리하는 것이 큰 도움이 되겠죠?

일단 지금까지 살펴본 1코어/1스레드 CPU의 경우 일반적인 작업/경합 작업/배타적 작업에 걸린 총 시간은
일반적인 작업 7 사이클 + 경합 작업 16 사이클 + 배타적 작업 8사이클 = 총 31 사이클입니다.
또한 총 가용률은 (16 + 16 + 16) / (4 x 31) = 39%가 됩니다.
이제 각기 다른 CPU 모델을 통해 이 작업시간 & 가용률이 어떻게 변화하는지 살펴봅시다.
앞으로 등장할 모델마다 위에서 살펴봤던, 아래의 세 가지 예제를 기준으로 살펴보도록 하겠습니다.

- 일상적인 작업 (각 연산유닛을 랜덤하게 사용하는 스레드)
- 특정 연산유닛에서 극단적으로 경합하는 스레드
- 사용하는 연산유닛이 서로 겹치지 않는, 배타적인 스레드


Chapter 2: 2 Cores / 2 Threads 모델

가장 간단한 멀티스레딩 기법은 CPU 갯수(코어 갯수) 자체를 늘리는 것입니다.
개별 CPU 코어의 처리방식엔 변화가 없다고 가정하고 단순히 갯수만 늘려 두 스레드를 동시에 처리해 봅시다.
'일상적인 작업'의 예제부터 보시겠습니다.


▲ 두 스레드를 처리하는 데 (처리시간이 오래 걸린 쪽에 맞춰) 총 4 사이클이 걸렸습니다.
이때의 가용률은 16 / (8 연산유닛 x 4사이클) = 50%입니다.
연산시간은 단축되었지만 가용률은 오히려 1코어/1스레드 CPU일 때보다 떨어졌습니다.
즉 자원이 남아돈다는 얘기이고, 자원(연산유닛)의 배분이 그만큼 효율적이지 못하다는 얘기도 됩니다.

이번엔 두 스레드가 극단적으로 같은 자원을 두고 경쟁하는 경우입니다.


▲ 이번에도 역시 가용률은 나아진 게 없고, 작업 시간은 두 스레드를 동시에 처리해 1/2로 단축되었습니다.

이번에는 반대로 두 스레드가 전혀 경합하지 않는 경우입니다.


▲ 이 경우도 역시 가용률은 나아지 않았고, 작업 시간만 1/2로 단축되었습니다.

위에서 살펴본 세 작업에 걸린 총 소요시간은 4 + 8 + 4 = 16 사이클로, 1코어/1스레드 모델의 1/2 수준입니다.
즉 연산유닛을 두 배로 늘린 효율이 거의 산출량에 비례해 나온 셈이니 괜찮은 전략이었다고 볼 수 있지만
가용률을 기준으로 보면 (16 + 16 + 16) / (8 연산유닛 x 16 사이클) = 37.5%로 오히려 떨어졌습니다.
즉 코어 갯수가 두 배 늘었지만 이 늘어난 자원이 더 비효율적으로 쓰이고 있다는 것이죠.
사실 이것은 프로세서의 소비전력 (쓸데없이 작동되는 유닛의 비율) 과 제조단가 (면적 = 연산유닛 갯수) 에 직결되기 때문에 가벼이 넘길 수 없는 문제이기도 합니다.


Chapter 3: 1 Wide Core / 1 Thread 모델

CPU 제조사의 입장에선 성능과 소비전력, 제조단가의 삼중점을 찾기 위해 끊임없이 머리를 굴려 왔는데

성능(작업시간)과 효율(가용률) 사이에서 절충점을 찾기 위해 최근까지 가장 널리 사용된 방법은
"자주 사용되는 유닛을 늘리는 것" 이었습니다.
우리가 가정한 예제에선 연산유닛 B와 C가 자주 쓰이고 있으므로 B / C를 각각 두개씩으로 늘려 보겠습니다.

"일상적인 작업" 예제부터 보시죠.


▲ 작업시간은 4 사이클로 위에서 살펴본 2코어 모델과 동등한 수준이고,
코어 자체를 둘로 늘리는 것보다 자주 쓰이는 연산유닛만 추가한 것이 가용률이 더 좋아졌습니다.
6개의 연산유닛을 4사이클동안 가동해 (6 x 4 = 24) 16개의 명령어를 처리했으니 67%가 됩니다.
그렇다면 특정 연산유닛에서 각 스레드가 경합하는 상황은 어떨까요?


▲ 여전히, 각 스레드별 가용률이 좋은 편은 아닙니다만 어쨌든 33%로 앞의 두 모델보다 늘었습니다.
특히 "일반적인 작업" 예제와 이 예제의 경우 작업 시간은 2코어 모델과 동등한 수준입니다.
(실제로는 코어 자원의 50%만 늘렸을 뿐인데 2코어와 같은 성능을 낸다는 뜻입니다)

마지막으로 서로 배타적인 스레드의 경우를 보시겠습니다.


▲ 사실 1코어가 1스레드를 처리하는 구조 하에서는 '서로 배타적인 스레드'가 주는 잇점이 전혀 없습니다.
여기에서도 단지 각 스레드마다 처리되는 시간의 산술적인 합이 전체 작업 시간이 되고 있습니다.

1개의 "넓은"코어 모델의 총 작업시간은 4 + 8 + 8 = 20 사이클로 앞의 두 모델의 중간 수준입니다.
반면 가용률은 매우 좋아졌는데, 48 / 120 = 40%에 이르렀습니다.
이렇듯 투입한 자원 대비 성능향상 & 가용률 향상폭이 크기 때문에 CPU 제조사들에게 채택되었던 것이죠.
그렇다면, 인텔의 하이퍼스레딩은 어떻게 등장하게 된 것일까요?


Chapter 4: 1 Core / 2 Threads 모델
(인텔 하이퍼스레딩)

위의 세 모델을 살펴보면서 공통적으로 불필요한 가용률 저하가 일어났던 곳은 '배타적인 스레드'였습니다.

각 스레드가 프로세서 상에서 중첩되지 않는 자원만을 사용하고 있음에도 불구하고
한 번에 한 스레드씩만 처리할 수 있어 불필요하게 노는 자원을 만들어냈던 것이죠.
하이퍼스레딩 기술은, 별도의 자원(연산유닛) 추가 없이도 이런 유휴자원을 남김없이 사용함으로써
추가 생산성을 만들어내는 것이 목적입니다.



▲ 일상적인 작업의 예제입니다.
두 스레드가 동시에 프로세서에 들어가 처리되고 있는데, 작업에 소요된 시간은 6사이클로
기존의 1코어/1스레드 모델보다 약 14% 가량 향상된 성능을 보여주고 있습니다.
또한 가용률도 그만큼 증가해 67%가 되었죠.

하지만 두 스레드가 한 연산유닛을 두고 경합하는 경우엔 1코어/1스레드에 비해 성능향상이 전혀 없습니다.


▲ 보시다시피 16사이클이 소요되어, 1코어/1스레드 모델과 똑같은 속도 & 가용률을 보여줍니다.
이러한 예는 특히 게임 등 한정된 연산을 많은 데이터에 대해 단순 반복하는 케이스에서 찾아볼 수 있는데
이 점이 바로 하이퍼스레딩이 게임 성능 향상에 큰 영향을 주지 못하는 원인입니다.

반면에 두 스레드가 완벽히 배타적인 세 번째 경우라면 이야기가 전혀 달라집니다.


▲ !!!!!
프로세서의 모든 자원이 남김없이 사용되고 있습니다. 즉 가용률이 100%가 되었단 뜻이죠.
이렇듯 각 스레드가 프로세서의 자원을 두고 경합하지 않을 때 하이퍼스레딩의 진가가 발휘됩니다.
사실 연산유닛이 확충되지 않았음에도 하이퍼스레딩이 어느 정도 성능향상을 보여주는 것은
일상 생활에서 사용하는 스레드는 모두 서로 배타적이진 않지만, 전적으로 경합하지만도 않기 때문입니다.
인텔의 CPU 설계자들의 의도했던 핵심이 바로 여기 있는 것이죠.

전체적으로, 1코어/2스레드 모델의 총 작업 시간은 6 + 16 + 4 = 26 사이클입니다.
1코어/1스레드 모델(31사이클)보다는 조금 좋고 2코어 모델(16사이클)보다는 많이 뒤떨어집니다.
반면에 가용률은 46%로 크게 향상되어 그동안보다 각 연산유닛이 더 효율적으로 일하게 되었습니다.
이렇듯 매우 적은 추가 자원만으로 약간의 성능향상과 큰 효율향상을 꾀하는 게 하이퍼스레딩의 취지입니다.

그런데, AMD의 차기 CPU 아키텍처인 Bulldozer에서는 조금 다른 SMT 패러다임을 선보이게 됩니다.


Chapter 5: 1 '2-Core-like' Module / 2 Threads 모델
(AMD 클러스터 멀티스레딩)

AMD의 차기 CPU 아키텍처인 Bulldozer에서는 클러스터 멀티스레딩(CMT)이란 SMT 기법이 도입됩니다.
어찌 보면 앞에서 살펴본 "넓은 코어" 모델과 하이퍼스레딩의 혼합형이라고도 할 수 있는 이 모델은

기본적으로 1코어/2스레드 모델에 뿌리를 두고, 자주 쓰이는 유닛을 2코어처럼 분화시키는 것이 핵심입니다.
공유되는 유닛과 분화된 '자주 쓰이는 유닛'이 입력되는 스레드에 대응해 '클러스터'라는 처리 단위를 이루죠.
(즉 이 두 개의 클러스터가 융합된 구조를 불도저 아키텍처에서는 '불도저 모듈'이라고 합니다)

불도저 모듈의 백엔드 구조는 자칫 '부동소수점 유닛을 공유하는 두 개의 코어'처럼 받아들여질 여지가 있는데
마케팅적인 수사를 뒤로 하고, 실제오히려 '백엔드가 확장된 1개의 코어'라고 보는 것이 타당합니다.
샴쌍둥이가 다리를 공유하고 상반신이 나뉘어 있다면 어떻게든 두 사람이라고 간주할 수 있겠지만
머리와 다리가 하나이고, 팔만 네 개인 경우라면 두 사람이라기보단 팔이 더 달린 한 사람이라고 봐야겠죠?

CPU를 구성하는 부분을 명령어를 인출/해독하는 프론트엔드와 해독된 명령어를 처리하는 백엔드로 나누는데
1개의 불도저 모듈의 경우 AMD 측에서는 이를 2코어라고 홍보하고 있지만 프론트엔드는 아예 하나밖에 없는 데다가 백엔드 부분에서도 부동소수점 유닛을 공유하고, 오직 정수 유닛만 분화되어 있기 때문입니다.
이 구조가 실제 스레드를 처리할 때 어떻게 동작하는지 간단히 알아보겠습니다.



▲ 편의상 "많이 쓰이는 유닛"인 B, C 유닛을 불도저 모듈에서 스레별로 분화한 유닛으로 가정했습니다.
분화된 B, C 유닛은 사실상 각각 독립된 코어처럼 작동하고 (즉 2코어 모델과 동일한 효율)
분화되지 않은 A, D 유닛은 대신 1코어/2스레드 모델에서처럼 유휴 자원을 최소화하는 방향으로 작동합니다.
그 결과 작동 속도는 4 사이클로 매우 높아졌고, 가용률도 67%로 매우 높은 편입니다.

그렇다면 각 스레드가 사용하는 자원이 중첩되는 경우는 어떨까요?


스레드별로 분화되어 있는 연산유닛 B가 2코어 모델에서와 동일하게 작동하는 것을 보실 수 있습니다.
가용률은 6개의 연산 유닛이 8 사이클동안 작동해 (6 x 8 = 48) 16개의 명령어를 처리해 33%가 됩니다.

마지막으로 두 스레드가 서로 배타적으로 연산유닛을 점유하는 경우를 보겠습니다.


▲ 이 경우는 2코어와 1코어/2스레드 모델의 중간쯤 되는 가용률을 보여주고 있습니다.
(2코어 모델 50%, 1코어/2스레드 모델 100%, 지금 모델은 67%)


작업 예제에 걸린 총 소요시간은 4 + 8 + 4 = 16 사이클로 2코어 모델과 동일한 수준이고
총 가용률은 50%로 지금까지 살펴본 모델 중 최고치를 기록하고 있습니다.
즉 성능/가용률 양쪽에서 2코어 모델과 1코어/2스레드 모델의 장점이 나타나고 있는 것입니다.


Chapter 6: 모델 비교 및 분석

지금까지 살펴본 다섯가지 모델의 스레드 성질별 성능을 그래프로 나타내 보았습니다.



▲ 하나의 연산유닛을 두고 서로 경합하는 스레드(위 그래프에서 Exhaustive Thread 항목)의 경우 실제로 그 연산유닛이 늘어나지 않는 한 성능향상이 없습니다.
하지만, 그다지 경합하지 않는 스레드(위 그래프에서 Exclusive Thread 항목)를 처리할 때엔 가용률을 높일 수 있는 SMT 기술이 적용된 경우가 단연 뛰어난 성능을 보입니다.

각 모델별, 스레드 성질별 연산유닛의 가용률은 아래와 같습니다.


▲ 가용률은 SMT 기술이 적용된 경우에 더 좋단 것이 다시 한번 확인되고 있습니다.
좀 더 보기 편하게, 위의 두 그래프에서 살펴본 각 스레드 항목을 한데 모아 평균성능 및 가용률을 알아봅시다.



▲ 각 모델의 강점과 약점이 명확히 드러나는 부분입니다.
연산유닛 추가 없이 SMT 기술만 적용한 경우(네번째 모델)는 성능 향상은 크지 않지만 가용률이 높은 편이고
연산유닛을 실질적으로 2배로 늘린 2코어 모델(두번째 모델)의 경우 성능 향상은 크지만 가용률이 낮습니다.
이 둘을 절충한 불도저식 모델(다섯번째 모델)은 성능/가용률 모두 가장 뛰어난 모습을 보이고 있습니다.

한편, 연산유닛의 갯수는 트랜지스터 갯수에 비례하고 이는 곧 CPU 다이의 면적과 비례한다고 볼 수 있습니다.
다이의 면적이 CPU의 생산 단가를 결정한다고 보면 가격 vs. 성능의 그래프는 아래와 같습니다.


▲ 단순히 성능만을 알아 봤던 그래프와는 다른 양상을 보입니다.

제조사의 입장에서는 CPU의 절대 성능만큼이나 그 CPU를 생산하는데 드는 단가를 중요히 고려해야 하는데
하이퍼스레딩(네번째 모델)을 도입한 경우 생산단가는 그대로 두면서 20% 정도의 성능향상을 기대할 수 있죠.
또한 다섯번째 모델인 CMT는 전세대와 동일한 트랜지스터 수로 40%에 가까운 성능향상을 기대할 수 있기에
전세대 대비 1.5배 정도만 트랜지스터를 집적하더라도 두 배 이상의 성능을 이끌어낼 수 있게 됩니다.


지금까지 간단히 현존하는 SMT 기술의 특징과 그 한계에 대해 알아 보았습니다.
다음 강좌에선 구체적으로 어떤 자원을 통해 SMT가 구현되는지 알아보도록 하겠습니다. ^^

 

//

 

아래 위젯은 일종의 크라우드펀딩 플랫폼인 티스토리 '밀어주기' 서비스 위젯입니다. 100원부터 3000원까지의 범위 내에서 소액기부가 가능하며, 이런 형태의 펀딩이 성공적일 경우 '이해관계자로부터 독립된 벤치마크' 의 지속 가능한 원동력이 되리라 생각합니다. 물론 후원 없이 제 글을 읽어 주시는 것만으로도 저는 독자 여러분께 감사합니다 :)

 

 

 

  • |
  • |
  1. bulldozer_2_compete.jpg (File Size:37.9KB/Download:0)
  2. 1w1t_2_compete.jpg (File Size:26.6KB/Download:0)
  3. chart_avg_perf.jpg (File Size:28.2KB/Download:1)
  4. 1c2t_3_exclusive.jpg (File Size:27.1KB/Download:0)
  5. 2c2t_3_exclusive.jpg (File Size:24.4KB/Download:0)
  6. 1c1t_2_compete.jpg (File Size:25.7KB/Download:2)
  7. chart_cost_perf.jpg (File Size:36.8KB/Download:0)
  8. chart_avg_rcr.jpg (File Size:32.5KB/Download:0)
  9. 1c1t_1_ordinary.jpg (File Size:24.4KB/Download:0)
  10. 2c2t_2_compete.jpg (File Size:25.1KB/Download:1)
  11. chart_performance.jpg (File Size:45.5KB/Download:0)
  12. bulldozer_3_exclusive.jpg (File Size:36.1KB/Download:0)
  13. 1w1t_3_exclusive.jpg (File Size:26.7KB/Download:1)
  14. bulldozer_1_ordinary.jpg (File Size:42.3KB/Download:0)
  15. chart_rcr.jpg (File Size:43.1KB/Download:0)
  16. 2c2t_1_ordinary.jpg (File Size:24.1KB/Download:0)
  17. 1w1t_1_ordinary.jpg (File Size:25.6KB/Download:0)
  18. 1c1t_3_exclusive.jpg (File Size:24.2KB/Download:0)
  19. 1c2t_2_compete.jpg (File Size:29.5KB/Download:0)
  20. 1c2t_1_ordinary.jpg (File Size:27.5KB/Download:1)
facebook twitter google plus pinterest kakao story band

서명

no image

IYD

(level 1)

적용중인 트로피가 없습니다.

Profile image 비필 2016.07.21 18:13
cpu 사용율은 i3 와 i5모델이 비슷하게 나와도 실제 사용해보면 다른게 체감이 옵니다. cpu사용률이 50%~60%여도 컴퓨터가 심하게 렉이 걸리는경우가 있어요.하이퍼스레딩 기능있는 cpu에서는 실제 가용률하고 작업관리자에 나오는 cpu사용률이 다른것 같네요.
수정 삭제
Profile image 최건 2016.06.30 19:00
이건 댓글을 안남길수가 없는 글입니다 공부하는 학생입장에선 정말 정말 좋은 자료입니다
수정 삭제
Profile image 수치해석 2016.06.30 21:42
SMT(HT)는 수치해석 여러 라이브러리에서 성능을 깎아 먹습니다. IBM 4* SMT나 인텔 2* HT 둘 다 수치해석 (슈퍼컴 포함) 에선 꺼 놓는 경우가 많습니다. LinX를 HT 끄고 켜면서 돌려 보세요.
수정 삭제
  • 맥 프로의 가치 [ICT] 맥 프로의 가치 [7] file

    Author : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)0. 내색한 적은 한번도 없지만 (그리고 아무도 안 믿을테지만) 내겐 완제품 PC에 대한 로망이 있다. 특히 맥... 새로 나온 맥 프로가 그간 이미지로만 보던것과 달리 매우 아담하단 사실에 ...

    • IYD |
    • 13.12.26 |
    • 조회 30 |
  • A short essay on "Kaveri" [CPU] A short essay on "Kaveri" [13] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 사실 "Future is fusion" 이라는 AMD의 슬로건에서부터 예견되었던 것이기도 하지만 CPU+GPU 이종교배의 진정한 힘은 다이사이즈 축소를 통한 원가절감 따위를 훨씬 상회하는 것이리라. Ma...

    • IYD |
    • 13.11.27 |
    • 조회 6 |
  • [VGA] 라데온 R9 290 -> R9 290X 변신?! [14] secret

    비밀글입니다.

    • IYD |
    • 13.11.15 |
    • 조회 2 |
  • [VGA] GeForce GTX 780 GHz에 관한 썰 [4] secret

    비밀글입니다.

    • IYD |
    • 13.10.31 |
    • 조회 0 |
  • NVIDIA GeForce GTX 780 Ti 성능 예측 [VGA] NVIDIA GeForce GTX 780 Ti 성능 예측 [6] file

    글쓴이 : 이대근연락처 : leedaeguen [at] kaist.ac.kr(이 블로그의 CCL정책에 위배되는 무단전재 및 재배포를 금지합니다)두시간 전 해외 포럼인 ChipHell을 통해 GTX 780 Ti의 사양으로 추정되는 스크린샷이 유출되었습니다.▲ GTX 780 Ti의 사양으로 2496SP설, 2688SP설, 2880SP설 등이 분분했는데, 위의 정보가 정확한 것...

    • IYD |
    • 13.10.22 |
    • 조회 46 |
  • An essay on NVIDIA GeForce GTX 780 Ti [VGA] An essay on NVIDIA GeForce GTX 780 Ti [5] file

    글쓴이 : 이대근 (이 블로그의 CCL 정책에 위배되는 무단전재 및 재배포를 금지합니다) 엔비디아에서 방금 지포스 GTX 780 Ti라는 새 제품의 출시를 예고했습니다. 그간의 네이밍 정책에 비춰 볼 때 해당 제품은 GTX 780의 상위 모델일 것은 확실하나 모델 넘버가 없는 GTX TITAN과의 우열관계는 확실치 않은데, 일단 단선적...

    • IYD |
    • 13.10.19 |
    • 조회 5 |
  • FCAT : 프랩스에 종언을 고함 [VGA] FCAT : 프랩스에 종언을 고함 [2] file

    글쓴이 : 이대근 (이 블로그의 CCL정책에 위배되는 무단전재/재배포를 금지합니다) 재미있는 글을 읽었습니다. 일단 글을 소개하자면 원문은 아래 링크와 같습니다. (see this : http://techreport.com/review/24553) 간단히 요약하자면 "Fraps로 측정하는 프레임레이트는 정확하지 않다. 나아가 현존하는 모든 방식의 프레...

    • IYD |
    • 13.09.30 |
    • 조회 16 |
  • GK110, 하와이 가상 대결 : by VGA 계산기 [VGA] GK110, 하와이 가상 대결 : by VGA 계산기 [7] file

    글쓴이: 이대근 (이 블로그의 CCL 정책에 위배되는 무단전재/재배포를 금지합니다) 그동안 '그래픽카드 성능 방정식'을 사용해 몇번의 포스팅을 올리곤 했는데, 혹시 이 방정식의 배경이 궁금하셨던 분은 안 계셨는지요. 오늘은 아직 출시되지 않은 '가까운 미래의' 그래픽카드의 성능을 예측함과 함께 그간 한번도 직접적으...

    • IYD |
    • 13.09.12 |
    • 조회 23 |
  • [VGA] A short essay on GK110 [4]

    글쓴이: 이대근 (이 블로그의 CCL 정책에 위배되는 무단전재/재배포를 금지합니다) 지금으로부터 약 19개월 전, AMD는 코드명 Southern Islands로 명명된 새 GPU를 발표했고 이들 제품군은 전세대 자사/경쟁사 플래그십 제품군 대비 2배~2.5배에 가까운 압도적인 성능 향상을 가져온 반면 소비전력은 전세대와 별 차이가 없...

    • IYD |
    • 13.09.05 |
    • 조회 7 |
  • [ICT] 주파수경매 총평

    글쓴이: 이대근 연락처: leedaeguen [at] kaist.ac.kr (이 블로그의 CCL 정책에 위배되는 무단전재/재배포를 금지합니다) 주파수경매 총평 (매우 주관적임) : 1. KT는 (이미 보유하고 있던) 1.8GHz대역 20MHz폭(업로드 10/다운로드 10)의 바로 옆에 추가로 15MHz폭(업 5/다운 10)을 보유하게 됨으로써 별도의 기술적 변경 없...

    • IYD |
    • 13.08.31 |
    • 조회 18 |
  • [VGA] 지포스 GTX TITAN 성능 예상 : by VGA 계산기 [3]

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) ▶ 참고글1: http://iyd.kr/488 (그래픽카드 성능 방정식을 이용한 7970/680 성능 예측) ▶ 참고글2: http://iyd.kr/200 (그래픽카드 성능 방정식을 이용한 페르미 라인업의 성능 예측) ▶ 참...

    • IYD |
    • 13.02.19 |
    • 조회 32 |
  • It still works! : VGA 계산기로 돌려 본 7970, 680 예상 성능 [VGA] It still works! : VGA 계산기로 돌려 본 7970, 680 예상 성능 [8] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요. 한동안 올릴 글이 없었는데 지인의 요청을 받고 간단히 해 본 실험입니다.ㅎㅎ 다름이 아니라...... 오래 전 만든 'VGA 성능 방정식' 이 최신 VGA에까지 적용이 가능한지 여부...

    • IYD |
    • 12.04.11 |
    • 조회 40 |
  • [CPU] 잊혀진 아키텍처들 (예고편) [22] secret

    비밀글입니다.

    • IYD |
    • 11.10.17 |
    • 조회 4 |
  • [VGA] Hybrid PhysX 구성 팁 [12] secret

    비밀글입니다.

    • IYD |
    • 11.08.06 |
    • 조회 1 |
  • Hybrid PhysX : 6990 + GTX260 [VGA] Hybrid PhysX : 6990 + GTX260 [5] file

    글쓴이: 이대근 (ㄷㄱ)※ 무단전재 및 재배포를 금지합니다. 퍼가실 때에는 원제, 작성자, 출처를 반드시 병기해 주시기 바랍니다 ※ 안녕하세요. 오랜만에 벤치를 작성하게 되었습니다ㅋㅋ 이 블로그 개설 초기에 라데온 4870 + 9800GT를 사용한 하이브리드 피직스 구성 팁을 올렸었는데요,드라이버 버전들이 많이 올라가고 (...

    • IYD |
    • 11.08.05 |
    • 조회 6 |
  • AFR의 비밀 : 크로스파이어 미지원 게임 수동 설정법 [VGA] AFR의 비밀 : 크로스파이어 미지원 게임 수동 설정법 [14] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 크파 유저분들은 가끔 이 문제로 속을 썩으셨을 텐데요...비싼 돈 들여 크파를 구성해 놨더니 정작 갖고 있는 게임이 크파를 지원하지 않는다면?!눈물을 머금고 GPU 하나만 갈구며 게임을 ...

    • IYD |
    • 11.07.10 |
    • 조회 86 |
  • [VGA] Some articles on multi-GPU scaling [6] secret

    비밀글입니다.

    • IYD |
    • 11.06.30 |
    • 조회 0 |
  • 파이프라이닝의 이해 [CPU] 파이프라이닝의 이해 [22] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) (그림 출처: 위키피디아)명령어가 수행되는 과정을 아래와 같다고 칩시다.인출 - 디코드 - 실행 - 쓰기(완료)이 네가지 과정은 각각 해당 과정의 기능에 맞는 하드웨어에 의해 수행되고이...

    • IYD |
    • 11.03.02 |
    • 조회 73 |
  • 멀티스레딩 기술의 이해 [CPU] 멀티스레딩 기술의 이해 [53] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 오늘은 현대 CPU의 성능향상 기법 중 하나인 SMT에 대해 간단히 알아 보겠습니다.SMT는 Simutaneous Multi-threading의 약자로, 동시에 여러 스레드를 처리하는 기법을 통칭합니다.CPU의 ...

    • IYD |
    • 11.02.05 |
    • 조회 97 |
  • 현대 CPU의 구조 : 프론트엔드 편 [CPU] 현대 CPU의 구조 : 프론트엔드 편 [36] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) Tweet 얼마 전 백엔드 구조를 중심으로 현대의 CPU에 대해 알아 보았습니다.(현대 CPU의 구조 강좌 <백엔드 편> ☞ 여기)이번 강좌에서는 그때 설명하지 않고 남겨둔 프론트엔드에 대해 간...

    • IYD |
    • 11.01.22 |
    • 조회 180 |