[etc] 2017년을 마무리하며 : How I met your appetite
닥터몰라는 올 한해 여러가지 콘텐츠 포맷과 벤치마크 방법론을 시도해 왔습니다. 최종적으로 현재의 정책에 어떻게 도달하게 되었는지와 지난 1년간의 소회, 불과 나흘 앞으로 다가온 내년을 맞이하는 각오 등을 간단히 결산해 보려 합니다.
잘 아시다시피 닥터몰라는 수년간의 테스트 및 인력 수혈을 통해 누적한 방대한 벤치마크 데이터를 보유하고 있습니다. 그리고 한때, 거기 있는 모든 데이터를 독자에게 남김없이 떠먹여주는 것을 콘텐츠의 본질이라고 생각했었습니다. 닥터몰라의 전신 시절 방대한 그래프를 곁들인 리뷰 콘텐츠는 아주 흔한 포맷이었지요. 아니, ‘그래프를 곁들인 리뷰’ 라기보다 그저 압도적인 양의 그래프 그 자체일 뿐이었고, 방대한 데이터를 하나의 고찰로 꿰어내는 내러티브가 부족하단 것을 느낀 건 지난 2015년. 만 2년 이상 집필해 온 제온 리뷰를 1차 탈고하면서였습니다.
수십여 테스트 항목과 수백여 벤치마크 결과표를 그저 나열하기만 하고 나니 거기에 한 마디의 말도 더 붙일 게 없더군요. 이때까지 제가 작성했던 리뷰에 '내러티브'란 존재하지 않았고 단지 데이터를 문자로 '번역'하는 역할에 충실했을 뿐인데, 어느것 하나 누락되지 않은 온전한 '데이터'를 올려놓고 나니 제 목소리의 역할이 사라져버린 것입니다. 리뷰가 너무나 완벽해서 덧붙일 게 없던 게 아니라, ‘데이터 떠먹이기’ 그 자체가 목적인 글이면 내러티브가 들어갈 공간이 없다는 걸 깨달은 겁니다. 이때부터, 오늘에 이르기까지 (편의상 '닥터몰라 후기' 라고 하죠) 닥터몰라는 콘텐츠를 최대한 간결하게, 시각화하는 데 노력을 기울이고 있습니다.
리뷰는 일종의 다이제스트입니다. 리뷰를 독창적으로 만들어주는 것은 결과를 해석하는 POV(시점)입니다. 통계적으로 얻은 결과는 그 통계 자체의 정밀성을 전제하더라도 해석의 manipulation이 매우 쉽고, 그에 따라 복수의 POV로부터 다각적으로 분석하는 것이 필요합니다.
컴퓨터의 성능이란 어느 한가지 툴(시나리오)에 의한 벤치마크로 요약할 수 없습니다. 컴퓨터의 핵심은 범용성입니다. 수억 인구는 제각기 다른 수억개의 목적으로 컴퓨터를 사용하고, 이들의 사용 시나리오는 어느 것 하나도 같은 게 없습니다. 이 수억개의 시나리오를 모두 분석할 수 없으니 이들을 굵직하게 나눠 분석의 틀을 만들어야 함. 분석의 틀을 시각화하려 한 닥터몰라의 (현재로서는) 최종적 시도가 바로 스파이더 차트입니다.
스파이더 차트의 핵심은 성능을 규정짓는 수많은 요소들을 '유사성 있는 것끼리 모아' 보여주는 데 있습니다. 대체로 가독성을 위해 4-6개의 테스트 영역을 축으로 그려내지만 사실 이것이 전부가 아니라는 건 독자 여러분 모두 진작 눈치채셨겠지요. 예컨대 스파이더 차트 각각이 담고 있는 축은 항상 같지 않음. 이들이 달라지는 기준은 ‘체급’ 입니다. 다시 말해, 해당 제품에 관심을 가져 리뷰를 읽을 것으로 예상되는 독자에게 있어 ‘가장 있음직한’ (mostly likelihood) 경우를 가정한 것입니다.
‘가장 있음직한’ - 닥터몰라는 리뷰를 작성할 때, 이 개념을 늘 염두에 두려 노력합니다. 여러 테스트 영역 중 일부만이 하나의 리뷰 내에서 공개되는데, 당연히 선택에 따라 결과 해석이 달라질 수 있지요. (예를 들면 라데온과 지포스를 비교할 때 연산성능을 기준으로 할지, 게임성능을 기준으로 할지에 따라 평가는 정 반대로 달라집니다) 이럴 때 닥터몰라가 참조하는 해석의 가이드라인이 바로 ‘가장 있음직한’ 일인가를 따져 보는 것입니다.
[서버용 CPU, 베일을 벗기다 : 제온 E5 1-4세대 전격 대해부 (링크)]
이러한 기조로의 터닝포인트가 된 글이자 개인적으로 가장 좋아하는 제온 리뷰를 예로 들면, 제온을 궁금해하고 구매할 가능성이 있는 사용자에게 ‘가장 있음직한’ 시나리오는 컴퓨팅, HPC 등의 영역인 것이죠. 반대로 제온 사용자에게 있어 ‘가장 있음직하지 않은’ 시나리오는 무엇일까요. 싱글스레드 어플리케이션이나 게이밍이 아닐까 싶습니다. 그 결과로 제온 리뷰에서는 성능 분석의 틀이 여타 CPU의 그것과는 달랐던 것입니다. 물론 당시까지 각 잡고 쓰여진 제온 리뷰가 전무했던 것을 감안해, 모든 분야의 성능을 간략히 훑어 보여주기는 했지만 어디까지나 ‘게임용 CPU로서의 제온’은 제온 리뷰의 핵심 줄거리는 아니었습니다.
이와 유사하게, 코어 X와 라이젠 스레드리퍼를 다루는 리뷰에서는 일반 소비자용 CPU와 차별화되는 이들의 특성을 고려해 (1) 컴퓨팅 영역을 반영하고 / (2) 싱글스레드 어플리케이션 영역을 미반영했지만, 동시에 서버용 CPU와도 구별되는 이들의 출신을 감안할 때 HPC 등의 영역에 활용될 여지는 거의 없다고 보았습니다. ("그런 곳에서는 제온이나 EPYC을 사용할 거야") 해당 리뷰에서 벡터연산 항목들을 배제한 스파이더 차트를 메인에 배치한 것은 그러한 이유입니다.
[CPU WARS : EPISODE X - THE EMPIRE STRIKES BACK AGAIN (링크)]
일반 소비자용 제품을 리뷰할 때도 이러한 기조는 마찬가지로 적용됩니다. 예컨대 코어 i3 / 라이젠 3급의 CPU를 ‘가장 구매함직한’ 사용자가 강력한 계산성능을 필요로 하거나 HPC에 관심갖는 경우는 드물 테니까요. 반면 이러한 페르소나와 사용자층이 겹치는 가벼운 워크로드는 싱글스레드 성능에 상대적으로 더욱 의존하며, 특히 게이밍을 즐기는 경우 이러한 경향은 더욱 강해집니다.
한편 CPU 가격으로 200달러 이하를 지출하는 사용자들이 어느 정도 체급의 GPU를 구입하는 것이 ‘가장 있음직한’ 일인지 생각해보는 것 또한 중요합니다. 동시에 이러한 ‘가장 있음직한’ 경우의 도출이 자의적인 해석으로 흐르는 것을 막기 위해 닥터몰라는 다년간 확보한 실 구매 패턴으로 CPU-GPU price correlation을 매 시기마다 업데이트해 분석에 활용하고 있습니다.
하나의 ‘부속’으로서 CPU 또는 GPU 성능을 분석하는 방법론은 이미 널리 알려져 있습니다. 특히, 둘은 최종 결과값에 대한 완벽한 독립변수들이 아니며 둘의 상호작용에 따라서도 결과가 달라지기에 둘 중 하나를 정밀하게 측정하기 위해서는 다른 한쪽으로 인한 상호작용 효과 (interaction effect) 를 차단할 필요가 있습니다. 단순히 변인통제를 해야 하는 차원을 넘어 해당 요소가 유발할 가능성 있는 병목현상을 최소화해야 하는 것입니다. GPU 성능을 측정할 때 (비록 아무리 낮은 체급의 GPU를 대상으로 하더라도) 가능한 최고성능의 CPU를 테스트베드로 쓰는 이유이자, 반대로 CPU 성능을 측정할 때에는 GPU 뒤에 숨어버리는 것을 막기 위해 (GPU의 영향력이 감소하는) 저해상도에서 테스트하는 이유입니다.
이 방법론은 닥터몰라 전기의 리뷰들을 관통하고 있습니다. 날것 그대로의 성능을 드러내기 이상적인 환경에서의 이론적 성능을 도출하기 좋은 이 방법론의 단점은 무수히 많은 조합으로 파생될 수 있는 현실 세계에 그대로 대입하기 어렵다는 것입니다. 이를 해결하기 위해 닥터몰라는, 아주 심플하고 우직하게 테스트 자체를 더 수행하는 길을 선택했다. 예컨대 어떤 CPU를 GTX 1080 Ti와 조합한 게이밍 성능 데이터가 있다면, 1080, 1070, 그리고 1060과도 똑같은 방법으로 테스트를 진행하는 것 (전체 요소 실험설계 = full factorial design) 입니다.
그러나 이러한 ‘완벽하게 얻어낸’ 데이터를 어떻게 ‘진열’할 것인지가 숙제로 남습니다. 물론 독자 개인의 성향에 따라 풍부한 데이터 자체로부터 능동적으로 해석을 이끌어내는 이들이 있을 수 있습니다. 경험상 2시그마 바깥의 매니아층이 그러한 경향을 보입니다. 그러나 다수 독자를 대함에 있어 중요한 것은 방대한 데이터를 관통하는 내러티브를 부여하는 일입니다.
한가지 예를 들어볼까요. CPU의 종류에 따라, GTX 1080 Ti로 얻어낸 프레임레이트와 GTX 1060으로 얻어낸 프레임레이트는 동일한 비율로 감소하지 않습니다. 그러나 많은 다른 리뷰에서 이 지점이 생략된 채 전자만을 수록해 보여주곤 합니다. 하나의 ‘부속’으로서의, 이론적 성능을 아는 데는 물론 중요한 정보이지만 실제 다수의 사용자들이 놓인 환경에서 얻을 수 있는 기대성능을 왜곡해 보여주는 부작용이 있습니다.
요컨대 다양한 결과를 보여주되, 그러면서도 가독성을 확보해야 하는 (=주입하는 데이터 양을 적정선 이하로 통제하는) 상반된 요구를 마주하게 되는 것입니다. 이를 해결하기 위해서는 ‘스윗 스팟’이라는 개념을 도입하는 것이 중요합니다.
[앞의 표에 스윗 스팟을 붉은 사각형으로 표시한 것]
[스윗 스팟의 예시 중 하나 : GTX 1060 + FHD에서 테스트했을 경우의 스파이더 차트 형상]
닥터몰라의 커피레이크 리뷰에서, 코어 i7-8700K와 i5-8600K/8400 그리고 i3-8350K에 제각기 다른 GPU 하에서의 게이밍 성능 영역을 스파이더 차트의 축으로 넣은 것이 그 예입니다(아래의 그림). i7을 구입할 사용자라면 기꺼이 700달러 이상의 GPU를 구입할 수 있으리라는 근거가 있었고, i5 사용자들이 원하는 스윗 스팟 GPU는 300달러대의 GTX 1070이었으며, i3을 탑재하는 메인스트림 PC에 러닝메이트가 될 GPU로는 GTX 1060이 독보적으로 많이 팔리기 때문이지요.
[CPU WARS : EPISODE X - THE EMPIRE STRIKES BACK AGAIN (링크)]
물론 간결한 포맷 추구에 아쉬움을 표하는 독자들도 많았습니다. 단순히 (스스로 데이터를 해석하고자 하는) 능동적 독자의 절대수가 적다는 것만으로 이들의 아쉬움을 외면해서는 안 될 것입니다. 오랜 숙제에 드디어 닥터몰라가 답할 차례입니다. 결국 지금까지의 장황한 글은 이 마지막 문단을 위한 서론이었던 셈입니다.
닥터몰라는 이번 겨울방학 동안, 카드뉴스에 수록되지 않는 부분까지를 포함한 전체 영역의 성능을 DB로 제공하여 '스스로 탐구하고자 하는' 독자들이 마음껏 볼 수 있도록 하되, 닥터몰라표 콘텐츠 자체는 지금까지처럼 다수를 겨냥해 ‘잘 소화해 떠먹여주는’ 형태를 유지할 것입니다. 지금까지 보내 주신 모든 관심에 감사드리며 새해에는 더욱 진화한 ‘닥터몰라 2.0’으로 찾아뵙도록 하겠습니다. 독자 여러분 모두 새해 복 많이 받으세요!
Dr.Lee's Signature
* 적용중인 트로피 :
DR.MOLA
레벨 | Lv. 30 (-22%) |
---|---|
포인트 | 98,138 p |
출석 | 11 일 (개근 0 일) |
방법론은 잘 알았습니다. 그래서 묻는데, 베가는요?
내년에도 무궁한 활약을 기대합니다~
내년에도 양질의 리뷰 기대해도 되는건가요 ㅎ
닥터몰라의 벤치마크가 실제 상황을 가장 잘 반영한다고 봅니다.
1070환경에서 cpu가 프레임에 미치는 영향과
1080Ti 환경에서의 CPU 성능의 영향이 다르고
사용자가 목표로 하는 프레임에 따른 스윗스팟이 있는데 다른 곳의 벤치마크들은 이 부분을 잘 짚어내지 못한다고 생각해요.
존속할 수 있을 정도로 흥했으면 좋겠습니다.