하드웨어 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[모바일] 삼성 엑시노스 M3: 더 넓어진 아키텍처로 50% 이상의 IPC 증가를 달성

iMola | 조회 3376 | 추천 5 | 2018.01.29. 20:32 http://drmola.com/pc_column/266283

이 글은 아난드텍의 'The Samsung Exynos M3 - 6-wide Decode with 50%+ IPC Increase(링크)'를 전문 번역한 글입니다.

 

car_678x452.png

 

엑시노스 9810의 발표는 2018년의 첫 번째로 쏟아져나온 굵직한 소식들 중 하나이고 매우 흥분되는 소식이다. 싱글 스레드 성능이 두 배로 증가했다는 소식은 모두의 눈길을 사로잡았다. 엑시노스 9810은 최대 2.9GHz로 구동되는 네 개의 엑시노스 M3 커스텀 코어와 1.9GHz로 구동되는 Cortex A55 코어 네 개로 구성되었다.

 

일반적으로 삼성이 주장하는 최대 구동 클럭은 실제로 출시되는 모바일기기에서 구동되는 클럭과 일치하지 않았다. 엑시노스 8890은 최대 2.7GHz로 동작한다고 발표되었지만 실제 갤럭시 S7에 탑재된 칩은 2.6GHz의 최대 구동클럭을 가졌다. 또, 엑시노스 M2 역시 DVFS 테이블에서 봤을 때는 최대 2.8GHz까지 구동될 수 있지만 실제로 출시된 모델은 전력 효율적인 2.3GHz 클럭으로 구동되었다. 이런 선례와 비슷하게 갤럭시 S9에 탑재될 엑시노스 9810의 동작 클럭 역시 2.9GHz보다 낮을 것으로 보인다.

 

당연히 삼성이 주장하는 성능향상폭은 엑시노스 9810의 클럭이 2.9GHz일때의 수치라는 것을 기억해야 한다. 하지만 싱글 스레드 성능이 두 배가 향상되려면 이런 클럭 향상폭을 제외하고도 매우 큰 성능 향상이 필요하다. 따라서 이 성능 차이는 마이크로아키텍처의 변화에서 온 것으로 볼 수 있다. 삼성의 주장대로 싱글스레드 성능이 2배 향상되기 위해서는 실효 IPC 값이 55%에서 60% 정도는 올라야 한다.

 

엑시노스 9810이 공식 발표되면서, 삼성의 기술진들은 새로운 M3 마이크로아키텍처에 대한 정보에 대한 대외비를 유지할 필요가 없어졌다. 지난 수 년동안 CPU의 마이크로아키텍처를 분석하기 위한 주요 창구 중 하나는 회사가 GCC나 LLVM 컴파일러 등의 오픈소스 프로젝트에 제출하는 정보였다. 다행히도 삼성은 훌륭한 오픈 소스 기여자이며 어제 삼성은 M3 마이크로아키텍처의 머신 모델에 대한 내용을 담은 첫 번째 패치를 게시했다.

 

지난 삼성의 마이크로아키텍처와 M3 마이크로아키텍처의 차이를 더 잘 알아보기 위해 잠깐 엑시노스 M1과 M2의 고수준의 파이프라인 구성을 살펴보자.

 

m1_m2_575px.png

 

엑시노스 M1과 M2 마이크로아키텍처는 4개의 명령어를 디코드하고 디스패치 할 수 있는 프론트엔드를 보유하고 있다. 이 4-wide 디코드 단계는 당시 ARM의 Cortex A72와 A73이 각각 3-wide와 2-wide 명령어 디코더를 가지고 있던 것을 생각해보면 보편적인 것은 아니었다. 다만 2-wide의 A73 마이크로아키텍처의 IPC가 삼성의 엑시노스 M1, M2와 크게 차이가 나지 않았던 것을 감안해 볼 때 삼성 LSI의 첫 자체 개발 아키텍처인 엑시노스 M1, M2의 프론트엔드가 ARM의 프론트엔드보다 기술적으로 뒤쳐졌다고 설명할 수 있겠다. 삼성의 M1과 M2의 백엔드는 아래와 같은 9개의 실행 포트를 가지고 있다 :

 

  • 정수 덧셈을 위한 두 개의 간단한 ALU
  • 정수 곱셈, 나눗셈을 위한 좀 더 복잡한 ALU 하나
  • 로드 유닛 하나
  • 스토어 유닛 하나
  • 두 개의 분기예측 포트들
  • 두 개의 부동소수점과 벡터 연산 포트

 

엑시노스 M1과 M2는 9-wide의 백엔드를 가진 머신이다. 이와 비교해서 A73은 최대 8개의 마이크로옵을 7개의 파이프라인들에 디스패치하고, A75는 최대 11개의 마이크로옵을 8개의 파이프라인들에 디스패치한다. 물론 이들은 매우 다른 마이크로아키텍처를 가지고 있고 각 파이프라인의 동작 역시 크게 다르기 때문에 단순한 숫자 비교는 금물이다. 명령어 페치 단계에서부터 최종 writeback 단계까지 엑시노스 M1, M2는 최대 13 스테이지 깊이의 파이프라인을 가지고 있다. 이 수치는 A73과 A75의 파이프라인 스테이지보다 두 단계 더 깊은 수치이고, 분기예측 실패시 손해가 더 크다.

 

지금까지 엑시노스 M1, M2를 대략적으로 짚어봤다. 삼성은 더 자세한 마이크로아키텍처에 대한 정보를 HotChips 2016에서 공개한 바 있다. 여기에 대한 아난드텍의 기사는 다음 링크에서 볼 수 있다.

 

m3_575px.png

 

엑시노스 M3는 엑시노스 M1, M2와 큰 차이가 있다. 엑시노스 M3는 완전히 재설계된 프론트 엔드를 가지고 있으며, 백엔드 역시 더 넓어졌다. M3의 프론트엔드 넓이는 M1, M2에 비해 50% 더 넓어진 6-wide가 되었다. 삼성의 새 마이크로아키텍처는 애플의 CPU와 함께 모바일에서 쓰이는 가장 넓은 마이크로아키텍처가 되었다.

 

다만 프론트엔드의 파이프라인 스테이지 2개가 추가되어 명령어 발행부터 최종 writeback 단계까지 전체 파이프라인 깊이가 13단계에서 15단계로 늘어났기 때문에 분기 예측 실패시 손해가 더 커졌다. 이를 상쇄하기 위해서는 더 향상된 성능의 분기예측기가 필요하지만 우리는 현재까지의 자료만 보고 실제 분기예측기의 성능이 향상되었는지를 확인할 방법은 없다. 또 Rename stage의 reorder buffer가 96엔트리에서 228 엔트리로 크게 늘었는데, 삼성은 이를 통해 넓어진 백엔드에 프로그램의 명령어 수준의 병렬성을 찾아 끊임없이 명령어를 공급하는 능력을 증가시키려고 한다.

 

M3의 스케줄러의 경우 필자가 보기에 가장 좋은 추측은 M1의 구성에서 자연스럽게 진화한 형태라는 것이다. 우리가 알고있는 내용은 코어는 12개의 마이크로옵들을 스케줄러에 디스패치하고, 12개의 실행 포트가 있다는 것이다:

 

  • 정수 덧셈을 위한 두 개의 간단한 ALU, M1/M2와 같음
  • 정수 덧셈, 곱셈, 나눗셈을 모두 처리하는 두 개의 더 복잡한 ALU. M1/M2보다 두 배 많음. 즉, 곱셈, 나눗셈 스루풋은 최대 2배, 간단한 덧셈 연산은 25% 더 높은 스루풋을 가짐.
  • 두 개의 로드 유닛. M1, M2에 비해 2배 많은 수치
  • 한 개의 스토어 유닛. M1, M2와 동일
  • 두 개의 분기예측 포트들, M1, M2와 동일한 수치로 가능하다면 사이클당 두 개의 분기를 예측할 수 있음.
  • 두 개의 부동소수점, 벡터 연산 파이프라인 대신 M3는 이제 3개의 파이프라인을 가지며, 각각의 파이프라인은 모두 복잡한 연산을 수행할 수 있다. 이론적으로 M3의 부동소수점 스루풋은 크게 증가했을 것이다.

 

간단한 ALU 파이프라인은 이미 한 사이클당 하나의 명령을 수행하고 있고, 이 유닛의 경우 추가적인 성능 개선의 여지가 거의 없다. 하지만 더 복잡한 파이프라인의 경우 64비트 정수 곱셈은 여전히 4 사이클이 필요하지만, 정수 나눗셈의 경우 21 사이클에서 12 사이클로 그 성능이 크게 개선되었다. 다만 이런 나눗셈 성능 개선이 두 복잡한 ALU 중 하나에만 해당하는 것인지, 양쪽 모두에 해당하는 것인지는 확실하지 않다. 어쨌든 위에서도 말한 것처럼 정수 곱셈 연산의 스루풋은 2배로 증가했고, 간단한 정수 연산 스루풋 역시 사이클당 3에서 4로 25% 증가했다.

 

로드 유닛의 개수는 두 배로 늘었다. 다만 로드 유닛의 레이턴시는 여전히 4 사이클로 바뀌지 않았다. 스토어 유닛은 개수와 레이턴시 모두 변하지 않았다.

 

부동소수점과 벡터 연산을 담당하는 파이프라인은 엑시노스 M3에서 가장 크게 바뀐 부분으로 보인다. 엑시노스 M3는 분산된 능력을 가진 세 개의 부동소수점과 벡터 파이프라인을 가지고 있다. 곱셈과 단순한 부동소수점 연산은 엑시노스 M1, M2에서 하나의 파이프라인에서만 가능하던 연산을 모든 파이프라인에서 수행할 수 있게 되면서 3배의 최대 스루풋 향상이 있었다. 세 배가 된 스루풋에 더해 부동소수점 덧셈과 뺄셈의 레이턴시 역시 3 사이클에서 2 사이클로 줄어들었다. 곱셈은 여전히 4 사이클의 레이턴시를 가진다.

 

부동소수점 나눗셈은 세 개중 두 개의 파이프라인에서 수행 가능한 것으로 보이며, 그 레이턴시는 15 사이클에서 12 사이클로 줄어들었다. AES 명령어의 암호 연산 스루풋 역시 3개의 파이프라인 중 두 개가 이를 지원하면서 두 배로 증가했다. SHA 명령어 스루풋은 여전히 같다. 그리고 간단한 벡터 연산의 경우 하나의 추가 파이프라인 덕분에 그 스루풋이 50% 증가했다.

 

capture_575px.png

 

우리는 여전히 삼성의 3세대 CPU 마이크로아키텍처의 표면만을 긁어모으고 있지만 한 가지는 명확하다: 그것은 SLSI의 싱글 스레드 성능이 두 배로 늘었다는 주장이 허풍이 아닐 거라는 점이다. 여기서 필자는 파이프라인 구성상의 고수준의 변화만을 다뤘다. 아직 우리는 메모리 서브시스템에 어떤 더 많은 개선이 있었는지를 알지 못한다. 나는 M3의 캐시 크기가 크게 증가할 것이라고 예상하고 있다. 최대 코어당 512KB의 L2 캐시와 4MB의 L3 캐시를 예상해본다. 부동소수점 파이프라인 변경 사항을 감안할 때 이런 형식의 작업 부하에서의 성능 향상 역시 기대하고 있다. M3 마이크로아키텍처의 프론트엔드에 대해서는 여전히 궁금한 점이 많고, 이 궁금증은 삼성이 다시 Hot Chips에서 새로운 마이크로아키텍처 디자인을 발표한다면 해소될 수 있을 것이다.

 

물론 이런 단일 코어의 성능 향상은 코어가 먹는 전력 소모량 역시 크게 증가시킬 것이다. 그리고 이는 싱글 코어 성능이 두 배나 향상되었음에도 불구하고 멀티코어 성능이 대략 40% 향상에 그치는 이유에 대한 설명이 될 수 있을 것이다. 만약 이런 코어를 모두 최대 클럭으로 구동시키려고 한다면 매우 높은 TDP를 보여줄 것이다.

 

지금까지의 모든 가정이 현실이라면 삼성이 도대체 어떻게 갤럭시 S9에서 엑시노스 9810과 스냅드래곤 845의 밸런스를 맞췄는지 가늠할 수가 없다. A75로 끌어낼 수 있는 최선의 성능과 엑시노스 M3의 최악의 성능에 대한 정보가 아직 부족하기 때문이다. 앞으로 두달 뒤면 삼성 모바일과 삼성 LSI가 이것들을 어떻게 요리했는지 볼 수 있을 것이다.

iMola's Signature

적용중인 트로피가 없습니다.

DR.MOLA

레벨 Lv. 9 (24%)
포인트 7,703 p
출석 22 일 (개근 1 일)

iMola'님의

  • 연관 글
  • 게임 정보
Genre:
삼성
Publisher:
삼성
Release date:
1969년 1월
  1. capture_575px.png (File Size:78.3KB/Download:0)
  2. car_678x452.png (File Size:480.7KB/Download:0)
  3. m1_m2_575px.png (File Size:63.5KB/Download:0)
  4. m3_575px.png (File Size:72.4KB/Download:0)
facebook twitter google plus pinterest kakao story band
Profile image 편두통 2018.01.30 19:43

번역 수고하셨습니다. 실체를 알려면 아직 2달이나 남았군요..

엑시노스에서도 신경망코어는 따로 없는건가요? 인공지능에 대한 접근방식은 애플 화웨이 vs 퀄컴 삼성 인건가..

개인적으로 iMola님은 앞으로 SoC 판도를 어떻게 예상하고 계시는지도 궁금하네요

Profile image iMola 2018.02.10 01:12
요즘 바빠서 답을 빨리 못드렸네요. 일단 지금까지 공개된 정보로는 신경망 연산 코어가 따로 있는것 같진 않은데 혹시 몰라서 좀 더 두고봅시다. 다만 저는 개인적으로 결국은 신경망 코어를 추가하는 쪽으로 갈 듯하다는 생각을 하는 중입니다.
Profile image Nvidia 2018.01.30 22:53

놀랍습니다. 역대 엑시노스중 성능 변화가 가장 급격한게 아닌가 싶어요

싱글 두배 증가라면 애플의 A11을 거의 따라잡았다고 볼 수 있겠네요

ARM 코어텍스 아키텍쳐에서 탈피할만한 분명한 이유가 있었네요. 스냅과 비슷한 위치해 안주해 있을 줄 알았는데 다시보게 됩니다 

Profile image Rantert 2018.02.01 05:35
나와봐야 알겠지만 애플의 공정은 1세대 tscm 10nm이고 삼성은 2세대 10nm인것과 애플은 6코어 삼성은 8코어임에도 삼성발표치대로라면 a11보다 멀티스레드성능이 약간떨어지는걸 고려하면 아직은 조금 멀었다고 생각이드네여.. 굳이 비유하자면 성능이 불도저vs샌디브릿지에서 라이젠vs커피레이크 정도로 바뀌어서 좀 따라잡긴 했다는거.. 싱글2배도 부스트클럭 2.9ghz라는 상당히 높은 클럭에서 달성한것이라서 아마 저 부스트클럭에서 전성비는 시궁창이겠구요.. 그렇게 효율적이진 않다고생각됩니다 모바일에서는요.. 갤9에는 2.5~2.7ghz정도로 조정될게뻔하구요
Profile image iMola 2018.02.10 01:14
실 기기에서 벤치마크를 해봐야 확실하겠지만 격차를 현저히 줄인 것만은 분명합니다. 그 이상의 얘기는 갤s9 성능 리뷰에서 풀어보도록 할게요 ㅎㅎ. 다만 아키텍처가 6-wide로 넓어졌다고 해서 그것이 즉시 애플급의 IPC 달성으로 이어지느냐는 두고 볼 문제입니다. 애플은 이미 아이폰 5s에서부터 6-wide 아키텍처를 채택했고, 그 사이에 IPC를 꾸준히 올려왔으니까요.
Profile image Rantert 2018.02.01 05:39

전 삼성이나 애플과같은 고ipc방식이 당연히 맞다고생각합니다.

 

모바일에서 전성비부분이 문제가될수있으나.. 사실 고클럭에서의 전성비는..

 

ipc가 높은쪽이 거의 유리하죠. 2ghz로도 3천점을 낼수있는놈과 3ghz로 3천점을낼수있는놈

 

비교해보면 설계에따라 달라지긴하겠습니다만 보통 전자가 전성비가높아집니다.

 

물론 아키텍처규모가 거대해져서 클럭이낮을때는 후자가 전성비가 높은경우가 많지만

 

arm탑재 스마트폰에서 빅리틀을 시행한게 5년정도 되었다는걸 생각하면되죠

 

천하의 애플조차도 이제 빅리틀을쓰니까요.. 어차피 낮은성능이 필요할떄 전성비는

 

리틀코어로 해결하면되는거구요..  arm이야 커버범위가 다양해서 고성능아키텍처성능이

 

애플이랑 비교하면 꽤 낮은편입니다. 아마 삼성도 플래그십엔 자체아키텍처 고IPC인놈을 계속밀고나가고

 

메인스트림급정도에선 arm 레퍼런스아키텍처인 a75를 밀고나가겠죠.. 지금도그러고있고요

  • [번역] CPU 보안 버그 논의 중간결산 : 어디까지 왔나? [CPU] [번역] CPU 보안 버그 논의 중간결산 : 어디까지 왔나? [3] file

    일본의 PC매거진 DOS/V POWER REPORT (약칭 도스파라) 에서는 이달 초 발매된 2018년 5월호의 특집으로 폭로(?) 반년차를 맞이한 CPU 보안 버그 이슈를 중간점검하는 기사를 실었습니다. 그중 일부가 자매 웹사이트인 PC WATCH에 발췌되어 올라왔지요. 물론 주 목적은 오프라인 잡지 판매 홍보를 위해서겠지만...;;; 그동안 ...

    • Dr.Lee |
    • 18.04.02 |
    • 조회 수 1818 |
  • [비교해봅시다] 2018 아이패드 9.7 vs 2017 아이패드 프로 10.5 [모바일] [비교해봅시다] 2018 아이패드 9.7 vs 2017 아이패드 프로 10.5 file

    27일(현지 시각) 애플 펜슬을 지원하는 새로운 9.7인치 아이패드가 등장했습니다. 애플은 새로운 아이패드를 교육용 시나리오에 맞춰 어제 발표를 진행했기에 많은 일반 소비자인 우리의 경우 혼란스러운 부분이 있었습니다. 특히 이벤트 이후 백투더맥 페이스북 그룹이나 소셜 미디어 타임라인에서 둘의 차이점이 정확히 무...

  • 아이맥 프로에 대한 진실과 오해 : 워크스테이션의 가치 [etc] 아이맥 프로에 대한 진실과 오해 : 워크스테이션의 가치 [14] file

    사진 : 애플 2013년, 애플은 한동안 업데이트가 없던 맥 프로 라인업에 충격적인 변화를 주었다. 새로 공개된 맥 프로는 이전까지의 데스크톱 컴퓨터와는 판이하게 달랐다. 게다가 이 제품은 소비자를 대상으로 하는 제품이 아니라 전문가를 대상으로 하는 워크스테이션이었기에 시장에 던져진 충격은 더 컸다. 이 제품은 디...

    • iMola |
    • 18.03.10 |
    • 조회 수 4036 |
  • [Live] AMD 라이젠 2000G 시리즈 APU 런칭 파티 [etc] [Live] AMD 라이젠 2000G 시리즈 APU 런칭 파티 [2] file

    닥터몰라 X MNA 대피소는 추첨으로 선발된 회원 8분을 모시고 여의도 콘래드서울에서 개최된 AMD 라이젠 2000G 시리즈 APU 런칭 파티에 참석하고 있습니다. 아래의 라이브 블로깅 세션을 통해 행사를 중계하니 재미있게 봐 주시기 바랍니다 :) 이날 행사에서 사용된 영상 자료를 많은 회원분들과 함께 보기 위해 공유합니다....

    • Dr.Lee |
    • 18.02.13 |
    • 조회 수 1421 |
  • [카드뉴스] BATTLEFRONT : 뒤늦게 APU 시장에 상륙한 레이븐 릿지 [CPU] [카드뉴스] BATTLEFRONT : 뒤늦게 APU 시장에 상륙한 레이븐 릿지 [6] file

    * 닥터몰라 서버 오류로 약 30분 지연 업로드된 점 양해를 부탁드립니다. 엠바고 해제시각부터 F5 새로고침을 누르셨을 분들을 생각하면 눈물이... (아아아...)

    • Dr.Lee |
    • 18.02.12 |
    • 조회 수 4261 |
  • Samsung Gear IconX (2018) 음향리뷰 [음향기기] Samsung Gear IconX (2018) 음향리뷰 file

    장비지원 : B&P 인터내셔널, 이신렬 박사님 측정수행 : STUDIO51 데이터 검증 : 이신렬 박사님 최대 출력 (0dBFS, 500Hz, sine wave) 정격 출력 (-15.5dBFS, 500Hz, sine wave) 비보정 주파수 응답 (20Hz-20kHz, sine sweep, -15.5dBFS, 1/24smoth) Diffuse field(DF) 보정 주파수 응답 (20Hz-20kHz, sine sweep,-15.5dBFS, ...

    • STUDIO51 |
    • 18.01.29 |
    • 조회 수 2138 |
  • 삼성 엑시노스 M3: 더 넓어진 아키텍처로 50% 이상의 IPC 증가를 달성 [모바일] 삼성 엑시노스 M3: 더 넓어진 아키텍처로 50% 이상의 IPC 증가를 달성 [6] file

    이 글은 아난드텍의 'The Samsung Exynos M3 - 6-wide Decode with 50%+ IPC Increase(링크)'를 전문 번역한 글입니다. 엑시노스 9810의 발표는 2018년의 첫 번째로 쏟아져나온 굵직한 소식들 중 하나이고 매우 흥분되는 소식이다. 싱글 스레드 성능이 두 배로 증가했다는 소식은 모두의 눈길을 사로잡았다. 엑시노스 9810은...

    • iMola |
    • 18.01.29 |
    • 조회 수 3376 |
  • 아이폰 X 리뷰: 용감한 신세계 [모바일] 아이폰 X 리뷰: 용감한 신세계 [4] file

    2007년에 등장한 이후, 아이폰은 세계를 바꿨다. 아이폰만큼 애플이 세상에 엄청난 영향을 준 제품도 드물다. 플립폰이나 슬라이더폰을 쓰던 사람들은 점점 앞이 화면으로 채워진 손 안의 컴퓨터를 들고 다니기 시작했다. 아이폰이 다시 만들어낸 스마트폰을 통해 트위터, 인스타그램, 카카오톡과 같은 모바일에 최적화된 서...

  • AMD, 경영진 재정비 및 조직개편 : EESC는 더 이상 없다 [etc] AMD, 경영진 재정비 및 조직개편 : EESC는 더 이상 없다 [3] file

    돌이켜보면 라자 쿠드리가 영영 돌아오지 않을 휴가(...)를 쓴 날로부터 모든 이들의 관심은 단 하나, 그 후임자가 누가 되는지에 쏠려 있었을 것이다. 지금은 경쟁사 인텔에서 비슷한 보직을 맡고 있는 쿠드리는 ATI를 거쳐 AMD에서까지 그래픽 부문에서 강력한 리더십을 발휘해 온 바 있다. 2015년 자사의 여러 부문에 나...

    • Dr.Lee |
    • 18.01.25 |
    • 조회 수 2311 |
  • 암호화폐 대 PC방 : 지포스 GTX 1060 5GB 모델 투입의 의미 [VGA] 암호화폐 대 PC방 : 지포스 GTX 1060 5GB 모델 투입의 의미 [7] file

    지난 연말, 엔비디아는 중국의 인터넷 카페 (PC방) 수요에 대응하고 암호화폐 채굴 용도로의 전용을 막기 위한 양수겸장의 패를 뽑아들었다. 바로 PC방 / 채굴머신 양쪽으로 인기가 높은 지포스 GTX 1060에 소폭의 리뉴얼을 가하는 것이었다. 현존하는 3GB / 6GB 모델의 중간쯤을 포지셔닝한 '지포스 GTX 1060 5GB' 가 바로 ...

    • Dr.Lee |
    • 18.01.11 |
    • 조회 수 2990 |
서버에 요청 중입니다. 잠시만 기다려 주십시오...