Inside Your Galaxy S7 & S7 edge : (1) 최초 성능 브리핑

by IYD on 2016년 03월 07일 17시 01분 (3년 전) 조회: 909

Author : Jin Hyeop Lee, Daeguen Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)

 

 

 

 

 

삼성은 언제나와 같이 MWC 기간에 새 플래그십 스마트폰을 발표했습니다. 갤럭시 S7의 발표에 대해서는 이전의 MWC 다이제스트에서도 짚어드린 바 있습니다(링크). 갤럭시 S7은 다시 돌아온 방수, 방진기능과 더 커진 배터리, 디자인의 개선으로 더 나아진 그립감 등 전작에 비해 많은 개선점들을 가지고 있습니다. 물론 위에서 언급된 또는 언급되지 않은 개선점들은 스마트폰의 사용자 경험에 매우 중요한 요소들입니다. 하지만 그 자체로 작은 범용 컴퓨터인 스마트폰에서 성능 역시 스마트폰의 가치 중에 큰 부분을 차지합니다. 게다가 작년 안드로이드 시장에서 거의 독보적인 성능 우위를 누렸던 갤럭시 S6의 후속작이기에 그 성능에 더 큰 관심이 가는 것은 인지상정입니다.

 

갤럭시 S7은 엑시노스 8890과 스냅드래곤 820을 각각 탑재하는데 본 리뷰는 국내 출시될 엑시노스 8890을 탑재한 모델로 진행되었습니다. 엑시노스 8890은 무엇보다도 삼성의 첫 번째 독자 CPU 아키텍처인 Exynos M1이 탑재되었다는 점에서 주목받고 있습니다. 엑시노스 8890은 Exynos M1 코어 네 개로 빅 클러스터를, Cortex-A53(이하 CA53) 코어 네 개로 리틀 클러스터를 각각 구성하고 있으며 Mali-T880을 무려 12개 클러스터로 투입하여 그래픽 성능 보강에도 힘을 쏟았습니다(아래 표의 Exynos 7420 표기 중 Mali T770은 Mali T760의 오기입니다).

 

(Anandtech, Early Exynos 8890 Impressions And Full Specifications)

 

물론 스마트폰의 ‘성능’이라는 척도는 AP에 의해서만 결정되지 않습니다. 탑재된 메모리, AP가 구동해야 하는 기기의 해상도, 저장장치 등 여러 요소에 의해서 영향을 받습니다. 하지만 AP성능을 분석하는 것이 전체 스마트폰의 성능을 분석하는 데 큰 도움을 주는 것은 분명합니다. 지금부터 갤럭시 S7에 탑재된 새로운 엑시노스, 엑시노스 8890에 대해서 좀 더 자세히 알아봅시다.

 

이미 말씀드린 바와 같이 엑시노스 8890은 ARM의 표준 코어를 사용하지 않고 독자적인 코어를 사용했습니다. 독자분들도 아시다시피 ARM은 자사의 IP를 제공하는 여러 가지 정책을 갖고 있습니다. 특히 CPU 쪽에서는 ARM이 제공하는 IP의 스펙트럼이 상당히 넓습니다. ARM이 제공하는 표준 코어와 그 구성을 그대로 가져다 쓸 수 있는가 하면 ARM으로부터 단지 명령어 셋의 사용권과 몇 가지 사항들을 건네받아 독자적으로 커스텀 코어를 만들 수도 있습니다. 바로 직전 세대의 스마트폰에서는 커스텀 코어를 사용하는 제조사는 애플이 유일했고, 조금 더 범위를 확장시켜 보면 퀄컴이 ARMv7 시절에 독자 커스텀 코어를 사용한 바 있습니다.

 

사실 커스텀 CPU를 설계하고 유지하는 것은 막대한 비용이 드는 작업입니다. 하지만 그만큼 매력적인 작업이기도 합니다. ARM의 로드맵에 상대적으로 덜 구애받는 제품 생산 주기를 가져갈 수 있으며 코어의 특성과 성능을 입맛에 맞게 조절할 수 있습니다. 애플의 경우가 대표적인 예시입니다. 대부분의 제조사가 코어 수를 8개, 10개로 늘려나가는 속에서도 여전히 듀얼코어를 고수하고 있으면서도 뒤쳐지지 않는 성능을 보여주고 있습니다.

 

삼성은 Exynos M1을 선보이면서 커스텀 CPU 제조사의 대열에 합류했습니다. 삼성의 커스텀 코어를 이용해 만들어진 엑시노스 8890은 어느때보다도 삼성의 입맛에 맞는 성능으로 잘 구성되어 있을 것입니다. 우리는 Exynos M1의 성능을 살펴보는 것으로부터 엑시노스 8890, 더 나아가 삼성이 바라보고 있는 스마트폰 AP의 덕목에 대해서도 살펴볼 수 있을 것입니다.

 

 

삼성의 첫 독자 CPU 코어 : Exynos M1

 

엑시노스 8890의 빅 클러스터는 4개의 Exynos M1 코어로 구성되어 있습니다. 물론 아직 엑시노스 8890의 다이 샷이 공개되지 않은 상황이기에 Exynos M1이 기존의 Cortex-A57(이하 CA57)에 비해 얼마나 큰(혹은 작은) 면적을 차지하는지를 알 수는 없습니다. 다만 작동클럭과 성능 그리고 이번에 삼성이 Mali-T880을 12클러스터나 투입하면서 가뜩이나 커졌을 다이 면적에 기존보다 월등히 커진 CPU 코어를 기존과 같은 숫자로 투입하는 일을 할 가능성이 낮다는 합리적인 가정을 바탕으로 아키텍처의 넓이 자체는 넓어지지 않았을 것이라는 결론을 낼 수 있습니다.

 

즉 이런 가정 하에서 Exynos M1의 IPC가 극단적으로 향상될 것이라 믿는다면 오히려 그것이 이상한 일일 것입니다. 이는 IYD가 엑시노스 8890의 발표에 즈음하여 쓴 칼럼이 지적했던 것입니다(링크). 백문이 불여일견 IYD가 최신 아키텍처들의 클럭당 성능을 정리한 그래프를 준비했습니다.(1,2월 스마트폰 리포트에서 보신 것 같다면 기분 탓입니다.)

 

 

그래프가 제시하는 결과를 설명하기 전 그래프가 어떻게 탄생했는지를 간단히 짚어드리도록 하겠습니다. 위 그래프는 각 아키텍처를 사용한 대표적인 AP의 싱글코어 긱벤치 점수를 1GHz로 표준화시킨 결과입니다. Twister는 A9과 A9X, Kryo는 스냅드래곤 820, Exynos M1은 엑시노스 8890, CA72는 Kirin 950과 스냅드래곤 652, CA57은 엑시노스 7420의 결과를 이용했습니다.

 

단연 눈에 띄는 것은 Twister의 높은 IPC입니다. Twister는 아키텍처의 넓이 자체가 다른 아키텍처들에 비해 1.5~2배 가까이 넓기 때문에 당연한 결과라고도 볼 수 있겠습니다. 그리고 예상대로 Exynos M1은 CA57에 비해 크지 않은 수준의 성능 향상을 보여주고 있습니다. 구체적으로 정수 연산성능은 5%, 부동소수점 연산성능은 10%가량의 향상이 있었습니다. CA72와 비교했을 때는 거의 비슷한 성능 양상을 보여주고 있습니다. 혹자는 이런 적은 성능 차이를 두고 캐시 용량과 그 속도의 향상만으로도 가능한 수준의 성능향상치라고 주장하며 Exynos M1이 매우 낮은 수준의 커스텀 코어일 것이라는 주장을 하기도 합니다. 하지만 이런 주장은 Geekbench의 점수 세목 양상을 확인해보면 사실이 아니라는 것을 알 수 있습니다.

 

 

 

위 표는 긱벤치 싱글 코어 점수를 기반으로 작성되었습니다. 결과를 보시면 알 수 있듯 CA72와 Exynos M1은 완전히 다른 아키텍처임을 확인할 수 있습니다. 긱벤치의 각 테스트 세목들은 여러 가지 요소에 영향을 받지만 특정 테스트가 특정 유닛의 구성에 영향을 받는 정도의 경향성은 찾아볼 수 있습니다. Exynos M1이 CA72에 비해 낮은 성능을 보이는 테스트들은 주로 정수 곱셈 유닛, 부동소수점 덧셈 유닛의 구성, 성능에 큰 영향을 받는 테스트들입니다. 반대로 Exynos M1이 CA72에 비해 높은 성능을 보이는 테스트들은 Shifter ALU, 부동소수점 곱셈의 구성과 성능에 영향을 크게 받습니다.

 

즉 Exynos M1은 CA72에 비해 상대적으로 Shifter ALU, 부동소수점 곱셈 성능이 강화되었지만 정수 곱셈, 부동소수점 덧셈 성능이 떨어집니다. 이는 각 아키텍처가 비슷한 크기라고 가정했을 때 백엔드의 연산유닛의 구성 비 차이나 ALU 자체의 성능 그리고 캐시 성능의 차이에서 발생했을 것입니다. 각 아키텍처의 정확한 ALU 구성이나 각 ALU의 성능(클럭 사이클당 명령어 처리갯수)은 추가적인 분석이 필요하지만 두 아키텍처가 서로 다른 방식으로 성능향상을 꾀하고 있다는 사실을 확인할 수 있습니다.

 

흥미로운 것은 Exynos M1이 기존 CA57 아키텍처에 비해 상대적으로 부동소수점 연산 성능이 강화되었다는 점입니다. 사실 이는 Exynos M1 뿐만 아니라 각종 최신 아키텍처들에서 공통적으로 나타나고 있는 양상입니다. 아래 그림은 아키텍처별로 정수연산성능과 부동소수점 연산성능의 비를 구한 것입니다. 아키텍처명 아래에 있는 숫자가 클수록 상대적으로 부동소수점 연산성능이 중요시되었다는 의미입니다.

 

 

이는 현대 컴퓨팅 환경의 워크로드가 점점 부동소수점 연산 쪽으로 치우치고 있기 때문에 이 수요에 대응하는 방향으로 아키텍처가 개발되고 있기 때문입니다(링크). 삼성 역시 CA57 아키텍처에 비해 상대적으로 부동소수점 연산성능을 강화시킴으로써 이런 수요에 대응하려고 했습니다. 다만 최신 아키텍처들 중 가장 낮은 정수 대 부동소수점 성능비를 가지는 것은 조금 아쉬운 대목이 아닐 수 없습니다.

 

대신 Exynos M1은 CA53에 비해 전력대 성능비를 개선하고 클럭을 좀 더 쉽게 올릴 수 있도록 설계를 개선했습니다. 이런 아키텍처적인 개선에 더해 14nm LPP 공정은 Exynos M1이 최대 2.6GHz의 작동속도로 작동할 수 있도록 만들었습니다. 

 

정리하자면 Exynos M1은 CA57, CA72와 동일한 3-wide의 비순차실행 코어 디자인을 채택함으로서 클럭당 성능의 극적인 변화는 가져오지 못했습니다. 다만 현대 컴퓨팅 워크로드 수요에 맞춰 상대적으로 부동소수점 연산을 강화했고 CA57에 비해 개선된 전력대 성능비와 재설계된 파이프라인 분절 등은 Exynos M1이 2.6GHz라는 높은 클럭스피드로 작동할 수 있게 만들어 주었습니다.

 

엑시노스 8890의 빅코어를 구성하고 있는 Exynos M1을 살펴봤으니 이제 엑시노스 8890의 전체 CPU 구성을 살펴볼 차례입니다. 이미 여기저기서 여러 정보를 보셨겠지만 채널 고정해주세요. IYD가 가장 정확한 정보를 여러분들께 전달해드리겠습니다.

 

 

갤럭시 S7의 CPU 성능 : 벤치마크를 통해

 

현재 인터넷에 돌아다니고 있는 벤치마크 결과들 중 일부는 '시연용' 갤럭시 S7의 벤치마크 점수입니다. 최종 출시형 갤럭시 S7과 대략 10~15%의 성능차이가 있는 것을 확인했습니다. IYD는 '시연용'이 아닌 갤럭시 S7으로 모든 벤치마크를 진행했습니다. 먼저 Geekbench 점수부터 살펴봅시다.

 

 

긱벤치의 싱글코어, 멀티코어 수치는 각각 메모리 점수를 뺀 값으로 비교적 순수한 연산성능을 반영하고 있습니다. 엑시노스 7420과 비교하면 엑시노스 8890은 모든 면에서 큰 폭의 성능 향상을 보였습니다. 싱글 코어, 멀티코어 모두 공히 30%에 달하는 성능 향상을 보여주고 있습니다. 메모리 성능 역시 거의 더블 스코어에 달하는 큰 폭의 향상을 보여주었습니다. 

 

그 외 다른 최신 아키텍처들과의 비교에서는 엎치락 뒤치락 하는 모습을 보이고 있습니다. 긱벤치 멀티코어 점수는 가장 높은 수치를 기록하고 있지만 반대로 싱글코어 점수는 가장 낮은 수치를 기록하고 있습니다. 다만 IPC 차이에서 봤던 것 만큼의 큰 차이는 보이지 않고 있는데 이는 엑시노스 8890이 1, 2코어 로드 하에서 2.6GHz라는 매우 높은 작동속도로 작동하기 때문입니다. 그 결과 스냅드래곤 820과 비교했을 때도 크게 뒤치지 않는 싱글 코어 성능을 확보할 수 있었습니다.

 

메모리 성능 역시 기존의 엑시노스 7420은 물론 애플 A9에 비해서도 높은 성능을 기록하고 있습니다. 물론 스냅드래곤 820의 점수에 미치지는 못하지만 삼성이 코어 외적인 부분에서도 상당히 세심한 설계를 통해 기타 성능을 확보했음을 알 수 있습니다.

 

 

Basemark OS II의 경우 긱벤치와 테스트하는 세목이 다를 뿐 아니라 System 점수를 산출할 때 싱글코어와 멀티코어 점수를 합산해서 산출합니다. Apple A9이 독보적으로 높은 점수를 보이는 가운데 Exynos 8890 역시 애플의 A9을 제외하고는 가장 높은 점수를 보였습니다.

 

iyd_antutu_cpu_exynos8890.png

 

Antutu는 v6업데이트 이후 CPU 점수를 나타낼 때 연산 성능과 Common Use, 멀티코어 성능을 각각 계상하여 이를 합칩니다. 기존의 Antutu가 멀티코어 점수만을 갖고 점수를 계상한 것에서 싱글코어 성능을 일부 반영하는 방식으로 전환된 것입니다. Basemark와 비슷하게 Apple A9이 가장 높은 점수를 보이고 있으며 Exynos 8890이 그 다음을 잇고 있습니다. 긱벤치와 Basemark OS II, Antutu v6 테스트 모두에서 스냅드래곤 820의 CPU 성능을 제치는 모습을 보여주고 있다는 것이 인상적입니다.

 

CPU 성능 파트의 결론을 내기 전에 잠깐 짚고 가야할 부분이 있습니다. CPU 성능을 판단할 때는 여전히 멀티코어 성능 만큼이나 싱글코어 성능 역시 중요합니다. 사실 멀티코어화는 명령어 수준의 병렬성 향상을 통한 싱글코어 성능의 향상이 어려워졌기 때문에 좀 더 높은 수준의 병렬성을 달성함으로써 손쉽게 성능을 높이기 위한 것입니다. 현재 모바일 워크로드의 상당 부분이 병렬화되어 있다고는 하나 스레드 수준의 병렬성이 완벽한 수준은 아닙니다. 게다가 프로그램을 아무리 병렬화하더라도 결국 직렬로 실행되어야 하는 부분은 없앨 수 없는데 이 부분을 빠르게 할 방법은 싱글코어 성능 향상이 유일합니다.

 

정리하자면 Exynos M1 자체는 크게 놀랍지 않습니다. 클럭당 성능은 ARM 표준 코어인 CA72에 비해 우위를 말하기 어렵습니다. 게다가 최신 아키텍처 중 상대적인 부동소수점 연산성능이 낮은 코어이기도 합니다. 첫 술에 배부를 수는 없겠지만 시장을 놀라게 할 정도의 커스텀 코어가 아닌 것은 분명합니다. 하지만 Exynos M1에 대한 평가와는 별개로 Exynos M1 코어 네 개와 CA53 코어 네 개로 이뤄진 엑시노스 8890은 매우 훌륭한 CPU를 갖고 있습니다. 

 

엑시노스 8890은 일종의 부스트 클럭을 가지고 있어 로드가 1-2코어로만 가해질 경우 두 코어의 작동속도를 2.6GHz까지 끌어올려 상대적으로 낮은 클럭당 성능을 훌륭히 보정해냈습니다. 거기에 원래 다중 코어가 가진 장점인 높은 멀티코어 성능 역시 그대로 가져가고 있기 때문입니다. 현 시점에서 엑시노스 8890의 CPU는 현존하는 안드로이드 스마트폰 AP 중 가장 좋을 뿐 아니라 전체 스마트폰으로 그 영역을 확장했을 때도 여전히 최고의 CPU를 가진 AP라고 볼 수 있습니다.

 

하지만 CPU 성능만을 보고 AP 전체의 성능을 논하는 것은 언어도단입니다. 현 시점에서 AP는 말 그대로 System-on-Chip입니다. 실제로 최신 플래그십 AP의 다이 면적에서 CPU가 차지하는 비중은 그렇게 크지 않습니다. 상당히 많은 경우 그래픽 유닛이 CPU에 비해서 더 넓은 면적을 점유하고 있습니다. 이는 현대 컴퓨팅 환경에서 갈수록 그래픽 유닛의 중요성이 증가하는 것과 무관하지 않습니다. 당장 지금 많은 스마트폰들은 1080p를 넘어 2K 화면을 장착하고 있고 일부 스마트폰은 4K 해상도까지 탑재하고 나섰습니다. 게다가 많은 제조사들이 올해를 VR의 원년으로 선포하고 VR에 많은 투자를 하고 있는 상황 역시 그래픽 유닛의 중요성을 높여줍니다.

 

더 이상 그래픽 유닛은 CPU보다 덜 중요한 부분이 아닙니다. 같은 맥락에서 갤럭시 S7의 성능을 분석하면서 그래픽 유닛의 성능 분석에 소홀한다면 그건 반쪽짜리 분석에 그칠 것입니다. IYD는 엑시노스 8890에 탑재된 Mali-T880의 아키텍처에 대한 분석부터 실제 벤치마크 성능까지 폭넓은 분석을 제공할 것입니다. 먼저 Mali-T880를 구조적으로 분석해 봅시다.

 

 

ARM의 그래픽 유닛 : Mali-T880

 

Mali-T880은 현 시점에서 ARM이 제공하는 가장 고성능의 그래픽 유닛입니다. Mali-T880은 ARM의 Midgard 아키텍처를 채택하고 있는데 Midgard 아키텍처의 구조를 간단히 살펴봅시다.

 

 

Midgard 아키텍처의 전체적인 구조는 위 그림과 같습니다. 코어별로 작업을 할당하는 Inter-Core Task Management, 실제 연산이 일어나는 쉐이더 코어(SC), Midgard 아키텍처의 '계층적 타일링'에 관여하는 타일링 유닛과 메모리 관리 유닛, 그래픽 유닛을 나머지 시스템과 연결해주는 AMBA 부분을 확인하실 수 있습니다. 다만 Mali-T880이 MP구성으로 제공될 때 변하는 부분은 쉐이더 코어의 갯수입니다. 즉, Mali-T880 MP12 구성의 경우 위의 구성에서 쉐이더 코어 부분이 12개로 구성되어있다는 의미입니다.

 

물론 위 다이어그램에 나타난 모든 부분이 그래픽 유닛의 동작에 필수적인 요소들이지만 본 리뷰에서 다루기는 적합하지 않은 내용입니다. 더 자세한 내용은 아난드텍의 ARM's Mali Midgard Architecture Explored를 참고하세요(링크). 대신 본 리뷰에서는 실제 연산이 가장 많이 발생하며 멀티코어화 가능한 부분인 쉐이더 코어를 좀 더 자세히 살펴보도록 합시다.  아래 그림은 위 다이어그램의 쉐이더 코어 내부를 나타낸 다이어그램입니다. 단, 아래 다이어그램은 Mali-T760의 쉐이더 코어 구조로 'Tri Pipe' 부분의 파이프라인 구성이 Mali-T880과는 조금 다릅니다. 이 부분에 대해서는 아래에서 좀 더 자세히 설명하겠습니다.

 

 

개별 쉐이더 코어는 그 이름과는 다르게 쉐이더 연산 그 이상의 역할을 수행합니다. 사실 Midgard의 개별 쉐이더 코어는 쉐이더, ROP, 텍스쳐 유닛 등을 모두 포함하고 있습니다. 그 중 실제 쉐이더 연산이 일어나는 부분은 위 다이어그램에서 Thread Excution - "Tri Pipe"라고 표시된 부분입니다.

 

 

Tri Pipe는 각각 산술 연산 파이프라인, Load/Store 파이프라인(위 그림의 Score는 Store의 오기입니다), 텍스쳐링 파이프라인으로 구성되어 있습니다. Compute Thread Creator에 의해 생성된 스레드는 Tri Pipe에 투입되어 각각에 적합한 파이프라인을 통해 처리되고 스레드가 종료됩니다. 산술 연산 파이프라인은 실제 쉐이더 연산이 일어나는 부분입니다. 각 산술 연산 파이프라인은 네개의 벡터 연산유닛, 한 개의 스칼라 연산 유닛과 네 개의 특수 연산유닛으로 구성되어 쉐이더 연산을 수행합니다.

 

 

이 때 네 개의 벡터 연산 유닛과 한 개의 스칼라 연산 유닛은 각각 사이클당 최대 2개의 FLOP을 처리할 수 있습니다(단정밀도 기준). 특수 연산유닛은 점곱을 처리하는 유닛으로 렌더링 등의 작업에서 많이 사용됩니다. 이 때 Midgard의 특수목적 유닛은 사이클당 최대 7개의 FLOP을 처리할 수 있습니다. 즉 점곱을 포함해 계산할 경우 단일 산술 파이프라인은 최대 사이클당 17개의 FLOP을 처리할 수 있습니다. 다만 우리가 흔히 말하는 단정밀도 연산성능을 따지는 기준 하에서는 특수연산유닛은 큰 역할을 수행할 수 없습니다. 따라서 단일 파이프라인은 사이클당 10개의 FLOPS를 처리할 수 있는 연산성능을 가지고 있습니다.

 

다시 Tri Pipe로 돌아오면 이런 산술 파이프라인이 2개가 포함된 것을 확인할 수 있습니다. 하지만 이 산술 파이프라인의 갯수는 고정된 것이 아닙니다. Mali 제품군에 따라 그 갯수가 달라질 수 있는데 Mali-T760은 산술 파이프라인 두 개를 포함하고 있지만 엑시노스 8890에 탑재된 Mali-T880은 산술 파이프라인을 세 개 포함하고 있습니다. 즉, 단일 쉐이더코어의 성능 자체가 달라진 것입니다.

 

 

일반적으로 쉐이더 연산을 담당하는 산술 파이프라인의 증가는 상대적으로 연산 성능의 비중이 증가된다는 것을 뜻합니다. 물론 쉐이더 연산 성능의 증가는 전체 그래픽 성능의 증가에 일조하겠지만 쉐이더 코어에 할당된 텍스쳐 유닛과 ROP 등의 유닛 구성에 큰 변화가 없기 때문에 연산유닛 갯수의 증가가 완전하게 그래픽 성능의 증가로 옮겨가지는 못하기 때문입니다. 다만 그래픽 유닛의 주요 전력소모 부분이 산술연산 유닛이 아닌 텍스쳐 유닛과 ROP 유닛인 점을 감안하면 연산 파이프라인의 증가는 전력대 성능비를 개선하는 데 도움을 줄 것입니다.

 

아래 그래프는 최신 AP들의 이론적 최대 부동소수점 연산성능(단정밀도 기준)을 나타내었습니다. 단, 위에서도 언급한 바와 같이 연산성능은 실제 그래픽 성능과 비례관계가 아니라해당 AP가 얼마나 많은 부동소수점 연산유닛을 가지는지와 그 작동속도에만 영향을 받는다는 것을 감안해주시기 바랍니다.

 

 

PC용 아키텍처로부터 파생된(혹은 그대로 사용되고 있는) 아드레노 계열이나 엔비디아의 경우 실제 게임 성능에 비해 많은 부동소수점 연산유닛이 구비되어 있는 것을 볼 수 있습니다. 반면 Mali나 PowerVR의 경우 상대적으로 낮은 연산성능을 가지는 대신 게이밍 성능이 높다는 점을 확인할 수 있습니다. 여기서 주목해야 할 점은 엑시노스 8890이 엑시노스 7420에 비해서 거의 두 배의 연산성능을 가진다는 점입니다. 물론 위에서 언급한 것과 같이 Mali-T880이 Mali-T760에 비해 상대적으로 연산성능 비중이 높기 때문에 실제 그래픽 성능에 이 격차가 그대로 반영되지는 않지만 엑시노스 8890이 엄청난 그래픽 성능 향상을 이뤘음은 확실히 확인할 수 있습니다.

 

지금까지 Mali-T880의 대략적인 구조를 살펴봤습니다. ARM의 Midgard 아키텍처를 탑재하고 있는 가운데 쉐이더코어당 산술연산 파이프라인의 갯수가 3개로 증가하면서 연산 성능의 향상과 그래픽 성능의 향상을 노리는 동시에 전력대 성능비의 개선에 힘썼습니다. 엑시노스 8890은 Mali-T880을 12개의 쉐이더 코어 구성으로 투입하면서 동시에 클럭을 낮춤으로써 다이 면적을 희생해서 전력대 성능비를 올리려는 노력 역시 엿보였습니다. 갤럭시 S7은 어느때보다 그래픽 성능에 힘을 줬다고 평가할 수 있겠습니다.

 

지금까지는 Mali-T880, 즉 그래픽 유닛 자체의 성능에 초점을 맞춰 살펴봤다면 지금부터는 실제 그래픽 성능과 기기에 적용된(기기의 해상도를 구동하는) 환경에서의 성능을 살펴볼 차례입니다. 각종 벤치마크 툴을 통해 측정된 갤럭시 S7의 그래픽 성능, 지금부터 살펴보시죠.

 

 

갤럭시 S7의 그래픽 성능 : 벤치마크를 통해

 

본격적으로 벤치마크 결과들을 보여드리기 전에 먼저 어떤 그래픽 벤치마크 툴들을 이용했는지를 간단히 짚어드리도록 하겠습니다. 먼저 가장 유명한 GFXBench입니다. GFXBench에서는 OpenGL ES 3.0기반의 Manhatten과 T-Rex로 벤치마크를 실행했습니다. 두 테스트 항목을 온스크린, 오프스크린으로 각각 테스트했음은 물론입니다. 그 다음은 좀 더 낮은 레벨의 테스트가 주가 되는 Basemark OS II의 그래픽 항목과 높은 레벨의 그래픽 테스트인 Basemark Mobile GPU, Antutu v6를 통해 종합적인 성능을 확인해 볼 수 있었습니다. Basemark의 그래픽 테스트는 오프스크린으로 점수가 산정되고, Antutu는 온스크린, 오프스크린 성능을 종합적으로 측정해 최종 점수에 반영됩니다. 먼저 GFXBench의 테스트 결과들부터 살펴보시죠.

 

 

먼저 각 SoC의 오프스크린 그래픽 성능입니다. 오프스크린 성능은 기기의 해상도와는 관계 없이 일정한 해상도(주로 1080p)에서 테스트를 구동한 결과입니다. 기기의 해상도와는 독립적으로 SoC의 순수한 그래픽 성능을 측정하는 지표입니다. 애플 iOS와의 비교를 위해(iOS는 OpenGL ES 3.0 이상의 그래픽 API 대신 메탈을 지원) OpenGL ES 3.0에서 작동하는 Manhattan과 T-Rex로 테스트를 진행했습니다. 엑시노스 8890은 두 테스트 모두에서 엑시노스 7420에 비해서 월등한 성능 향상을 보여주었습니다. 게다가 근소한 차이지만 애플의 A9을 앞서는 모습을 보여주었습니다. 다만 안드로이드 플래그십 시장에서 직접적으로 경쟁할 스냅드래곤 820에 대해서는 조금 떨어지는 성능을 보여주고 있습니다.

 

 

이번에 살펴볼 것은 각 완제품 스마트폰의 실제 그래픽 성능을 나타내는 온스크린 성능입니다. 온스크린 테스트는 실제 기기의 해상도에 맞게 테스트 항목들이 그려집니다. 따라서 기기의 해상도에 따라서 그래픽 유닛에 가해지는 부담이 달라지게 됩니다. 역시 안드로이드에 비해 상대적으로 해상도가 낮은 아이폰 시리즈들이 선전하고 있는 모습을 확인할 수 있습니다. 다만 온스크린 테스트에서도 역시 갤럭시 S7은 전작인 갤럭시 S6에 비해서 큰 폭의 향상을 보였습니다. 여기서 아이폰 6s 시리즈들이 60프레임을 넘지 못하는 것은 온스크린 테스트에 걸려있는 수직 동기화 때문입니다.

 

갤럭시 S7의 그래픽 성능은 인상적이면서도 조금 아쉬움을 남깁니다. 물론 전 세대에 비해 비약적으로 발전한 그래픽 성능을 보여주고 있는 것은 맞지만 당 세대의 최신 플래그십간의 경쟁에서 최고라는 평가를 듣기에는 부족한 성능을 보여주고 있습니다. Basemark OS II의 테스트 결과도 살펴보도록 합니다.

 

 

Basemark OS II는 상대적으로 낮은 레벨의 그래픽 성능을 주로 테스트합니다. Mali 계열의 그래픽 유닛들이 특히 힘을 못 쓰는 모습을 보이고 있습니다.

 

 

다시 돌아와 Basemark GPU Mobile은 상대적으로 높은 레벨의 그래픽 성능을 테스트합니다. 매우 다양한 테스트 시나리오를 가지고 있으며 이를 종합하여 결과를 산출합니다. 역시 갤럭시 S7이 갤럭시 S6에 비해 큰 폭으로 그래픽 성능이 올랐음을 확인할 수 있습니다. Basemark Mobile GPU의 경우 안드로이드와 iOS의 그래픽 API가 다른데 이 결과를 볼 때는 이를 참고하시길 바랍니다.(안드로이드 - OpenGL ES 3.1, iOS - Metal)

 

마지막으로 Antutu v6의 3d 스코어를 살펴봅시다. 안투투는 온스크린으로 이뤄지는 Garden과 Offscreen으로 이뤄지는 Marooned 테스트로 구성되어 있으며 최종 점수는 이 두 점수를 합산한 값입니다.

 

 

갤럭시 S7은 물론 갤럭시 S6에 비해서 한 발짝 나아간 성능을 보여주고 있습니다. 온스크린 테스트가 포함되었음에도 불구하고 아이폰 6s Plus와 비슷한 성능을 보이고 있는 것 또한 흥미롭습니다. 다만 스냅드래곤 820을 탑재한 LG G5에 비해서 낮은 성능을 보이는 것은 아쉬운 부분입니다.

 

정리하자면 갤럭시 S7의 엑시노스 8890은 기존 갤럭시 S6에 탑재된 엑시노스 7420에 비해 훨씬 발전한 그래픽 성능을 보여주고 있습니다. 이는 쉐이더 코어의 구성 변경과 쉐이더 코어 숫자의 증가로부터 충분히 예상되어 오던 것이기도 했습니다. 하지만 안드로이드 플래그십 시장에서 직접적으로 경쟁할 스냅드래곤 820과의 비교에서는 꽤나 큰 폭으로 떨어지는 점수를 보여주는 것이 아쉬운 부분입니다. 하지만 한 가지 분명한 것은 엑시노스 8890은 CPU보다도 그래픽 유닛의 강화에 더 힘을 쏟은 프로세서이고 이는 현대 컴퓨팅 워크로드와 VR 등 차세대 먹거리에 대비하는 올바른 발전 방향이라는 것입니다.

 

지금까지 갤럭시 S7, 엑시노스 8890의 CPU, GPU 성능을 살펴보았습니다. 하지만 단순히 CPU, GPU 성능만을 살펴봤다고 스마트폰의 성능을 모두 살펴봤다고 하기에는 아쉬운 점이 많습니다. 컴퓨터가 작동하기 위해서는 처리장치 뿐만 아니라 각종 정보를 저장해 놓을 메모리 시스템이 필요합니다. 메인 메모리의 경우 CPU 성능을 살펴보면서 함께 살펴봤지만 스마트폰의 운영체제부터 각종 어플리케이션을 저장하고 있는 낸드 플래시에 대해서는 아직 살펴보지 못했습니다. 특히 낸드 플래시의 성능은 사용자 경험에도 영향을 미치는 부분이기에 이 부분을 다루지 않고 넘어갈 순 없겠지요.

 

 

갤럭시 S7의 NAND 성능 : UFS 2.0, 하지만 더 높게 

 

갤럭시 S6가 발표되었을 때 물론 높은 성능의 엑시노스 7420도 눈길을 끌었지만 최초로 적용된 UFS 2.0 기반 낸드 플래시 메모리 역시 상당히 주목받았습니다. UFS 2.0은 기존의 eMMC를 대체하는 통신 인터페이스로 eMMC의 여러 단점들을 수정했습니다.

대표적으로 eMMC 규격이 읽기와 쓰기 작업이 동시에 진행되지 않았던 것에서 UFS는 읽기와 쓰기 작업이 동시에 이뤄질 수 있도록 개선되었고 Command Queuing을 지원함에 따라 명령어가 들어오는 순서대로 처리했던 eMMC와는 달리 효율적으로 정렬 후 입 출력을 진행시킬 수 있게 되는 등의 장점이 있습니다. 게다가 UFS 2.0은 최신의 eMMC 규격보다도 더 빠른 순차읽기, 쓰기, 랜덤 읽기, 쓰기 성능을 지원합니다.

 

chipworks에 따르면(링크) 갤럭시 S7에도 역시 UFS 2.0 기반의 MLC 낸드가 탑재된 것이 확인되었습니다. 애플이 아이폰의 플래시 메모리를 TLC로 전환하고 있는 가운데 삼성이 MLC 낸드 플래시를 갤럭시 S7에 투입한 것은 소비자 입장에서는 반가운 소식이 아닐 수 없습니다.

 

다만 아쉬운 부분은 현재 크로스 플랫폼으로 낸드 플래시 성능을 측정할 수 있는 툴이 그렇게 많지 않다는 겁니다. Basemark OS II가 제공하는 Storgae Test가 그나마 가장 신뢰할 만한 벤치마크 툴입니다. Basemark OS II의 Storage Test 점수는 Fixed Size, Var. Size의 읽기, 쓰기 성능과 Fragmentation 테스트를 종합하여 산출되며 단순한 순차 읽기, 쓰기 성능이 아니라 낸드 플래시 메모리의 종합적인 성능을 확인할 수 있습니다.

 

 

갤럭시 S7은 전작인 갤럭시 S6에 비해 상당히 개선된 NAND를 장착한 것을 확인할 수 있습니다. TLC 낸드를 장착한 아이폰 6s 시리즈는 갤럭시 S6 보다도 낮은 점수를 보여주고 있습니다. 다만 갤럭시 S7이 LG G5에 비해 약간 낮은 낸드 점수를 보이고 있는데 단지 이 자료만을 가지고 갤럭시 S7의 낸드 성능이 LG G5보다 떨어진다고 단언하기는 어렵습니다. 이 부분은 좀 더 다양한 툴을 이용해 낸드 플래시 성능을 꼼꼼히 테스트 해 본 후에 Inside Your Galaxy S7 2부에서 보충하도록 하겠습니다.

 

한 가지 확실한 것은 갤럭시 S7은 UFS 2.0 기반의 낸드 플래시를 채택함으로써 스마트폰들 가운데 가장 우수한 낸드 플래시 성능을 보이는 제품 중 하나이며 전작인 갤럭시 S6에 비해서도 큰 폭의 향상이 있었다는 점입니다.

 

 

결론 : 플래그십 스마트폰에 걸맞는 성능, 하지만 삼성 천하는 끝

 

결론을 내리기 전에 지금까지 살펴본 내용들을 다시 한 번 정리해 봅시다. 삼성 엑시노스 8890은 엑시노스 M1 코어 네 개로 빅 클러스터를, CA53 코어 네 개로 리틀 클러스터를 각각 구성했습니다. 그래픽 유닛 역시 대폭 강화되었는데 Mali-T880을 12 쉐이더코어 구성으로 투입했습니다.

 

엑시노스 M1 코어는 삼성의 첫 커스텀 코어입니다. 하지만 그 성능은 그리 돋보이지 않습니다. CA57, CA72와 같은 3 wide의 비순차실행 코어로써 실제 클럭당 성능의 관점에서 CA72에 대해서 우위를 말하기 어렵습니다. 다만 CA57에 비해서 부동소수점 연산성능이 강화되고 전력대 성능비를 올리는 등의 노력을 통해 최대 2.6GHz의 빠른 작동속도로 코어가 작동할 수 있다는 점이 위안거리입니다.

 

엑시노스 M1 코어가 기대 이하인것과는 별개로 엑시노스 8890의 CPU는 상당히 우수합니다. 일종의 부스트 클럭을 적용시킴으로써 코어 자체의 낮은 클럭당 성능을 매우 높은 클럭 속도로 상쇄시켜 경쟁 상대인 스냅드래곤 820과 비슷한 수준의 싱글코어 연산성능을 뽑아냅니다. 게다가 옥타코어 구성의 CPU답게 멀티코어 성능 역시 매우 높습니다. 완제품의 관점에서는 히트파이프를 투입하는 등 발열을 안정적으로 제어할 수 있는 수단이 추가되면서 AP를 지원하고 있습니다.

 

엑시노스 8890에 투입된 Mali-T880은 ARM의 Midgard 아키텍처 기반의 그래픽 유닛입니다. 전작에 채택되었던 Mali-T760에 비해 쉐이더 코어 당 산술 연산 파이프라인이 증가해 연산성능, 쉐이더 성능이 상승했고 이를 통해 그래픽 성능의 향상을 꾀했습니다. 그와 동시에 쉐이더 코어의 수를 늘리고 클럭 스피드를 낮춤으로써 다이 면적에서 손해를 보면서까지 전력대 성능비를 끌어올리는 쪽을 택했습니다.

 

그렇게 구성된 엑시노스 8890의 그래픽 성능은 수준급입니다. 여러 벤치마크 테스트에서 PowerVR 7XT를 탑재한 애플의 그래픽 유닛에 비해서도 비슷하거나 나은 성능을 보여줬습니다. 다만 높은 해상도 때문에 온스크린 성능에서 조금 손해를 보는 모습을 보여줬습니다. 아쉬운 점은 동 시기 플래그십으로서 직접적으로 시장에서 경쟁할 스냅드래곤 820의 아드레노 530에 비하면 많은 면에서 성능이 뒤쳐진다는 점입니다.

 

마지막으로 이번에도 갤럭시 S7은 UFS 2.0 규격의 MLC 메모리를 채택했습니다. 게다가 여러 개선점을 통해 실제 낸드 플래시 성능을 전작에 비해서 큰 폭으로 끌어올리는 데 성공했습니다. 갤럭시 S7은 현 세대에서 가장 우수한 낸드 플래시 성능을 갖고 있는 스마트폰 중 하나입니다.

 

갤럭시 S7은 삼성의 2016년 플래그십에 걸맞는 성능을 보여줬습니다. 첨언하자면 갤럭시 S7의 성능 향상 방향은 거시적인 스마트폰 시장의 성능향상 방향과도 일치합니다. 엑시노스 M1 코어는(비록 아쉬운 모습을 보였지만) 상대적으로 부동소수점 연산성능을 강화한 모습을 보여주었고 전체 AP의 성능 균형 관점에서도 GPU의 성능 향상에 방점이 찍혔습니다. 

 

하지만 작년 안드로이드 시장에서의 삼성천하를 계속 이어가기는 어려워 보입니다. 당장 미디어텍과 하이실리콘의 SoC들이 CPU 성능에서 삼성을 맹렬히 추격하고 있고 퀄컴의 스냅드래곤 820은 높은 그래픽 성능으로 삼성을 압박하고 있습니다. 게다가 작년에 출시되었고 뒤쳐진 공정(16FF, 14LPE)으로 제조된 애플의 A9칩을 확실히 압도하지 못하고 있는 것도 한 이유가 될 수 있습니다. 엑시노스 7420이라는 단일 SoC로 작년 한 해를 호령했던 것과는 달리 올해는 갤럭시 노트와 함께 개선된 엑시노스의 출시가 점쳐지는 대목입니다.

 

이상으로 갤럭시 S7 성능 분석편을 마치겠습니다. Inside Your Galaxy S7 2부에서는 갤럭시 S7의 배터리 성능부터 시작해 소프트웨어, 디자인, 카메라 등 스마트폰이 갖춰야 할 덕목들을 하나 하나 짚어볼 예정입니다. Inside Your Galaxy S7, 2부 역시 많은 기대 부탁드립니다. 지금까지 긴 글 읽어주셔서 감사합니다.

 


 

페이스북, 트위터에서 IYD를 팔로우하시면 저희가 놀아드립니다!


http://facebook.com/insideyourdevice
http://twitter.com/iyd_twit

 

댓글 33

CWW

3년 전

좋은 정보 감사합니다~

댓글 수정 삭제

IYD

3년 전

긴 글 읽어주셔서 감사합니다~

댓글

놀라움

3년 전

정말 애플의 트위스터 cpu 성능이 놀랍군요 메모리쪽 개선만 해도 성능이 많이 올라갈것 같습니다.
DDR4 대신 HBM같은 것을 쓰면 더 올라갈것 같구요

gpu 성능도 애플이 엄청나네요 퀠컴의 제품은 형편없는지 알았는데 제법 성능이 좋네요 810만 봐서
그런듯 싶습니다.

그런데 휴대폰에 저런 gpu 성능이 막 올라가는데 이거 쓸모가 있나요? 게임이라던지 특수한 프로그램
휴대폰에서 사용하는 경우 못 봤는데 대부분 간단한 프로그램만 사용하던데 왜 저렇게 gpu 성능을
올리는지 궁금합니다.

좋은 글 감사합니다.

댓글 수정 삭제

지나가는사람

3년 전

본문에도 나와있지만 게임+VR을 위해서는 높은 그래픽 성능이 필요합니다.

댓글 수정 삭제

장기영

3년 전

iOS의 아이무비 같은 동영상편집기에서 4K편집같은 극단적인 연산이 요구하는곳에서는 GPU의 능력을 힘입어서 편집과 렌더링을 걸수 있네요
하지만 아이폰6과 동일한 GPU를 갖는 아이패드 미니4는 4K편집이 안되지만 아이폰6s와 비슷한 GPU를 갖는 아이패드 에어2는 4K편집이 됩니다
GPU는 GPGPU라고 하는 기술로 CPU연산을 무지막지한 힘으로 도울수 있기때문에 GPU는 더욱 발전될것이라 생각됩니다

댓글 수정 삭제

수치해석

3년 전

iOS의 아이무비 같은 동영상편집기에서 4K편집같은 극단적인 연산이 요구하는곳에서는 GPU의 능력을 힘입어서 편집과 렌더링을 걸수 있네요. 하지만 아이폰6과 동일한 GPU를 갖는 아이패드 미니4는 4K편집이 안되지만 아이폰6s와 비슷한 GPU를 갖는 아이패드 에어2는 4K편집이 됩니다. GPU는 GPGPU라고 하는 기술로 CPU연산을 무지막지한 힘으로 도울수 있기때문에 GPU는 더욱 발전될것이라 생각됩니다
//
아이무비가 GPGPU 씁니까? 맥북에 AMD APU를 쓰면 오히려 지금 쓰는 인텔보다 아이무비 성능이 올라갈 수도 있겠습니다.

댓글 수정 삭제

장기영

3년 전

최근의 맥용 아이무비는 애플이 강력히 밀고 있는 GPGPU의 기술의 일종인 오픈CL의 기능을 이미 사용하고 있습니다
아이무비에서 외장 GPU도 없는 저전력 하스웰 i5 4260의 내장 GPU인 HD5000의 힘으로도 윈할한 4K편집과 렌더링이 됩니다
GPU의 GPGPU기능을 유무에 따른 경험을 언급하면
어도비 CS6 프리미어 같은곳에서 지포스 같은 외장 GPU을 힘을 빌려오지 못하면 저전력 i5 3317u같은것으로는 4K화일 작업바에 놓고 커팅하는것 조차 힘듭니다
램 10GB나 박힌 윈도우 노트북이었지요 그러나 와장 GPU의 힘을 빌리면 차원이 다른 엄청난 속도를 지원하죠 CS6 프리미어에서는 지포스만 GPGPU이가 지원했기에 이런 실험이 가능했죠

댓글 수정 삭제

RuBisCO

3년 전

GPGPU가 아니라 영상 처리 전용 유닛을 이용합니다. 이건 모든 플랫폼이 동일. GPGPU 연산을 이용한 처리를 사용하는 경우는 데스크탑의 일부 어플리케이션에 국한됩니다.

댓글 수정 삭제

수치해석

3년 전

애플 A시리즈에 영상처리 IP가 들어 있나요? 혹시 카메라 입력 다루는 ISP인가요?

댓글 수정 삭제

RuBisCO

3년 전

당연히 현대의 모바일 AP에는 영상처리를 위한 전용유닛이 들어갑니다. 없는 코어가 이상할 정도로 일반적이죠. 애플이라고 다른건 없습니다.

댓글 수정 삭제

장기영

3년 전

아이폰 6를 발표 할 당시 카메라를 위한 ISP가 AP와 통합된다고 발표했습니다
그래서 아이폰 6와 동일한 ISP를 갖춘 아이패드 에어2에서는 4K촬영은 안되고 4K편집만 되는 기이한 일이 있죠 ㅠㅠ

댓글 수정 삭제

A TNT

3년 전

아난드텍에서도 이 문제에 대해서 언급한적도 있는데, 유독 Mali 계열 GPU들이 다른 그래픽 벤치마크에 비해 Basemark에서 타 GPU 대비 상대적인 성능이 크게 낮은 결과가 나온다고 하더군요. 반대로 PowerVR쪽도 6XT 계열을 사용한 GX6450이나 GXA6850의 경우를 보면 GFX벤치 OpenGL ES 3.1상의 테스트에서 좋은 결과가 안나오고, 전체적인 애플 AP가 3DMark 피직스 점수가 매우 저조한 편입니다.

댓글 수정 삭제

A TNT

3년 전

GX6450의 OpenGL ES 3.1상의 성능이 비슷한 시기에 나온 경쟁상대인 T760 헥사코어, Adreno 420보다 훨씬 낮게 나오고, GXA6850의 ES 3.1 성능은 원래 ES 3.0(GFX벤치 3.0 맨해튼), ES 2.0(2.7 티렉스) 항목에서 큰 차이가 나던 T760 옥타코어랑 동급, Adreno 430보다 소폭 낮은 수준이었을 겁니다. 7XT 계열인 GT7600에서 개선된걸 보면 6XT 제품군만의 종특 같지만, 애플은 이제 ES 3.1이 아닌 메탈 API쪽에 집중하는거 같으니 큰 문제가 될거같지는 않지만요.

댓글 수정 삭제

A TNT

3년 전

이번 T880 FP32 연산능력이 거의 400 GFLOPS에 육박한걸로 아는데 왜저렇게 FP 성능이 낮게 표기되었나 생각해보니 SFU 유닛을 뺀 4 Vector + scalar 연산유닛의 성능만 표기한거였네요.

댓글 수정 삭제

IYD

3년 전

네 맞습니다. 항상 글 읽어주시고 좋은 의견 주셔서 감사합니다 ~

댓글

RuBisCO

3년 전

PC 아키텍쳐 기반 모바일 GPU들의 게임 성능 문제는 FP16 연산성능 문제도 있지요. 테그라는 X1부터 지원하구요.

댓글 수정 삭제

IYD

3년 전

정확하게 보셨습니다. 엔비디아는 기실 모바일 gpu 문제가 아니더라도 딥러닝 등에서의 활용성을 보고 반정밀도를 밀더라구요

댓글

nahs

3년 전

모바일 기기 AP라는 점을 고려할때.....

스로틀링 특성이나 열관련사항이 전무하네요. 성능이 아무리 좋아봤자 스로틀링이 심하게 걸리면 말짱꽝인데요.

스냅 810도 성능은 좋았죠.. ㅋㅋ

댓글 수정 삭제

A TNT

3년 전

긱벤치 그래프에서 짙은 선으로 칠해진 구간(결과가 밀집된 구간)을 보면 쓰로틀링 쪽으로는 8890과 820이 이전 세대인 7420, 810보다 훨씬 개선된 결곽 나오네요. 사실 Cortex-A57도 삼성이 전성비쪽으로 개선을 했지만 여전히 전력관련 쪽으로 타 아키텍쳐에 비해 부족한 모습을 보여주긴 했습니다. 이번 A72는 잘나오긴 했지만 앞으로도 이런 사태가 없으리라 장담할수는 없으니 삼성도 자사 아키텍쳐를 사용하는 방향으로 선회한거겠죠.

긱벤치 그래프는 여기서 보시면 될거같네요.
m.dcinside.com/view.php?id=smartphone&no=4406518&page=1

P.s. h t t p 부분이 금칙어라서 url을 댓글에 입력하다가 댓글 내용 자체가 날아갈뻔 한게 한두번이 아니네요...

댓글 수정 삭제

IYD

3년 전

스로틀링 그래프는 2부에서 배터리 성능과 함께 제공될 예정입니다. 조금만 더 기다려 주세요

댓글

ㅁㄴㅎ

3년 전

스로틀링은 히트파이프가 있으니.. a72대비 전력소모가 나와봐야 잘나온건지 아닌지 알 수 있을듯합니다..

댓글 수정 삭제

A TNT

3년 전

16FF+ 상의 Cortex-A72의 언코어 소모전력(캐시나 메모리같은 부분을 제외한 2~4코어 평균 소모전력)이 코어당 약 800mW이고, 14LPP에서의 kryo 언코어 소모전력(2.2ghz로 구동하는 2번째 코어)은 1275mW입니다.(www.anandtech.com/show/10088/xiaomi-mi5-hands-on) 엑시노스 M1도 동일한 공정을 사용하고 1코어당 정수, 부동소숫점 성능 합도 kryo 2.2ghz와 비슷하니 코어당 전력소모량도 비슷하게 나오지 않을까 싶네요.

잘 기억은 안나지만 전작인 7420의 코어당 전력소모량이 1289mW인가 되었고, 810 v2.1은 2~3W대 였을거에요.

댓글 수정 삭제

A TNT

3년 전

CPU 전체 전력소모량도 스냅 820이 4.7W로 측정되는데 14LPE를 조기 도입해서 전력효율이 좋다고 하던 7420이 빅리틀 클러스터 합해서 6W, A8이 6W, 5433이 7~8W, 810은 10W 이상이었습니다.(모 찌라시대로라면 20W 썰도 있었죠. 코어당 4.9W씩...)

댓글 수정 삭제

수치해석

3년 전

1. 부동소수 더하기,곱하기 성능을 따로 잴 수 있나요? GEMM, FFT, N-Body는 2가지 연산이 모두 들어가서, 한 쪽 성능만 재기는 어려울 겁니다. 더구나 FMA 명령을 쓰면 더더욱 따로 재기 어려울 겁니다.
https://en.wikipedia.org/wiki/Multiply%E2%80%93accumulate_operation

2. 점곱 = Dot Product 라고 생각합니다. 이에 대응하는 한국어로 점곱이라는 말도 쓰네요.

3. A9X GPU 성능은 인텔 iGPU eDRAM 없는 모델 최고인 530 GT2보다 높군요.
HD Graphics 530, GT2 – 24 execution units, up to 441.6 GFLOPS at 1.15 GHz
Iris Graphics 540, GT3e – 48 execution units with 64 MB of eDRAM, up to 806.4 GFLOPS at 1.05 GHz
Iris Pro Graphics 580, GT4e – 72 execution units with 64 or 128 MB of eDRAM, 1152 GFLOPS at 1 GHz
https://en.wikipedia.org/wiki/Intel_HD_and_Iris_Graphics#Skylake

4. M1은 GEMM, FFT는 A72보다 빠른데, N-Body는 크게 느리군요. 3가지는 전부 비슷한 연산을 비슷한 구성으로 하는데, 신기합니다.

5. PC용 아키텍처로부터 파생된(혹은 그대로 사용되고 있는) 아드레노 계열이나 엔비디아의 경우 실제 게임 성능에 비해 많은 부동소수점 연산유닛이 구비되어 있는 것을 볼 수 있습니다. 반면 Mali나 PowerVR의 경우 상대적으로 낮은 연산성능을 가지는 대신 게이밍 성능이 높다는 점을 확인할 수 있습니다.
//
파워VR도 PC에서 시작했습니다. 하지만 PC와 게임기(세가)에선 쫄딱 망하고, 휴대기기로 도망쳤지요. 그런데 휴대기기 GPU 시장이 커지면서 다시 떴습니다.

6. 아직 휴대 기기에선 실제 게임이나 3D마크 등을 쓴 벤치는 잘 안 쓰나 봅니다.

7. 3D마크 등 PC에서도 돌아가는 벤치도 넣으면 좋겠습니다. 이왕이면 x86 윈도우 타블렛,노트북 등과도 성능 비교도 하고요. A9X 정도면 왠만한 x86 노트북을 처바를 듯 합니다.

8. 아모레드 펜타일 서브픽셀 숫자가 RGB의 2/3밖에 안 됩니다. 이를 이용해서 GPU 부하도 줄이는 방법이 있으려나요.

댓글 수정 삭제

A TNT

3년 전

3. OpenGL API 상에서 그래픽 성능 측정하는 GFX벤치 보면 A9X의 7XT 12클러스터가 아이리스 540(GT3... 이었나요?)보다 살짝 낮은 성능이었을겁니다.

6, 7. 모바일 상에서의 3D마크 자체가 FP성능 높은놈이 장땡이고 3D마크 상에서 비교해보면 의외로 케플러, 맥스웰 기반의 ULP 지포스가 잘나와줍니다.

일단 휴대기기상의 컨텐츠는 FP성능을 100% 끌어낼만한 게임이 없으니 텍스쳐 성능 높은놈이 장땡이죠. 실제로 벤치에서는 OpenGL ES 3.0이나 그 이상을 기반으로 한 맨해튼 3.0, 맨해튼 3.1, 카체이스 4.0이 쓰이는데 실제 모바일 게임 그래픽 보면 죄다 티렉스 2.7보다도 못한 그래픽을 가진게 넘쳐나죠.(그런데도 버벅이는게 신기할 정도입니다. 이건 게임 제작사측에서 최적화를 더 잘해줘야...)

그리고 x86과의 비교는 현재로써는 긱벤치밖에 없는데 저걸로만 비교하기는 뭣합니다. 지금 8890이 싱글 2200 멀티 6700점이 나오는데 이정도면 i5 760(2.8ghz)와 동급이고 A9의 싱글코어 성능은 대략 샌디브릿지와 견줄 수준인데, 실제로 리눅스상에서의 퍼포먼스를 보면 잘해봐야 콘로급이죠.

8. 연산을 더하면 더했지 덜하지는 않을거에요.

댓글 수정 삭제

IYD

3년 전

물론 많은 부동소수점 유닛이 두 연산을 모두 처리할 수 있는 형태로 나오긴 합니다만 실제로 단일한 연산만 수행할 수 있는 ALU 역시 존재합니다. 게다가 각 시나리오들이 단일한 연산만 포함되어 있을 리는 없지만 그 비중의 차이는 있을 수 있을 것입니다. 저는 다만 경험적인 경향성을 말한 것 뿐이고 자세한 사항은 추가적인 분석이 필요할 것입니다.

댓글

놀라움

3년 전

휴대폰 cpu도 인텔 특수 명령어 AVX, AVX2, FMX 같은 명령어 지원을 하나요? 이런 명령어야 소프트웨어에서 지원을 안해주면 꽝이지만 애플같은곳에서 지원해 주면 바로바로 성능 향상을 보여줄텐데...

댓글 수정 삭제

IYD

3년 전

당연히 아닙니다. ARMv8 명령어를 지원하지요.

댓글

수치해석

3년 전

AVX는 256비트이고, AVX-512는 512비트입니다. 그런데 ARM에서는 NEON이라고 SSE급인 128비트 SIMD가 있습니다. 하지만 ARMv8은 SSE와는 달리 AVX 나중 버전에서나 나오는 FMA도 지원합니다.

댓글 수정 삭제

IYD

3년 전

당연히 프로세서 내부에 비슷한 역할을 하는 유닛이 존재할 수는 있지만 그것이 인텔 특수 명령어에 해당하는 AVX, AVX2, FMX같은 명령어를 지원한다는 의미가 된다고 생각하는 것은 큰 오류입니다.

실제로 기계어 차원에서 봤을 때도 두 아키텍처는 똑같은 유닛을 사용하더라도 전혀 다른 명령어를 사용합니다.

댓글

놀라움

3년 전

그럼 휴대폰에 들어가는 cpu 들은 인텔의 avx 같은 명령어
한꺼번에 여러명령어 처리 하는 기술(고급 백터 확장)이 없는것 인가요?

특수명령어 자체가 없습니까? 휴대용 기기의 한계상 이런 기술을 넣지 않은것 인가요?

댓글 수정 삭제

IYD

3년 전

특수명령어 자체가 없지는 않습니다. 다만 특수명령어가 x86만큼 많지도 않습니다. 이는 ISA의 차이로써 무엇이 더 우수한가를 판별하기 어렵습니다. 당장 x86 안에서도 특수 명령어로 처리할 수 있는 일을 일반 명령어 여럿으로 처리했을 때 일반 명령어 여럿의 나열이 더 빠른 경우도 있기 때문입니다. 충분한 답변이 되었으면 좋겠습니다.

댓글

놀라움

3년 전

친절한 답변 감사합니다.

인텔도 x86 개발의 한계를 보이는것 같은데 다른 것으로 갔으면 좋겠네요 과거 머시드 인가? 이런 새로운 명령어 셋으로 갔으면 좋겠습니다.

댓글 수정 삭제

컴퓨텍스 보러 남쪽 나라로 : 2016 마카오/타이완 출장기 - (4) 넷째 날

News Curator : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 출장 네번째 날이 밝았습니다. 오늘은 컴퓨텍스 이브이기도 하죠. 저는 오늘 타이페이 남부의 '우라이'라는 곳에 들러 온천 호...

by IYD on 3년 전
108 3 1

컴퓨텍스 보러 남쪽 나라로 : 2016 마카오/타이완 출장기 - (3) 셋째 날

News Curator : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 마카오에서 2박 3일의 일정을 마치고 타이완으로 건너왔습니다. 전날 밤 이 글(라이브블로깅 세션)을 파놓고 잔다는 걸 깜박해,...

by IYD on 3년 전
93 1 1

북극성 보러 남쪽 나라로 : 2016 마카오/타이완 출장기 - (2) 둘째 날

News Curator : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 마카오 출장 일정 둘째 날을 맞았습니다. 첫째 날 저의 동선이 궁금하시다면 이 글을 먼저 보고 오시면 좋습니다. 사실 대부분 ...

by IYD on 3년 전
82 3

북극성 보러 남쪽 나라로 : 2016 마카오/타이완 출장기 - (1) 첫째 날

News Curator : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 하드웨어 매니아에게 다가올 한 주는 하루가 한 달 같은 나날이 될 것입니다. AMD와 엔비디아가 각기 폴라리스 발표 행사와 지...

by IYD on 3년 전
82 9 1

The IYD Report : Laptop & 2-in-1 - Mar & Apr 2016

Author : Daeguen Lee, Jin Hyeop Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 지난 글에서 IYD가 던졌던 화두를 기억하시나요. 양 극단과 '그램'만이 존재하는 것 같던 노트북 시장에 이들 외에도 ...

by IYD on 3년 전
568 9

Inside Your iPhone SE : 작은 크기 OK, 거대한 도약?

Author : Daeguen Lee & Jin Hyeop Lee Video : Daeguen Lee, Jin Hyeop Lee & UNDERkg (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 애플이 미디어 행사를 개최해 신제품을 발표한지 오늘로 꼭 4주가 되...

by IYD on 3년 전
811 12

Inside Your Galaxy A3, A5, A7 & A9 2016 : 내가 보급형으로 보이니?

Author : Jin Hyeop Lee, Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 삼성의 스마트폰 포트폴리오는 매우 복잡합니다. 플래그십인 갤럭시 S와 갤럭시 노트 시리즈부터 시작해서 중급형 갤...

by IYD on 3년 전
1,473 7 1

Inside Your Galaxy S7 & S7 edge : (1) 최초 성능 브리핑

Author : Jin Hyeop Lee, Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 삼성은 언제나와 같이 MWC 기간에 새 플래그십 스마트폰을 발표했습니다. 갤럭시 S7의 발표에 대해서는 이전의 MWC 다...

by IYD on 3년 전
909 33

The IYD Report : Laptop & 2-in-1 - Jan & Feb 2016

Author : Daeguen Lee, Jin Hyeop Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) <목차> 1. 서론 : 양 극단과 그램만이 존재하는 시장 2. 17인치대 이상 추천 3. 15인치대 추천 4. 13~14인치대 추천 5...

by IYD on 3년 전
572 12

The IYD Report : Smartphone - Jan & Feb 2016

Author : Jin Hyeop Lee, Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 마지막 스마트폰 리포트가 게시된지 어언 두 달이 지났습니다. 마침 이 글이 2016년의 첫 번째 스마트폰 리포트이기도...

by IYD on 3년 전
541 21
서버에 요청 중입니다. 잠시만 기다려 주십시오...