기타 칼럼

리뷰(게임, 하드웨어, 칼럼, 영상리뷰) 게시판은
닥터몰라 운영진이 작성한 게시글을 보는 게시판으로 회원들의 작성은 금지되어 있습니다.
(단, 좋은 글이 있으면 글 작성자의 허락과 운영자의 회의를 통하여 리뷰게시판으로 이동 됩니다.)

[ICT] 애플의 새로운 모바일 SoC, A9 : 1부. 성능 및 아키텍처 분석

IYD | 조회 758 | 추천 0 | 2015.10.04. 10:11 http://drmola.com/etc_column/44951

Author : Jin Hyeop Lee

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)




안녕하세요 독자 여러분 IYD의 편집장을 맡게 된 이진협입니다. 오랫만에 새 글로 인사드립니다. 모쪼록 즐겁게 읽어주시면 감사하겠습니다.



들어가며

아이폰 6s 시리즈가 정식 출시된지 어느 정도 시간이 지났습니다. 아이폰의 s 세대가 그래왔듯 이번 세대 역시 외형적인 변경점은 미미하고 내부적으로 큰 변화가 있었습니다. 3d 터치나 카메라 모듈 등의 변화도 있었지만 이 글에서 다룰 내용은 아이폰의 가장 핵심적인 기능을 담고 있는 A9 SoC, 그 중에서도 CPU 부분입니다. 물론 실기기를 입수하여 직접 벤치마크를 하는 게 가장 적당한 방법이겠지만 아직 아이폰 6s/6s Plus이 국내에 출시되지 않은 상황이므로 geekbench 브라우저의 데이터를 가져다 쓸 수 밖에 없었습니다. 최대한 공정한 비교를 위해 6s의 경우 벤치마크 점수를 명시한 리뷰 중 그 테스트 방법을 명시한 리뷰(링크)에서 얻은 점수와 가장 유사한 스코어를 가진 표본을 골랐습니다. 대조군이 될 A8의 데이터는 보유하고 있는 아이폰 6를 이용해 위 리뷰의 테스트 방법을 그대로 사용(모든 앱 종료 후 재부팅, 독립적으로 3회 측정한 점수 평균)하여 산출했습니다. 또 각 테스트 항목이 명확히 명시되어있고 리뷰어들이 실측한 데이터가 존재하는 geekbench 3의 데이터를 기반으로 분석이 이루어졌으며 추가적인 분석은 아이폰 6s가 정식으로 출시된 후 실기기를 입수하여 작성할 리뷰에서 진행하도록 하겠습니다. 본 글은 A9의 성능을 분석하고 Twister 아키텍처에 대해 다루는 1부와 애플이 A9을 설계한 의도 등 성능 외적인 부분을 다루는 2부로 진행될 예정입니다. 먼저 A9 CPU의 성능을 확인해보도록 하겠습니다.

A9 CPU 성능 분석 : Based on Geekbench 3


A9이 출시되기 전부터 코어수에 대해 여러 가지 루머가 있었습니다.(링크) 심지어 애플이 스페셜 이벤트를 가지고 A9 SoC에 대한 일부 정보를 제공했음에도 불구하고 논란은 사그라들지 않았습니다. 애플이 제시한 70%의 성능 향상은 사람들의 생각을 훨씬 뛰어넘는 수준이었습니다. 상식적으로 Typhoon은 이미 충분히 고 IPC 아키텍처였고, 스마트폰이 갖고 있는 여러 가지 한계상 여기서 IPC가 유의미하게 커지리라 기대한 사람은 많지 않았습니다. 따라서 자세한 사항들이 공개되기 이전까지 고클럭 듀얼코어냐 저클럭 트리플코어냐에 대한 논란이 있었습니다. 이런 논란은 애플이 아이폰 6s를 판매하기 위해 중국 당국에 인증받은 내역이 공개되면서 종결되었습니다. 인증 내역에 따르면 아이폰 6s의 프로세서는 1.8GHz로 동작하는 듀얼코어를 가진 것으로 확인되었습니다. 이후 실제 제품이 출시되고 여러 가지 추가 자료들이 밝혀졌습니다. 먼저 A9 SoC의 CPU의 스펙시트를 살펴봅시다.



A9 SoC의 CPU 코어 코드네임은 'Twister'인것으로 알려졌습니다. Swift - Cyclone - Typhoon - Twister로 이어지는 애플의 자체 디자인 코어는 이제 4세대에 이르렀고 또 한번 큰 도약을 해냈습니다. A9의 Twister는 1.8GHz로 동작하는 듀얼코어입니다. 기존 A8이 사용하던 20nm 평면 공정에서 삼성/TSMC의 14nm/16nm FinFET 공정으로의 이행은 전력소모를 늘리지 않으면서 더 커진 코어를 30% 더 빠른 클럭스피드로 동작할 수 있도록 만들었습니다. 이 외에 특기할 만한 것은 L2, L3캐시가 각각 3배, 2배 커졌다는 것입니다. 메인 메모리 역시 LPDDR3 1GB에서 LPDDR4 2GB로 이행하여 큰 성능 향상을 기대할 수 있게 되었습니다.



이제 본격적으로 CPU 성능을 분석해 봅시다. 위 표에 기술된 점수는 Geekbench 3를 이용해 측정된 점수이며 정수 연산성능, 부동소수점 연산성능, 메모리 연산성능을 산술적으로 종합한 점수입니다. 표에 대해 조금 더 설명을 하면 가장 좌측은 아이폰 6에서 3회 측정된 평균값이며 두 번째 항목은 A8칩의 성능이 1800MHz로 완벽하게 스케일링 될 경우의 이론상 성능입니다. 이 때 단순 스케일을 할 경우 문제가 발생하게 되는데 Geekbench의 총점은 정수연산점수, 부동소수점 연산점수, 메모리 연산점수를 각각 가중치를 두어 합산한 수치입니다. 하지만 메모리성능은 CPU의 성능 스케일과는 별도로 작동합니다. 따라서 기존 구해진 총점에서 메모리 점수를 빼고 나머지 총점에 1800/1400을 곱한 뒤 다시 메모리 점수를 더하는 방식으로 계산했습니다. A8은 싱글코어 성능이 메모리에 병목을 일으키는데 1800MHz로 스케일된 성능으로 계산해보면 병목 지점을 넘긴다는 것을 확인할 수 있습니다. 따라서 싱글코어 총점의 경우 조금 더 복잡한데 기존의 총점에서 싱글코어 메모리 총점을 빼고 나머지를 스케일 시킨 뒤 멀티코어 메모리 총점을 합산하는 방식으로 산출했습니다. 그리고 A9의 경우 아이폰 6s(iPhone8,1)에서 측정된 값입니다. 우리는 여기서 동클럭시 성능비교와 A8, A9간의 성능 비교를 동시에 할 수 있게 됩니다. 긱벤치 싱글코어를 기준으로 56% 정도의 성능향상이 있었음을 알 수 있습니다. 멀티코어의 경우 그 성능향상폭이 줄어드는데 여기에 대해서는 뒷쪽에서 다시 짚어드리도록 하겠습니다. 또 동일 클럭을 기준으로 했을 때도 약 25%에 달하는 성능향상이 있었는데 이는 상당히 큰 변화입니다. 인텔이 2년에 한번씩 시행하는 아키텍처 개선에서도 이 정도의 IPC 향상은 이뤄내지 못하고 있다는 점을 보면 좀 더 이해하기 쉬울 것입니다. 우리는 여기서 A9의 Twister가 근본적인 수준에서 확장되었다고 추론할 수 있습니다.



위 표는 Geekbench 3의 정수연산 세부 점수입니다. 세부 점수 비교는 각 항목의 싱글코어 점수를 다뤘습니다. 매우 많은 알고리즘들이 CPU의 정수연산성능을 테스트하게 되는데 각 알고리즘이 사용하는 연산의 종류와 그 비율이 조금씩 다르기에 이들의 특성을 이해하면 A9의 특성에 대해서 더 잘 이해할 수 있을 것입니다. 이제 각 세부 점수에 대해서 알아보도록 합시다.

 

AES는 고급 암호화 표준의 약자로 대칭키 방식의 암호화 기법입니다. 키를 만들고 복호화하는 데 많은 정수연산과 약간의 분기예측연산, 비트논리연산이 필요합니다. ARMv8이나 x86에서는 이를 지원하는 특수한 명령어가 존재하기 때문에 성능상에 이득을 얻을 수 있습니다. 이 항목에서 Twister는 Typhoon과 비교했을 때 큰 성능향상을 얻지 못했습니다. 동일 클럭 비교에서 오히려 더 낮은 성능을 보이는데 이는 1400MHz에서 1800MHz로 성능이 정확히 산술적으로 스케일되지 않기에 생기는 문제입니다. 즉 두 아키텍처간에 AES 성능은 사실상 동일하다고 볼 수 있습니다.

 

Twofish는 Blowfish 암호화를 기반으로 한 암호화 알고리즘입니다. 캐시 성능에 민감하고 많은 정수연산, 비트논리연산이 가해지게 됩니다. AES와는 다르게 A8 칩 대비 70% 이상의 성능향상을 보이고 있습니다. 이는 특별한 명령어에 의해 시행되는 AES와는 다르게 실제로 CPU가 정해진 연산을 모두 시행하기 때문입니다.

 

SHA는 해시 암호화 기법인데, 흔히 알고있는 MD-5 등을 대체합니다. 위의 두 암호화에 비해 캐시에 덜 민감하나 많은 정수연산과 비트논리연산 그리고 다소 많은 분기예측 연산이 들어갑니다. SHA-1과 SHA-2의 차이는 쉬프트 연산의 유무와 결과값, 내부 상태의 값 크기에 있습니다. SHA-1의 경우 역시 70% 이상의 성능향상을 보이고, SHA-2의 경우 그보다는 적지만 역시 50%를 넘는 성능 향상을 보여주고 있습니다. 

 

BZip2 압축, 압축 해제 테스트는 BZip2를 이용해 텍스트 파일을 압축하고 압축 해제하는 테스트입니다. 메모리 로드/스토어부터 캐시성능, 정수연산, 쉬프트연산, 분기예측연산, 논리연산이 많이 일어납니다. 성능 향상폭은 40%대입니다. JPEG, PNG 파일의 압축, 압축 해제 역시 메모리 로드/스토어부터 캐시성능에 영향을 받습니다. 또 많은 정수연산과 약간의 분기예측 연산을 시행합니다. 대략 40~50%대의 성능향상을 보여주고 있습니다.

 

마지막 세 알고리즘은 비교적 순수한 정수 연산성능을 평가하는 항목입니다. Sobel 알고리즘은 가장자리를 검출하는 알고리즘입니다. 캐시 성능에 영향을 받고 많은 정수연산과 분기예측 연산이 시행됩니다. 60%를 넘는 성능향상을 보이고 있습니다. Lua는 200000 이하의 모든 소수를 찾는 알고리즘입니다. 가장 단순한 계산 성능을 계측할 수 있는 항목이기도 합니다. 많은 정수연산과 다소 많은 분기예측연산이 시행됩니다. 90%에 달하는 성능향상폭을 보여줍니다. 마지막으로 Dijkstra 알고리즘입니다. 흔히 최단경로 알고리즘이라고도 알려져 있는데 역시 계산성능을 계측하는 데 특화된 항목입니다. 많은 정수연산과 분기예측 연산을 포함하고 있습니다. 역시 60%를 넘는 성능향상폭을 보이고 있습니다.


Geekbench는 사용시 실제 성능을 최대한 반영하기 위해 실생활에서 자주 사용되는 여러 시나리오들과 순수한 연산성능을 측정할 수 있는 시나리오들을 섞어서 CPU의 성능을 테스트합니다. 위 테스트 중 순수한 연산 성능을 최대한 반영하는 Sobel, Lua, Dijkstra가 대략 70%의 성능 향상을 보이고 있는데 이는 애플이 주장하는 성능 향상치와 일치하는 수치입니다. 이는 지난 세대의 사례를 확인함으로서 명확해질 수 있는데 A8 칩이 처음 출시되었을 때 애플은 A7 칩에 비해 25% 향상된 성능을 보인다고 발표했지만 실제 Geekbench 점수에서는 그 정도의 차이를 찾을 수 없었습니다. 하지만 이 때도 Sobel, Lua, Dijkstra 항목을 보면 애플이 주장한 25% 언저리의 성능 향상을 볼 수 있습니다. 이는 A7(아이패드 에어)과 A8X의 경우에도 마찬가지로 찾아볼 수 있는 경향성입니다.(싱글코어 기준 40% 성능 향상) 우리는 애플이 주장하는 CPU 성능 향상이 어떤 식으로 평가된 것인지를 좀 더 정확히 알 수 있게 되었습니다.



다음은 부동소수점 연산 성능의 세부 항목입니다. BlackScholes는 유럽식 옵션의 가치를 측정하는 수식으로 다량의 부동소수점 연산을 요구합니다. 대략 60%의 성능 향상을 보여줍니다. Mandlebrot 벤치마크는 다량의 부동소수점 연산과 분기예측 연산이 요구됩니다. 이 때 각 알고리즘의 실행이 일어날 때마다 메모리에 올려진 Mandlebrot Set과의 일치여부를 확인하는 과정이 필요합니다. 여기서는 60%에 약간 못 미치는 성능 향상을 보여줍니다.

 

Sharpen Filter와 Blur Filter는 각각 메인 메모리의 이미지에 샤픈이나 블러를 먹이는 테스트입니다. 메인 메모리에서 이미지를 읽어와 캐시에 저장하는 과정이 포합됩니다. 각각 80%를 넘는 성능 향상과 60% 언저리의 성능 향상을 보였습니다.

 

GEMM 테스트는 행렬의 곱연산을 시행합니다. 다량의 부동소수점 연산이 시행되며, 분기예측 연산이 발생합니다. S와 D는 각 단정밀도와 배정밀도를 의미합니다. 두 테스트 모두 대략 50% 언저리의 성능 향상을 보였습니다.

 

FFT 테스트는 고속 푸리에 변환 알고리즘으로 많은 부동소수점 연산이 발생합니다. 단정밀도에서는 70%에 가까운 성능 향상을, 배정밀도에서는 60%를 넘는 성능 향상을 보입니다.

 

N-Body는 물리엔진 등에서 가해지는 부하를 측정하기에 적당합니다. 역시 매우 많은 부동소수점 연산이 시행되며, 소량의 분기예측 연산이 동원됩니다. 65%에 달하는 성능 향상을 보입니다.

 

마지막 Ray Trace 항목은 광선을 추적하여 실시간 간접광 등을 계산합니다. 매우 많은 부동소수점 연산, 행렬연산과 다소 많은 분기예측 연산이 필요합니다. 60%에 못 미치는 성능 향상이 있었습니다.


부동소수점 연산의 경우 정수연산에 비해 비교적 고른 성능향상을 보여주고 있습니다. 이는 부동소수점 연산에 주어진 각 시나리오들이 대부분 매우 다량의 연산을 요구하기 때문에 그리고 단일 연산자로 다량의 데이터를 처리하는 특성상 상대적으로 연산 이외의 부분이 미치는 영향이 정수 연산성능 테스트에 비해 낮은 것이라 추론해 볼 수 있습니다. 게다가 부동소수점 연산의 경우 대부분의 캐시 성능에 밀접하다는 것 역시 이들의 성능 향상 편차가 크지 않은 이유 중 하나로 볼 수 있겠습니다. 평균적으로 60%를 조금 상회하는 성능 향상을 보이고 있는데 역시 순수한 연산 부하만을 가한다면 이보다 조금 더 상향된 성능 향상을 보일 것이라 추론할 수 있을 것입니다.



Geekbench 3의 마지막 테스트 항목인 메모리 성능입니다. 앞에서도 말했듯이 A9은 2GB의 LPDDR4 메모리를 채택함으로서 메모리 성능의 향상을 예고했습니다. 메모리 성능의 각 항목은 매우 단순합니다.

 

Stream Copy의 경우 말 그대로 복사 붙여넣기 명령이며, Stream Scale은 한쪽의 데이터 셋에 일정한 숫자를 곱한 뒤 다른 주소로 다시 저장하는 테스트입니다. Stream Add는 두 데이터 셋을 더해 세 번째 공간에 저장하는 명령이고, Stream Triad는 위 두 개의 테스트를 합쳐놓은 것입니다. 한 쪽의 데이터셋에 일정한 수를 곱한 후 그 결과를 두 번째 데이터셋과 합산하여 세 번째 공간에 저장합니다.

 

위 표에 기술된 값은 각 SoC의 멀티 코어 메모리 점수 비교값입니다. 위에서 싱글 코어 성능으로 비교하다가 여기선 왜 멀티코어 성능으로 비교했는지는 바로 아래에 기술하겠습니다. 어쨌든 A8에서 A9으로 이행하면서 40% 정도의 메모리 성능 향상을 얻었다는 것을 알 수 있습니다. 기존의 통념과는 다르게 A8에서 A9으로의 이행에서 메모리 성능 향상폭보다 프로세서 성능 향상폭이 훨씬 컸고, 긱벤치 총점 비교시에 오히려 메모리 성능이 그 발목을 잡는 현상이 벌어집니다. 여기서 가장 먼저 봤던 표를 다시 살펴보도록 합시다.



긱벤치 총점으로 뽑은 점수입니다. 긱벤치 점수 기준으로 정수 연산 성능은 56%, 부동소수점 연산 성능은 62% 증가했는데 메모리 성능 증가가 연산 성능 증가에 비해 낮기 때문에 총 성능 향상이 정수, 부동소수점 향상의 평균에 비해 낮게 책정되었습니다. 여기서 재미있는 부분은 멀티코어에서 그 성능 증가율이 52%까지 떨어졌다는 겁니다. 보통 벤치마크 프로그램은 프로세서의 성능을 최대한 끌어내는 게 목적이기 때문에 명령어 레벨, 스레드 레벨의 병렬성을 고려하여 프로그램이 구성되어 있습니다. 따라서 벤치마크 프로그램에서 코어 수의 증가가 선형적으로 성능향상에 반영되지 않는 가장 큰 이유는 스로틀링입니다. 이것이 '모바일 SoC의 모든 것'(링크)에서 스로틀링 인덱스값을 구하는 이론적 배경이기도 합니다. 단순히 전체 점수만을 놓고 보면 애플이 각 코어를 과도하게 확장하고 그 클럭을 올림으로서 스로틀링이 걸렸다고 생각할 수도 있을 것입니다. 결론부터 말하자면 이 추측은 틀렸습니다. 이런 일이 생긴 이유는 Twister의 싱글코어 성능이 너무 좋기 때문입니다. 


(표 출처 : Daring Fireball)


메모리 스코어를 보시면 싱글코어와 멀티코어의 점수차이가 나는 아이폰 5s, 6와는 다르게 아이폰 6s의 경우 싱글코어와 멀티코어 메모리 점수가 거의 동일합니다. Geekbench의 메모리 벤치마크는 위에서 설명드린것과 같이 네 가지 항목으로 이루어져 있습니다. 네 가지 항목 중 첫 번째 항목은 순수한 메모리 성능의 측정이지만 나머지 세 항목은 CPU의 정수연산이 필요한 구조입니다. 기존 A7, A8 SoC는 싱글코어 상태에서는 위와 같은 테스트에서 메모리 성능을 다 끌어내지 못했다고 해석할 수 있습니다.(CPU에서 병목현상이 생김) 비로소 멀티코어를 활용해야만 메모리의 성능을 모두 끌어낼 수 있었던 것입니다. 반면 A9 SoC의 경우 싱글코어에서 이미 위의 연산들을 병목없이 처리해 낼 수 있게 되었고 싱글코어와 멀티코어에서 메모리 점수의 차이가 사라졌습니다.(따라서 위 메모리 성능 비교에서 순수한 메모리 성능의 비교를 위해 멀티코어 메모리 점수를 이용해 비교했습니다) 따라서 정수, 부동소수점, 메모리 점수를 단순히 가중평균치를 두어 합산하는 방식의 Geekbench 총점에서 이런 왜곡이 발생할 수 밖에 없는 것입니다. 메모리 점수를 제외하고 정수연산과 부동소수점 연산으로 비교했을 때 여전히 멀티코어는 싱글코어에 비해 두 배에 가까운 성능향상을 보여줍니다.(1.93배) 애플은 이번에도 역시 스로틀링 인덱스를 0에 가깝게 유지하는 방법을 찾은 것 같습니다.

 

Twister 파헤치기

 

우리는 위에서 얻은 정보들과 약간의 추가정보들을 이용해 Twister 아키텍처를 파헤쳐 볼 수 있을 것입니다. 저는 가장 먼저 Twister 코어가 기존 Typhoon 코어에 비해 얼마나 커졌는지를 확인하고 싶었습니다. 우리는 A8과 A9의 다이 이미지와 각각의 다이 크기를 알고 있습니다. 이를 이용해서 정확한 코어의 크기를 추정해볼 수 있을 것입니다.

 

        

(사진 출처 : Chipworks, 애플 스페셜 이벤트 슬라이드)

 

각 다이 사이즈에서 CPU 코어가 차지하는 영역의 비율을 단순한 계산을 통해 구해낼 수 있습니다. A8 칩의 다이 면적은 89 제곱밀리미터, A9 칩의 다이 면적은 96 제곱밀리미터(삼성 14nm LPE 기준)입니다. 단순한 비례식 계산을 통해 구해본 CPU 영역의 면적은 각각 12.3 제곱밀리미터, 12.4 제곱밀리미터가 됩니다. Chipworks 분석 결과 14nm LPE 공정에서 면적이 67%로 축소되었습니다. 이를 기반으로 코어 크기 비례를 맞춰볼 수 있습니다. 대략 60% 정도 코어 면적이 넓어졌음을 확인할 수 있습니다. 하지만 우리는 A8에서 A9으로 넘어올 때 L2 캐시가 3배로 늘어났다는 것을 알고 있습니다. L2 캐시은 L3 캐시의 SRAM 면적을 통해 어느 정도 근사할 수 있을 것입니다. 4MB의 L3 캐시의 면적이 20nm 공정 기준으로 4.9 제곱밀리미터이므로 대략 SRAM 1MB당 1.2 제곱밀리미터 정도의 면적을 차지한다고 볼 수 있을 것입니다. 이제 각각의 코어 면적에서 L2 캐시가 차지하는 면적을 빼고 그 비율을 구하면 코어 크기가 대략 40%정도 증가했다는 결론을 얻을 수 있습니다. 물론, 이 수치가 정확하지는 않지만 코어의 크기가 유의미하게 증가했다고 보기에는 충분할 것입니다.

 

Twister는 정수, 부동소수점 연산 모두에서 큰 폭의 성능향상을 보였습니다. 또 코어의 크기 역시 유의미한 폭의 증가를 보였다는 점에서 아키텍처가 확장되었다는 데는 이견이 없을 것으로 보입니다. 위 성능 평가의 각 세부 목록을 살펴보면 전체적으로 유의미한 성능 향상을 가졌다는 것에서 프론트엔드와 백엔드 부분 모두 확장되었다는 것을 추론할 수 있습니다. 정확한 세부 유닛들의 추가를 논하기에는 정보가 부족합니다. 추후 기기를 입수한 후 추가적인 실험을 통해 더 자세한 정보를 전달해드릴 수 있도록 하겠습니다. 지금 추론해 볼 수 있는 것은 디코더 갯수의 증가, 명령어 레벨의 병렬성을 관장하는 비순차 실행 유닛들(재정렬 버퍼, 재정렬 큐) 엔트리 수의 증가와 정수, 부동소수점 연산 유닛갯수와 백엔드의 이슈 폭 증가 등이 있습니다.

 

 

위 다이어그램은 기존 Cyclone의 블록 다이어그램을 기준으로 위에서 설명한 내용을 도식화한 그림입니다. 제가 예상해서 새로 추가한 부분은 점선으로 표시했습니다. 다시 한 번 말씀드리지만 위 블록 다이어그램은 제한된 정보를 가지고 추론된 내용을 정리한 것입니다.

 

이상으로 A9 Twister에 대한 분석을 마치겠습니다. 이어질 2부에서는 애플의 SoC 설계 속에 숨겨진 함의와 시장에 출시된 여러 CPU와의 비교(ARM, x86)등을 통해 A9이 가지는 성능 지위를 확인해 볼 수 있을 것입니다. 물론 이 과정에서 A9X에 대한 예측 역시 이뤄질 것입니다. 그리고 최근 뜨거운 감자인 14nm/16nm 혼용 문제 역시 다루지 않을 수 없겠지요. 많은 기대 부탁드립니다. 곧 2부로 찾아뵙겠습니다.

 

//



IYD's Signature

적용중인 트로피가 없습니다.

DR.MOLA

레벨 Lv. 2 (31%)
포인트 501 p
출석 11 일 (개근 0 일)

IYD'님의

  1. Apple-A9-mock-up.jpg (File Size:71.8KB/Download:0)
  2. Apple_Twister_Diagram_SoC_iyd_JHpLee.png (File Size:57.1KB/Download:0)
  3. A8_A9_SoC_Comparison_General.png (File Size:45.4KB/Download:0)
  4. Apple_A9_die.PNG (File Size:802.9KB/Download:1)
  5. A8_A9_SoC_Comparison_Integer.png (File Size:140.3KB/Download:1)
  6. Daring_Fireball_A8_A9_SoC_Comparison.png (File Size:40.3KB/Download:0)
  7. Apple_A8_Chipworks.PNG (File Size:765.3KB/Download:2)
  8. A8_A9_SoC_Comparison_Overall.png (File Size:43.8KB/Download:1)
  9. A8_A9_SoC_Comparison_Memory.png (File Size:60.8KB/Download:0)
  10. A8_A9_SoC_Comparison_Floating_Point.png (File Size:136.2KB/Download:0)
facebook twitter google plus pinterest kakao story band
Profile image 이승준 2015.10.04 13:26
감사합니다
수정 삭제
Profile image IYD 2015.10.04 13:28
글 읽어주셔서 감사합니다 :)
Profile image rushTENm 2015.10.04 18:35
CPU성능이 너무 좋아져서 메모리가 발목을 잡는다니 LPDDR4마저도 충분하지 않네요
A10에는 wide io를 기대해야겠어요
수정 삭제
Profile image IYD 2015.10.05 00:27
동감입니다. 애플같이 대량으로 물량을 끌어낼 수 있는 회사가 스타트를 끊어줘야 Wide io가 빠르게 대중화될텐데 말입니다.
Profile image 솔블레이즈 2015.10.04 20:44
애플이 발표할 때는 ap성능을 그리 강조하진 않는데 실제로는 이렇게 발전하다니 놀라울 뿐입니다
수정 삭제
Profile image IYD 2015.10.05 00:27
그러게요. 글 읽어주셔서 감사합니다.
Profile image 수치해석 2015.10.05 04:00
GEMM 테스트는 행렬의 곱연산을 시행합니다. 부동소수점 연산과 분기예측 연산이 다량으로 발생합니다. S와 D는 각 단정밀도와 배정밀도를 의미합니다. 두 테스트 모두 대략 50% 언저리의 성능 향상을 보였습니다.
//
GEMM은 행렬끼리 곱하는 겁니다. C=A*B 연산이지요. 제가 알기론 GEMM은 분기 예측이 거의 없을 겁니다. 중요한 분기라면 루프가 끝날지 아닐지 정도일 겁니다.
수정 삭제
Profile image 수치해석 2015.10.05 04:03
N-Body는 물리엔진 등에서 가해지는 부하를 측정하기에 적당합니다. 역시 매우 많은 부동소수점 연산과 분기예측 연산이 동원됩니다. 65%에 달하는 성능 향상을 보입니다
//
(정통) N-Body 역시 분기가 거의 없는 걸로 압니다. N-Body, GEMM 등은 공개된 소스도 많으니, 찾아보시기 바랍니다.

인텔 MKL의 GEMM은 CPU 이론상 최대 성능의 99% 이상이 나오는데, 분기가 많다면 절대 뽑을 수 없는 결과입니다.
수정 삭제
Profile image 수치해석 2015.10.05 04:06
게다가 부동소수점 연산의 경우 대부분의 캐시 성능에 밀접하다는 것 역시 이들의 성능 향상 편차가 크지 않은 이유 중 하나로 볼 수 있겠습니다.
//
GEMM, FFT, N-Body 등은 캐쉬를 포함한 메모리 성능 영향이 크지 않습니다. 문제가 커짐에 따라 이상적인 코드의 연산/메모리 비율이 무한대로 발산해서 이렇습니다.
수정 삭제
Profile image IYD 2015.10.05 10:44
GEMM의 경우 루프에서 발생하는 백 분기의 비율이 꽤나 높았습니다. 각 연산마다 분기가 발생하므로 거의 없는 수준은 아닙니다. 대신 분기예측이 매우 쉬운 형태이므로 분기예측 실패에 따른 손실이 거의 없기 때문에 외부로 그렇게 보이는 것이라 예측됩니다. 물론 연산 비율에 비해 상대적으로 적은 비율인 것은 맞으며 오해를 불러일으키는 본문 부분을 조금 수정하겠습니다.

N-Body의 경우 분기예측이 많지는 않지만 무시할 정도로 적은 건 아니라고 알고 있습니다. 물론 순수한 계산 부하가 훨씬 크지만 분기예측 역시 꾸준히 시행되고 있습니다. 그래서 본문에 보시면 분기예측이 시행된다 정도로만 언급되었지 분기예측이 다량이라는 표현은 없습니다.

부동소수점 연산들이 캐시에 밀접하다고 말한 것은 캐시나 메모리의 용량이 아니라 그 레이턴시에 관한 내용입니다. 내용을 끊임없이 CPU에 공급해줘야 하는데 그 레이턴시는 성능에 꽤 영향을 미칩니다.

좋은 지적 감사합니다. 혹 제가 추가적으로 잘못 알고있는 내용이 있으면 알려주시면 감사하겠습니다.

Profile image IYD 2015.10.05 10:44
그리고 글의 부동소수점 부분에서 내리고 있는 결론 역시 수치해석님께서 주장하시는 바와 비슷합니다. 부동소수점 연산은 여타 요소들이 정수연산성능을 재는 알고리즘에 비해 훨씬 적게 개입한다는 것 역시 본문에 포함되어 있습니다.

물론, 세부적인 내용 역시 중요하기에 수치해석님의 지적은 매우 타당하며 제 글에 관심을 가져 주신 점에 다시 한 번 감사드립니다.
Profile image 수치해석 2015.10.05 14:43
GEMM 등은 다음에 필요한 데이타 예상이 아주 쉽기 때문에, 캐쉬 레이턴시가 덜 중요합니다.
수정 삭제
Profile image IYD 2015.10.05 14:53
GEMM 같은 경우는 기본적으로 행렬이 정해져 있기에 그렇지만 나머지 경우는 그렇지 않죠. 부동소수점 연산 전체를 놓고 보면 여전히 캐시 레이턴시가 큰 영향을 주는 게 사실입니다.
Profile image 수치해석 2015.10.05 15:49
세부 항목을 보니, 모바일이나 시대에 안 맞는 부분이 좀 보이네요. 긱벤치가 원래 맥에서 시작한 걸로 압니다.

jpeg은 SoC 안에 하드웨어 인코더,디코더가 들어 있어서, CPU로 처리할 일은 별로 없지요. 이미지 샤픈, 블러 처리도 역시 SoC 안의 이미지 프로스세서가 주로 처리합니다.
GEMM, FFT는 수치 해석, 자료 분석 등에 주로 쓰는데, 휴대 기기에서 이런 일을 하기는 하나요?
수정 삭제
Profile image 수치해석 2015.10.05 15:50
GEMM, FFT, N-Body 3가지 모두 데이타 예측이 쉬워서 캐쉬 레이턴시가 별로 안 중요합니다. 다른 연산은 제가 잘 모릅니다.
수정 삭제
Profile image IYD 2015.10.05 16:22
맞습니다. 긱벤치가 완벽한 벤치도 아니고 많은 비판도 받고 있죠. 사실 그 이유 때문에 긱벤치의 세부 점수를 일일히 명시하고 그에 대해 설명한 겁니다. 이미지 샤픈 블러 같은 경우에는 긱벤치 제작자가 설명하기를 김프 등에서 사용하는 계산 알고리즘을 가져와 적용했다고 하니 ISP가 처리하지는 않는 것으로 보입니다. GEMM, FFT의 경우 그냥 CPU의 부동소수점 연산 성능이 어느 정도인가를 테스트하는 용도 중 하나로 쓰인 거죠. 꼭 이런 연산을 휴대기기에서 하냐보다는요.

이건 긱벤치만의 문제가 아닌 듯 합니다. 모든 벤치마크의 문제지요. 사실상 피씨에서 쓰이는 벤치마크 역시 실생활과는 동떨어진 시나리오로 테스트 되기 마련입니다.

지금 IYD에서 진행되고 있는 프로젝트 중에는 이런 부분을 보완하는 방법 이 활발히 연구중에 있으니 기대해 주시면 감사하겠습니다.

마지막으로 수치해석님의 정성스런 의견 정말 감사합니다.
Profile image 잼아저씨 2015.10.05 14:59
얼마나 강해졌는가는 잘 보았습니다.
이제 왜 강해졌는가가 궁금합니다. 무슨 2000년대 초도 아닌데 50%의 ipc 향상은 경이롭네요.
수정 삭제
Profile image IYD 2015.10.05 15:02
IPC 향상은 50%까진 아니고 30% 이내입니다. 만 그 조차도 매우 큰 폭의 IPC 향상이라는 데는 이견이 없습니다. 지금도 갈려나가고 있을 애플 실리콘 팀에 경의를 표합니다.

왜 강해졌는가에 대한 내용이 2부에 담길 예정입니다. 기대해주세요~
Profile image 수치해석 2015.10.06 15:46
A9 GPU에 대해서도 다루실 건가요?
수정 삭제
Profile image IYD 2015.10.06 17:53
2부에서 그 성능 정도를 간략하게 짚기는 하겠지만 적어도 이 글에선 자세히 다루진 않을 것입니다. 나중에 기회가 된다면 다뤄보는 것도 괜찮을 것 같습니다만 기약할 수는 없습니다.

혹시나 직접 a9의 gpu를 다루는 글을 쓰실거라서 댓글을 남겨주신 거라면 알려주시면 감사하겠습니다.
  • AMD 3분기 실적 발표 : PC부문 부진 심각 [ICT] AMD 3분기 실적 발표 : PC부문 부진 심각 [1] file

    Translator : Daeguen Lee (※ 이 글은 AnandTech의 원문 (링크) 을 번역한 것입니다.) AMD 3분기 실적 발표 : PC부문 부진 심각 AMD는 오늘 그들의 2015회계년도 3분기 실적을 발표했다. 이 기간 동안의 총매출은 10.6억 달러로 이전 분기 (2015년 2분기) 보다는 13% 증가했지만 전년도 같은 분기의 14.3억 달러보다는 26% ...

    • IYD |
    • 15.10.16 |
    • 조회 수 99 |
  • 인텔 3분기 실적 발표 : 탄탄한 실적, PC는 부진 [ICT] 인텔 3분기 실적 발표 : 탄탄한 실적, PC는 부진 [1] file

    Translator : Daeguen Lee(※ 이 글은 AnandTech의 원문 (링크) 을 번역한 것입니다.)인텔 3분기 실적 발표 : 탄탄한 실적, PC는 부진인텔은 지난 13일 2015 회계년도 3분기 실적을 발표했다. 여느 때와 마찬가지로 탄탄한 한 분기를 보낸 인텔은 이 기간 동안 전년도 같은 기간과 엇비슷한 수준의 145억 달러의 총매출을 올...

    • IYD |
    • 15.10.16 |
    • 조회 수 87 |
  • 국내 IT/게임사이트 랭킹 : 2015년 10월 [ICT] 국내 IT/게임사이트 랭킹 : 2015년 10월 [2] file

    Author : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)안녕하세요 독자 여러분. 이달의 IT/게임사이트 순위를 소개하기 위해 새 글을 들고 찾아온 글쓴이입니다.상대적으로 안정적이던 1부 리그에서는 지난달에 이어 이번달에도 리그 내 순위변동...

    • IYD |
    • 15.10.15 |
    • 조회 수 84 |
  • 애플의 새로운 모바일 SoC, A9 : 2부. 전력소모, 성능특성, 전망 [ICT] 애플의 새로운 모바일 SoC, A9 : 2부. 전력소모, 성능특성, 전망 [17] file

    Author : Jin Hyeop Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분. 지난 '애플의 새로운 모바일 SoC, A9 : 1부'(링크)에 이어 2부로 다시 찾아뵙게 되었습니다. 예고드렸던대로 2부에서는 현재 ARM 진영에서 A9의 가장 강력한 경...

    • IYD |
    • 15.10.11 |
    • 조회 수 1145 |
  • 인사이드 메모리 : 램타이밍, 클럭, DDR 규격별 분석 [CPU] 인사이드 메모리 : 램타이밍, 클럭, DDR 규격별 분석 [15] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) (image source : Micron Crucial) 오늘날 컴퓨터 하드웨어의 발전속도가 정체되었음을 시사하는 지표는 한두 가지가 아닙니다. 익숙한 인텔 CPU는 벌써 몇 세대째 한자릿수의 성능향상률을...

    • IYD |
    • 15.10.06 |
    • 조회 수 3517 |
  • 애플의 새로운 모바일 SoC, A9 : 1부. 성능 및 아키텍처 분석 [ICT] 애플의 새로운 모바일 SoC, A9 : 1부. 성능 및 아키텍처 분석 [20] file

    Author : Jin Hyeop Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분 IYD의 편집장을 맡게 된 이진협입니다. 오랫만에 새 글로 인사드립니다. 모쪼록 즐겁게 읽어주시면 감사하겠습니다. 들어가며 아이폰 6s 시리즈가 정식 출시된지...

    • IYD |
    • 15.10.04 |
    • 조회 수 758 |
  • SLI와 크로스파이어의 비밀 : 판도라의 상자를 열다 [VGA] SLI와 크로스파이어의 비밀 : 판도라의 상자를 열다 [13] file

    Author : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)고성능으로 게임을 즐기고 싶으면 어떻게 해야 할까요? 당연히 더 좋은 그래픽카드를 사야 합니다. 하지만 돈이 흘러넘쳐 주체할 수 없을 지경이라도 현존하는 그래픽카드 중 여러분의 기대...

    • IYD |
    • 15.09.28 |
    • 조회 수 482 |
  • 모바일 SoC의 모든 것 : Jul, Aug & Sep 2015 [ICT] 모바일 SoC의 모든 것 : Jul, Aug & Sep 2015 file

    Author : Jin Hyeop Lee & Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)안녕하세요. 이 코너를 새로 담당하게 된 IYD 공동필자 이진협입니다. 모바일 SoC의 모든 것 6월호가 올라가고 거의 세 달 만에 다시 찾아뵙게 된 것 같습니다. 다음 달에는...

    • IYD |
    • 15.09.19 |
    • 조회 수 108 |
  • 스티브 워즈니악을 만나다 : DMZ 2.0 행사 후기 [ICT] 스티브 워즈니악을 만나다 : DMZ 2.0 행사 후기 [1] file

    Author : Jin Hyeop Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분. 얼마 전에 알려드렸던(링크) DMZ 2.0 행사에 다녀왔습니다. 글을 시작하기에 앞서 죄송하다는 말을 드립니다. 여러분께서 남겨주신 질문을 주최측에 전달했으나...

    • IYD |
    • 15.09.19 |
    • 조회 수 97 |
  • 테슬라는 지포스의 미래다 : 전문가용 그래픽카드로 엿보는 차기 지포스 라인업 [VGA] 테슬라는 지포스의 미래다 : 전문가용 그래픽카드로 엿보는 차기 지포스 라인업 [7] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분. 저는 이번달 초부터 열심히 GAMER'S CHOICE 8/9월 통합본을 쓰고 있습니다만 오늘은 잠시 다른 글로 여러분을 찾아뵙게 되었습니다. 새 글이 뜬 걸 보고 GAMER'S ...

    • IYD |
    • 15.09.17 |
    • 조회 수 223 |
  • 인텔 채널 심포지엄 2015 : 키노트 살펴보기 (2) [ICT] 인텔 채널 심포지엄 2015 : 키노트 살펴보기 (2) [4] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 앞의 글 (링크) 에서는 각각 첫번째와 두번째 키노트 세션이었던 인텔 코리아 김현태 전무의 기조연설과 양철훈 이사의 클라이언트 세션을 소개했습니다. 단 두 세션이 행사의 전반부 전체...

    • IYD |
    • 15.09.15 |
    • 조회 수 165 |
  • [ICT] 인텔 채널 심포지엄 2015 : 키노트 살펴보기 (1) [17] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 지난 9월 8일, 인텔의 주요 채널 파트너사를 대상으로 하는 인텔 채널 심포지엄이 여의도 콘래드 호텔에서 개최되었습니다. 여느 때처럼 미디어를 대상으로 하는 행사가 아니었던 만큼, 일...

    • IYD |
    • 15.09.15 |
    • 조회 수 241 |
  • 국내 IT/게임사이트 랭킹 : 2015년 9월 [ICT] 국내 IT/게임사이트 랭킹 : 2015년 9월 [2] file

    Author : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)안녕하십니까 독자 여러분. 이달의 국내 IT/게임사이트 랭킹을 소개해 드리기 위해 새 글로 찾아온 글쓴이입니다.연재를 시작한 지난 5월만 하더라도 '국내 하드웨어 사이트 서열이 어떻게 ...

    • IYD |
    • 15.09.14 |
    • 조회 수 159 |
  • 조류와 포유류의 폐 구조 : 단일방향 공기 흐름이 가지는 이점 [ICT] 조류와 포유류의 폐 구조 : 단일방향 공기 흐름이 가지는 이점 [11] file

    Author : Jin Hyeop Lee (Any action violating either copyright law or CCL policy of the original source is strictly prohibited) 이 글은 ‘맥 프로의 쿨링 시스템과 디자인에 관하여’와 연계되는 글입니다. 세계에서 가장 높은 산이라고 알려진 에베레스트 산, 최근에는 루트가 개발되고 여러 기술의 발달 등으로 등정...

    • IYD |
    • 15.09.14 |
    • 조회 수 550 |
  • 맥 프로의 쿨링시스템과 디자인에 관하여 [ICT] 맥 프로의 쿨링시스템과 디자인에 관하여 [26] file

    Author : Jin Hyeop Lee (Any action violating either copyright law or CCL policy of the original source is strictly prohibited) 우리가 흔히 아는 공냉식 쿨링에서는 케이스는 가급적 클 수록, 팬은 많을 수록 좋다고 알려져 있습니다. 하이엔드 시스템이 될 수록 각 부품이 내뿜는 열이 많아지고, 각각의 쿨링 시스...

    • IYD |
    • 15.09.13 |
    • 조회 수 292 |
  • 애플 9월 이벤트 결산 : SoC를 중심으로 [ICT] 애플 9월 이벤트 결산 : SoC를 중심으로 [2] file

    Author : Jin Hyeop Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)아시는 분들은 다 아시겠죠. 밤새 재미난 일이 있었습니다. 애플 홈페이지의 첫 대문이 "Siri야, 밤새 무슨 재미난 일 있었니?" 네요. 그래서 물어봤습니다.아. 알려주기는 하는데 이친구 ...

    • IYD |
    • 15.09.10 |
    • 조회 수 98 |
  • 애플 SoC의 모든 것 : A6부터 A9까지 [ICT] 애플 SoC의 모든 것 : A6부터 A9까지 [22] file

    Author : Jin Hyeop Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 애플이 자신들이 사용하는 SoC에 처음으로 이름을 붙인 것은 아이패드의 A4 칩이었습니다. 물론 애플은 '직접 설계한' 칩이라고 말했지만 그것은 매우 넓은 의미였습니다. 아이패드, 아이...

    • IYD |
    • 15.09.08 |
    • 조회 수 340 |
  • 국내 IT/하드웨어/게임 정보사이트 순위 (2015년 8월) (수정) [ICT] 국내 IT/하드웨어/게임 정보사이트 순위 (2015년 8월) (수정) [8] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분. 이달의 IT사이트 랭킹을 들고 여러분을 찾아왔습니다. (※ 주 : IT동아의 랭킹 산정이 잘못된 것을 발견, 8월 15일부로 수정했습니다) 우선 눈에 띄는 점이라면 무...

    • IYD |
    • 15.08.15 |
    • 조회 수 112 |
  • 현미경 들이대기 : 라데온 R9 나노의 실체 [VGA] 현미경 들이대기 : 라데온 R9 나노의 실체 [15] file

    Author : Daeguen Lee (Any action violating either copyright laws or CCL policy of the original source is strictly prohibited) 안녕하세요 독자 여러분. 요즘 날씨가 정말 덥습니다. 원래 여름은 무슨 일에도 흥미가 안 생길 계절이 아닌가 생각해보게 됩니다. 이런 여름을 맞아 독자 여러분 앞에 새 글이랍시고 내놓...

    • IYD |
    • 15.07.17 |
    • 조회 수 122 |
  • 국내 IT/하드웨어/게임 정보사이트 순위 (2015년 7월) [ICT] 국내 IT/하드웨어/게임 정보사이트 순위 (2015년 7월) [10] file

    Author : Daeguen Lee(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)이달의 국내 IT/하드웨어/게임 정보사이트 순위입니다.우선 1위부터 10위까지의 구성원은 변함이 없는 가운데, 8위와 9위가 서로 지난달 대비 순위만 맞바꾸며 여전히 1부 리그를 굳건히 유...

    • IYD |
    • 15.07.15 |
    • 조회 수 88 |