NPU 3

google TPU 논문 리뷰: In-Datacenter Performance Analysis of a Tensor Processing Unit (3)

2편에서는 아래 구성에서의 3을 다루었고, 이번 3편에서는 4.performance에 대해 설명을 해볼 것이다. 1. TPU origin : TPU 왜 만들게 되었는지 2. TPU architecture : TPU의 구성 및 동작 원리 3. CPU, GPU, TPU 연산량, 구조 비교 4. performance : CPU, GPU와 비교한 TPU의 성능 Performance benchmark를 위해 datacenter의 95%의 workload를 나타내는 오늘날(당시에) 유명한 NN(nueral network, 인공신경망)의 3종류를 2개씩 총 6개의 NN모델을 예시로 들었다. 3종류의 NN은 MLP, LSTM(RNN의 일종), CNN이고, 각 모델의 정보는 다음과 같다. 당시에 CNN의 연산을 가속하는..

DNN accelerator 2021.08.12

google TPU 논문 리뷰: In-Datacenter Performance Analysis of a Tensor Processing Unit (2)

1편에서는 아래 구성에서의 1-2를 다루었고, 이번 3편에서는 3. CPU, GPU, TPU 연산량, 구조 비교에 대해 설명을 해볼 것이다. 1. TPU origin : TPU 왜 만들게 되었는지 2. TPU architecture : TPU의 구성 및 동작 원리 3. CPU, GPU, TPU 연산량, 구조 비교 4. performance : CPU, GPU와 비교한 TPU의 성능 CPU, GPU, TPU 비교 이 부분은 논문에는 없는 내용이다. 이 논문을 읽으면서 '그래서 TPU가 CPU랑 GPU와 두드러지게 다른 점이 뭐지?'라는 궁금증이 들어 구글 블로그를 참고하여 궁금증을 해소하였다. 이 부분에서는 CPU, GPU, TPU를 연산, 구조 측면에서 비교하였다. 1. 연산량 비교 CPU는 한 cloc..

DNN accelerator 2021.08.12

google TPU 논문 리뷰: In-Datacenter Performance Analysis of a Tensor Processing Unit (1) - TPU 구조 및 명령어

구글이 2017년에 발표한 TPU 논문 리뷰를 해보려고 한다. 이 논문은 첫번째 버전의 TPU에 대한 설명을 다루고 있고, 현재에는 TPU는 4번째 버전까지 발표되었다. 해당 논문과 구글 블로그의 글을 참고하여 논문을 정리하였다. 다음과 같은 구성으로 글을 써보려고 한다. 1. TPU origin : TPU 왜 만들게 되었는지 2. TPU architecture : TPU의 구성 및 동작 원리 3. CPU, GPU, TPU 연산량, 구조 비교 4. performance : CPU, GPU와 비교한 TPU의 성능 TPU Origin 논문에서 최근(2013년 기준)에 DNN 모델들이 요구하는 datacenter의 연산량이 매우 증가했다고 한다. 예를 들어 하루에 3분씩 사람들이 음성 검색을 한다면 (구글의)..

DNN accelerator 2021.08.12