본문 바로가기

Paper

(3)
[논문정리] Cnvlutin: Ineffectual-Neuron-Free Deep Neural Network Computing Cnvlutin: Ineffectual-Neuron-Free Deep Neural Network Computing Abstract 현재의 DNNs(Deep Neural Networks)는 0 곱셈도 진행해서 비효율적임. → Cnvlutin(CNV) : 정확성 손실 없이 이런 비효율적인 과정 모두 제거 - hierarchical data-parallel unit(계층적 데이터 병렬 유닛) 사용 - group들이 독립적으로 진행되는 걸 가능하게 함 → 비효율적인 계산 건너뜀 - co-designed data storage format이 병렬 유닛에서 조절을 할 수는 있지만 경로에서 계산을 하지 않도록 함 units + data storage → 데이터 병렬 구조를 만들어 메모리 계층 구조에서 정렬된 접근을 ..
[논문 정리] Laconic Deep Learning Computing Abstract Laconic을 하드웨어 가속기(Hardware Accelerator)로 제시하여 실행 시간을 단축하고 딥 러닝 네트워크의 추론을 위한 에너지 효율을 높임 → 다른 최첨단 가속기를 능가하는 저비용, 단순성, 에너지 효율적 설계를 위해 작업 감소 잠재력을 포기 Motivation 성능을 향상시키기 위해서 에너지 사용량을 줄일 필요 convolution neural network에서 activation과 weight의 곱이 대부분의 연산 → 효과가 있는 연산만 적게 실행 큰 연산을 작은 여러개의 연산으로 분할 "A", activation이 zero이면 skip "A+W", activation이나 weight이 zero이면 skip "Ap" "Ap+Wp" 연산을 bit level로 분할 Ap,..
[논문 정리] Deep Compression : Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding 졸업프로젝트를 시작하면서 하드웨어 최적화와 관련된 다양한 논문을 읽고 있어 정리해보고자 한다 이 논문은 2016년에 나왔고 글을 쓰는 현재 3900회가 넘게 인용되었다고 나오고 있다 교수님께서 예시로 들어주신 pruning의 개념이 포함된 논문이라 읽기 시작했는데 추가로 다양한 개념들을 알 수 있었다 Abstract 임베디드 시스템에서는 연산량과 메모리 사용량이 중요 연산량을 고려하지 않으면 임베디드 시스템에서 사용 X 3 stage pipelines : pruning → trained quantization → Huffman coding 처음 두 단계 후, 남은 연결과 정량화된 중심들을 미세하게 조정하기 위해 네트워크를 재교육 필요한 용량이 줄어들어 off-chip DRAM 대신 on-chip SRAM..