논문 - Attention is all you need
Attention Is All You Need 논문 링크 : Attention Is All You Need pytorch code : harvardnlp 1. 배경 기존 좋은 성능의 번역 모델은 RNN, CNN을 사용하였으나 RNN계열의 모델에서는 sequential하게 학습하는 구조로 병렬처리가 어려워 시간이 오래걸리며, 고정된 크기의 벡터에 모든 정보를 압축하여 정보 손실 문제가 있었습니다.(Long term dependency, Vanishing gradient, Fixed context vector) CNN에서는 위치상 거리가 먼 단어간의 관계를 학습하기 위해서는 여러개의 합성곱 층을 쌓아 계산량이 많아지는 단점이 있었습니다. 이러한 문제를 해결하기 위해 제안된 모델이 Transformer입니다...
IT/논문리뷰
2021. 4. 3. 21:27