딥러닝 논문/논문 읽기 스터디

[논문리뷰] 1. Effective Approaches to Attention-based Neural Machine Translation

에멜라 2023. 9. 1. 16:24

0. 들어가기

Sequence to Sequence가 발표될 당시에는, 기계번역부분에서 sota를 달성하지 못했지만, 이는 통계적 예측방식이 주가 되었던 번역테스크에서 굉장히 획기적인 방식이었고, 특히 여기서 사용된 encoder, decoder 개념은 기계번역 분야의 필수 아키텍쳐로 자리잡게 되었다. 그러나 한편, 연구가 진행되며 이에 대한 한계점에 대해서도 지적되기 시작했는데, 인코더 과정에서 모든 input word의 모든 정보를 단순히 하나의 convex vector로 요약하는데 사용하고, 이를 디코더에서 단 한번만 직접 참고한다는 문제가 지적되었는데, 실제로 디코딩과정이 길어질수록 convex vector의 정보는 흐려져 갔으며, 긴 문장일수록 번역문의 성능은 떨어져갔다.

 

 

이를 개선하는 방식으로 정말 다양한 방식이 사용되는데, 간단하게는 convex vector를 매 디코딩 과정에서 반복적으로 참고하는 방식도 존재했다. 그 중 가장 성공한 방식이 attention 방식으로, 쉽게 말해서, 내가 지금 decoding 하고자 하는 위치의 단어를 예측하기 위해 기존의 디코딩된 단어 정보를 참고하되(Seq2Seq 방식과 동일), encoder의 word 들도 매번 참고하겠다는 거다. 이때 특히 의미가 유사한 align (대응되는) 단어에 대해 특히 가중치를 두어 예측에 활용한다. 이것이 바로  attention(집중) 개념이다. 

 

attention 을 활용한 seq2seq 방식은, global attention 개념을 확립한 bahdanau attention 과, 계산과정을 합리적으로 간소화하고 score function, local attention등을 다양하게 적용해본 luong attention이 있는데, 이 두 방식은 서로 장단점이 존재하고, 어떤 논문이 우세하다보다는 각 테스크에 맞게 활용되어 사용된다고 생각하면 된다.

 

우리가 리뷰해본 논문 "Effective Approaches to Attention-based Neural Machine Translation" 은 luong의 논문이며, bahdanau보다 후속논문이다 보니, 기존 방식을 대차게 까고 본인 방식의 정당성을 보여주고자 하는 시도들을 많이 옅볼수 있다.

 

1. 논문 리뷰

두번째 논문 리뷰였다 보니 여전히 틀이 확실히 안잡힌 느낌이지만, 조금 체계젹으로, 여전히 논문을 정확하게 번역하고 이해하는것을 핵심으로 하고, 읽을 때 마다 등장하는 궁금증을 작성하고 스스로 해결해가며 공부를 해나갔다. 

 

https://docs.google.com/document/d/1U5tcxvXoeBZp4-8Qhv7MfIBu_icqeG7MbRPuFWH3SUg/edit?usp=sharing 

 

(논문해석)Effective Approaches to Attention-based Neural Machine Translation

Effective Approaches to Attention-based Neural Machine Translation 주의점 ) 1.본 논문은 반복적으로 Bahdanau et al.,(2015) 논문과의 비교로 이루어져 있으며, 이 논문 <NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRA

docs.google.com