딥러닝 논문/논문 읽기 스터디

[논문리뷰] 2. Attention is all you need

에멜라 2023. 9. 1. 17:11

0. 들어가기

인공지능 분야의 가장 핵심적인 논문이자, 현대의 거대 인공지능들의 뿌리가 되는 논문이다.

 

Seq2Seq가 한번의 혁신을 일으켰듯, 이후 등장한 bahdanau와 luong 등이 주장한 attention 개념은 언어 모델 및 번역모델에 있어 큰 증진을 이루었고, 핵심적인 요소가 되었다. 그리고 후속 논문들 역시 LSTM을 GRU로 대체해본다던지, CNN을 활용해본다던지 하는, 기존의 프로세스를 일부 개선하는 방향으로 발전되었다. 그러나 근본적으로 recurrent 방식을 취하는 RNN 계열 모델을 사용한다는 점에서 많은 계산시간이 발생했다. (이전 값이 계산되어야 다음 값이 계산가능한 직렬적 계산방식을 취하므로)

 

이를 개선하는 방식으로, 병렬처리가 가능한 방식을 고안한 연구도 있었으니, 대표적으로 Extended Neural Network ("End to End Memory, Extended Neural GPU") 가 있다. Memory Network와 Neural GPUs(CNN + GRU)를 활용하여 어텐션 개념을 병렬로 계산가능하도록 시도했으나 완전한 병렬계산의 구현에는 한계가 있었다.

 

그에 반해 Attention is all you need 논문은, 기존의 RNN 계열의 모델들이 각 단어들의 임베딩 정보를 RNN 모델에 넣어 문맥정보를 포함한 hidden vector를 attention 하는 방식을 탈피하고, 임베딩 값에 단순 positional encoding을 더해준 이후 Self attention 을 활용하여 인코딩 과정에서의 직렬 계산을 모조리 GPU를 활용한 병렬계산으로 대체하여 기존보다 극단적으로 빠른 학습속도를 보여주게 되었다. 그리고 이렇게 탄생한 Transformer는 병렬연산으로 단순 처리속도만을 증가시킨 것이 아니라, 인공지능의 무한한 표현력의 가능성을 제시하여, 지금의 거대 언어모델들이 많은 파라미터를 가진 만큼 어마어마한 성능을 내는데 일조하게 되었다.

 

1. 논문 리뷰

여전히 많이 부족한 논문 리뷰라고 생각한다. 정말 바닥수준의 지식에서 출발한 논문리뷰이고, 타 티스토리나, GPT의 도움을 받거나, 여전히 틀리게 이해한 점도 많은것 같다. 그러나 항상 단어수준으로 깊이있게 뜯어보면서, 궁금한 내용에 대해 자율적으로 계속 고민하고 이해하고 넘어가고자 했던 점이 많이 도움이 되어, 배운점이 많은 논문리뷰였다.

 

https://docs.google.com/document/d/1YAV1CCE9zXvPSzOgacpR8g4l9dXpiU9RUQyUo3Lq9BE/edit?usp=sharing 

 

(논문공부)Attention is all you need

Attention is all you need 키, 쿼리, 밸류 에 대해서(링크) 검색엔진에서 나온 개념, 쿼리는 우리가 찾고자 하는 실질적인 검색질문 키는 각 데이터주소가 가지고 있는 정보에 대한 요약 또는 타이틀 밸

docs.google.com