[논문리뷰] 4. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
이번 논문리뷰는 BERT가 수행가능한 여러 테스크에 대한 설명을 자세히 담고있지는 않습니다. 왜냐하면 사실 이전 스터디인 ViT를 스터디로 나누는 과정에서 BERT에 대한 기본적인 공부를 같이 했기 때문입니다. 그렇기에 실제 BERT가 어떻게 NLP테스크에 사용되고, 어떻게 활용하는게 좋은지는 간단하게 유튜브나 다른 티스토리를 더 참고하시면 좋습니다.
0. 들어가기
BERT에 대해 이야기하기 전에 먼저 언어를 이해(language understanding)한다는 개념을 생각해봅시다.
우리가 하나의 언어를 이해하기 위해서는, 각 단어의 의미를 아는것 뿐 아니라 그 문맥 역시 고려하여야 합니다. 가만히 생각해 보더라도, 표기는 같지만 다양한 의미를 갖는 단어들을 우리는 쉽게 표현하고 또 동일하게 이해합니다. 그리고, 더 나아가 문맥을 이해하고 있다면 우리는 문맥의 일부가 가려져 있더라도 그 단어를 쉽게 유추할 수 있죠. 즉 우리는 각 개별적인 단어의 의미를 알고있을 뿐 아니라, 이 단어의 문맥적 용도 즉 문맥 내의 의미 역시 알고 있다는 의미입니다.
이는 NLP 테스크에서도 마찬가지입니다. 우리는 모델이 단어(또는 형태소) 수준의 언어를 컴퓨터에게 이해시키기 위해 Word2Vec, GloVe, Fasttext 과 같은 방식을 고려하였습니다. 그러나 단어들의 결합인 문장내에서는 이러한 단어들이 꼭 고정된 의미를 갖는 것은 아닙니다. 즉 우리가 문장을 구상할때 단어의 선택은 그 뜻만이 아닌 문맥적 의미를 고려하여 선택하여야 함을 의미합니다.
문맥 내의 의미, 즉 문맥을 고려한 단어의미를 찾는 테스크를 수행하는 모델은 크게 단방향 언어모델과 양방향 언어모델로 나눌 수 있습니다. 단방향 언어모델은 현재 단어의 앞에 쓰인 단어들만을 참고해 이후 등장할 단어를 문맥적으로 예측하는 모델로서 대표적으로 GPT를 들 수 있습니다. 이는 GPT가 생성모델이기 때문으로, 앞에 사용된 단어들의 문맥적 의미를 고려하여 적절한 다음단어를 찾는 과정으로 이해할 수 있습니다.
그러나, 우리가 실제로 언어를 구사할때, 그 단어의 앞 뿐만 아니라 뒤의 문맥 역시 고려해야함은 지당한 생각입니다. 즉 한 위치에 등장하는 단어의 문맥적 의미를, 앞뒤 모든 단어들을 참고하여 예측하는 방식을 양방향 언어모델이라 하고 대표적으로 논문 이전에 등장한 ELMO와 논문에서 언급하는 BERT가 있습니다.
그중에서 BERT는 비지도 학습으로 학습이 가능한 점, output 자체를 문맥을 고려한 임베딩 기법으로 사용가능한 점, 대규모 사전학습된 모델의 간단한 파인튜닝을 통해 수많은 NLP테스크에 적용될 수 있는점이 크게 장점입니다.
1. 논문 리뷰
BERT는 Transformer의 encoder를 활용하였으므로, Arcitecture의 자세한 설명은 논문에 언급되어있지 않습니다. 그러나 transformer의 encoder를 이해하고 있다면, 우리는 왜 output 이 문맥적 의미를 고려하게 되는지 어렴풋이 이해할 수 있습니다. Self-attention 과정을 통해서 input token 들의 value 값이 mixing 되기 때문이죠. 또한 인코더의 input 토큰 갯수와 output 토큰 갯수는 항상 동일하게 고정되기 때문에, 이를 일대일 대응시켜 이해할 수 있습니다.
그러므로 논문을 읽을때, 이 모델이 타 모델들과의 차별점은 뭔지, 왜 기존에 어려웠던 NLP테스크를 곧잘 풀어내는지, 모델이 학습과정에서, 테스크에서, 적용부분에서 얼마나 이점이 있는지를 중점으로 논문을 이해해 보는 것이 좋을것 같습니다.
https://docs.google.com/document/d/1e4ewBFYg58YzKDM5TBhp_RKgKulKtFEYo_v5px99hQ4/edit?usp=sharing
(논문공부) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding <Abstract> 우리는 새로운 자연어 표현 모델 bert를 소개하는데, 이것은 트랜스포머 양방향 인코더 표현의 약자이다. 최근 자연어 포현
docs.google.com