딥러닝 논문/논문 읽기 스터디 10

[논문리뷰] 5.(resnet)Deep Residual Learning for Image Recognition

본 논문은 2015년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge, 이미지 인식 대회)의 우승 모델 ResNet을 발표한 논문이자, 이후의 깊은 딥러닝 모델에 핵심적으로 사용되는 residual block을 최초로 제시한 논문입니다. 0. 들어가기 기존의 이미지 인식대회의 우승 모델들의 발전과정에서, CNN의 효율적이면서도 강력한 성능, 그리고 VGG network에서 보다시피 깊이가 깊어질수록 모델의 성능이 계속 상승한다는 점이 밝혀졌습니다. 그러나 깊이가 깊어질수록 모델의 표현능력이 증가하면서 성능이 높아진다는 사실은 분명함에도, 실제로 일정 깊이 이상되는 모델의 성능은 그보다 작은 모델의 성능을 넘어서지 못했습니다. 이를 크게보면, overf..

[논문리뷰] 4. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

이번 논문리뷰는 BERT가 수행가능한 여러 테스크에 대한 설명을 자세히 담고있지는 않습니다. 왜냐하면 사실 이전 스터디인 ViT를 스터디로 나누는 과정에서 BERT에 대한 기본적인 공부를 같이 했기 때문입니다. 그렇기에 실제 BERT가 어떻게 NLP테스크에 사용되고, 어떻게 활용하는게 좋은지는 간단하게 유튜브나 다른 티스토리를 더 참고하시면 좋습니다. 0. 들어가기 BERT에 대해 이야기하기 전에 먼저 언어를 이해(language understanding)한다는 개념을 생각해봅시다. 우리가 하나의 언어를 이해하기 위해서는, 각 단어의 의미를 아는것 뿐 아니라 그 문맥 역시 고려하여야 합니다. 가만히 생각해 보더라도, 표기는 같지만 다양한 의미를 갖는 단어들을 우리는 쉽게 표현하고 또 동일하게 이해합니다...

[논문리뷰] 3.AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

0. 들어가기 여기서 소개되고 있는 Vit 논문은, image classification task에서 transformer를 적용하여 sota를 달성한 모델이며, 이는 23년 현재까지도 거의 가장 높은 성능의 모델중의 하나이다. 대부분 ViT 가 CV 부분에서 가장 최초로 transformer를 사용한 모델로 알고 있는데, 이후 소개할 DeTR(facebook)이 사실 CV 분야에 거의 가장 먼저 transformer을 적용한 사례이고, 그 후 현재 소개하는 ViT(google)모델이 등장하였다. 물론 두 논문 사이 간격이 몇 개월이 채 안되기 때문에 거의 최초라고 봐도 무방하다. 그리고 아직 소개하지 않았지만 BERT(2018) 역시 ViT(2020) 를 이해하는데 선행되어 읽으면 좋은 논문인데, 사실..

[논문리뷰] 2. Attention is all you need

0. 들어가기 인공지능 분야의 가장 핵심적인 논문이자, 현대의 거대 인공지능들의 뿌리가 되는 논문이다. Seq2Seq가 한번의 혁신을 일으켰듯, 이후 등장한 bahdanau와 luong 등이 주장한 attention 개념은 언어 모델 및 번역모델에 있어 큰 증진을 이루었고, 핵심적인 요소가 되었다. 그리고 후속 논문들 역시 LSTM을 GRU로 대체해본다던지, CNN을 활용해본다던지 하는, 기존의 프로세스를 일부 개선하는 방향으로 발전되었다. 그러나 근본적으로 recurrent 방식을 취하는 RNN 계열 모델을 사용한다는 점에서 많은 계산시간이 발생했다. (이전 값이 계산되어야 다음 값이 계산가능한 직렬적 계산방식을 취하므로) 이를 개선하는 방식으로, 병렬처리가 가능한 방식을 고안한 연구도 있었으니, 대표..

[논문 스터디] 1. Effective Approaches to Attention-based Neural Machine Translation

본 스터디 내용은 luong 의 Effective Approaches to Attention-based Neural Machine Translation 논문리뷰 후 스터디 내용을 정리한 글입니다. local attention에 대하여 단어 대응시킬때, align한 영역만 보면 되는거 아닌가? 에서 시작한 아이디어이다. 사실 local attention 은 이 논문에 대한 다른 논문과의 차별성 요소지 중요한 요소는 아니다. (논문 저자도 그렇게 유의미한 결과물이 없었는지, 설명을 자세히 하고있지는 않다.) 실제로 논문은 평가 파트에서 전반적으로 global attention이 성능이 압도적으로 높고, 그 계산방법으로 기존의 Bahdanau 가 제시한 score 계산방식인 concatenation 방법보다,..

[논문리뷰] 1. Effective Approaches to Attention-based Neural Machine Translation

0. 들어가기 Sequence to Sequence가 발표될 당시에는, 기계번역부분에서 sota를 달성하지 못했지만, 이는 통계적 예측방식이 주가 되었던 번역테스크에서 굉장히 획기적인 방식이었고, 특히 여기서 사용된 encoder, decoder 개념은 기계번역 분야의 필수 아키텍쳐로 자리잡게 되었다. 그러나 한편, 연구가 진행되며 이에 대한 한계점에 대해서도 지적되기 시작했는데, 인코더 과정에서 모든 input word의 모든 정보를 단순히 하나의 convex vector로 요약하는데 사용하고, 이를 디코더에서 단 한번만 직접 참고한다는 문제가 지적되었는데, 실제로 디코딩과정이 길어질수록 convex vector의 정보는 흐려져 갔으며, 긴 문장일수록 번역문의 성능은 떨어져갔다. 이를 개선하는 방식으로..

[논문 스터디] Seq2Seq 스터디 내용 (활성화 함수를 왜 쓰는가 등)

참고 1 : https://acdongpgm.tistory.com/181 참고 2 : https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/ 참고 3: https://docs.likejazz.com/backpropagation/ [Deep Learning] Activation Function ( 활성화 함수 ) - 비선형 함수(non linear function ) 딥러닝에서 인공신경망을 설계할때 레이어마다 항상 Activaiton Function(활성화 함수)를 파라미터로 넣게된다. model.add(layers.Dense(units=512, activation='relu')) relu , elu 등등 ... 이런 것들은 왜 필요한 것일 acdong..

[논문리뷰] 0. Sequence To Sequence Learning With Neural Networks (Seq2Seq)

첫 논문스터디 글이다보니, 뻘글이긴 하지만 논문 스터디에 대해 간략하게 먼저 소개하고자 한다. 그리고 참고적으로 관련 시리즈 포스팅은 거의 KDT 과정의 막바지 시점, 즉 논문스터디 시점이 아니기에 틀린 내용이 있을 수 있으므로 적절한 비판을 해주시면 충분히 수용하겠습니다. 0. 논문 스터디 개요 KDT 과정인 "프로그래머스 AI - 데브코스" 에서 아이스브레이킹 과정에서, 여기저기 논문 스터디를 많이 권유하고 다녔고, 그때 만난 좋은 팀원분이 좋게 봐주셔서 본인이 주도하여 스터디를 구성하고 나는 이에 참여하게 되었다. 첫 논문스터디 주제였기에 나름의 자기목표를 세우고, 이에 맞게 논문을 정독하며 나에게 맞게 이해하는 과정을 거쳤다. 일단 논문 내용에 대한 기초적인 사전 지식이 있었으므로, 논문의 모델 ..

순환신경망에 대하여(2) - 순환신경망의 순환과정

https://emela12.tistory.com/37 순환신경망에 대하여(1) - 순환신경망의 필요성 이와 관련한 포스팅 목적은 대표적 순환신경망 모델들에 대한 간단한 이해를 위해 작성되었다. 순환신경망이 뭐지 하고 구글에서 다음과 같은 이미지로 순환신경망을 마주친다면, 사실 이해가 emela12.tistory.com 우리는 이전 포스팅에서, 순서형 데이터에 대해서 크게 두가지의 필요성을 느꼈었다. 1. 순서 정보에 대한 데이터를 모델이 기억할 필요가 있음. 2. input 길이와 output 길이를 기존에 정해두는 것이 아닌, 상황에 맞게 유동적으로 쓸 필요가 있음 그리고 이러한 문제들을 처리하는데 있어 기존의 피드 포워드 신경망 및 회귀모델은 한계가 있었음을 알 수 있었다. 이러한 문제들에 대해서 ..

순환신경망에 대하여(1) - 순환신경망의 필요성

이와 관련한 포스팅 목적은 대표적 순환신경망 모델들에 대한 간단한 이해를 위해 작성되었다. 순환신경망이 뭐지 하고 구글에서 다음과 같은 이미지로 순환신경망을 마주친다면, 사실 이해가 되기보단 혼란에 빠지기 쉽다. 나 역시 처음에는 이러한 그림만으로 순환신경망을 접했을 땐, 왜 모델이 이렇게 옆으로 늘어져있는지, 또 이 모델이 결국에는 뭘 위해 존재하는 것인지 혼자 공부할땐 감이 안잡혔던 것 같다. 그래서 오늘 포스팅에는 순환신경망이 어떤 모델인지, 왜 사용하는지, 그리고 어떤식으로 활용되는지에 대해 간단하게 알아보고자 한다. 참고로 내 포스팅 목적은 누구나 이해하기 쉽게 차근 차근 설명하자! 라는 대 전제를 깔고갈 예정이니 깊은 수식적 이해나 코드에 대한 이야기는 빠질 예정이다. 순환신경망의 필요성 순환..