NLP의 전체적인 흐름

  1. sequential한 데이터에서 sequential한 관계를 찾아내기 위해 RNN이 나옴
  2. 가까운 단어간의 관계만을 파악하는 데에 적절했던(long term dependency를 capture하지 못하는) RNN을 보완하기 위해 LSTM이 나옴.
  3. 2개의 RNN or LSTM을 이요하여 시계열 데이터를 다른 시계열 데이터로 변환하는 seq2seq 방법론이 생겨남.
  4. seq2seq에서의 단점들(encoder에서 나오는 벡터의 크기가 고정되어 있어 많은 정보를 decoder에 전달하지 못함, encoder에서 나오는 벡터에서 상대적으로 encoder의 입력에서 마지막에 위치한 입력단어의 정보가 많은 비중을 차지하게 됨)을 보완하기 위해 attention이라는 기법이 생겨남.
  5. RNN구조가 가지고 있는 병렬 연산의 한계를 극복하고자 자기 자신과의 관계를 한 번에 계산하도록 하는 self-attention 방법이 생겨남. ← transformer

Blog

Transformer → BERT → GloVe

🔗Transformers vs. CNN vs. RNN/LSTM

LSTM

Transformer (Attention Is All You Need)

BERT