ML/NLP(2)
-
[NLP] Transformer
Transformer는 long-term dependency 문제를 해결하기 위해 RNN의 순환 구조를 버리고 attention 기법을 적극 활용한 모델이다. Encoder-Decoder AttentionRNN의 순환구조는 최근 입력 embedding vector에 치중된 context vector만 디코더로 넘겨준다. Attention 기법은 각 출력 시점마다 필요한 입력 embedding vector를 파악하고 이들로 context vector를 생성해 디코더로 전달한다. 구체적으로, 각 출력 시점마다 각 입력 embedding vector가 얼마나 중요한지를 파악(by dot product & softmax)하고, 중요도가 높은 입력 embedding vector에 더 큰 가중치를 부여하는 방식(..
2024.08.19 -
[NLP] RNN, LSTM, Attention
순차적인 데이터 (Sequence Data)시퀀스 데이터는 순차적으로(=순서에 따라 연속적으로) 들어오는 데이터를 의미하며 대표적인 예로 시계열 데이터가 존재한다.시퀀스 데이터는 순서에 따라 데이터가 들어오기 때문에 i.i.d(independent and identically distribution) 가정을 잘 위배한다.그렇기 때문에 데이터 포인트의 순서가 바뀌거나 이전 데이터 포인트의 손실이 발생할 경우 데이터의 확률분포가 완전히 바뀌게 된다.Sequential Model아래와 같이, 시퀀스 데이터의 확률분포는 조건부 확률을 활용해 모델링할 수 있다.$$P(X_1, \cdots, X_T) = \prod_{t=1}^T P(X_t|X_{t-1}, \cdots, X_1)$$그렇기 때문에, 시퀀스 데이터의 ..
2024.03.31