- 트랜스포머 모델은 어텐션 메커니즘만을 사용하여 RNN을 제거, 입력 텍스트를 동시에 처리 가능하게 함 🚀.
- 셀프 어텐션은 텍스트 내 각 토큰이 다른 토큰에 얼마나 주의를 기울일지 스스로 학습하는 방식 🧐.
- 위치 인코딩은 트랜스포머 모델에서 토큰의 위치 정보를 보존하기 위해 사용되며, 임베딩 층을 통해 학습하는 방식으로 대체되기도 함 📍.
- 층 정규화는 각 샘플 내 토큰별로 정규화를 수행하여, 가변적인 토큰 길이에 효과적으로 대응함 ⚖️.
- 트랜스포머 인코더 모듈은 멀티헤드 어텐션, 피드포워드 네트워크, 잔차 연결, 층 정규화 등으로 구성되어 있으며, 반복적인 구조를 통해 풍부한 표현을 학습함 🧱.