- 어텐션 메커니즘과 트랜스포머는 대규모 언어 모델의 근간 기술이다. 🧠
- 인코더-디코더 구조는 번역, 요약 작업에 활용되며, 시퀀스-투-시퀀스 모델이라고도 불린다. 🔄
- 어텐션 메커니즘은 인코더의 모든 타임스텝 은닉 상태를 참조하여 디코더 성능을 향상시킨다. 👁️
- 트랜스포머 모델은 순환 신경망 없이 어텐션 구조만 사용하여 병렬 처리로 속도를 높였다. ⚡
- 셀프 어텐션은 입력 데이터 자체에서 어떤 토큰에 주목해야 할지 결정하는 메커니즘이다. 🤔
- 멀티 헤드 어텐션은 다양한 패턴 추출을 위해 여러 개의 어텐션 헤드를 사용한다. 🎭
- 층 정규화는 순차 데이터의 모델 훈련 속도를 높이고 안정화하는 데 사용된다. 🧪
- 잔차 연결은 모델을 깊게 만들 때 효과적인 훈련을 가능하게 한다. 🔗
- 디코더 블록은 마스크드 멀티 헤드 어텐션을 사용하여 다음 토큰을 예측할 때 미래 정보를 보지 못하도록 한다. 🙈