- 마스크 자기 주의는 디코더에서 사용되는 중요한 부분으로, 이전 단어들에 대해서만 정보를 참고하여 다음 단어를 예측하는 데 도움을 줍니다 💬
- 다중 헤드 자기 주의는 여러 개의 자기 주의를 동시에 실행하여 다양한 특징들을 추출합니다 💡
- 마스크 자기 주의는 디코더에서 사용되며, 미래 단어를 예측할 수 있도록 과거 단어들에 대한 정보만 활용하도록 제한합니다 🤫
- 마스크는 삼각형 패턴으로, 앞의 단어만 고려하여 다음 단어를 예측하도록 합니다 📐
- 마스크는 특정 부분에 음이 무한대 값을 넣어, softmax 함수를 통하면 해당 부분의 확률을 0으로 설정하여 불필요한 정보를 차단합니다 🚫