- 딥러닝 모델에서 핵심적인 요소인 self-attention은 각 단어가 문맥을 이해하도록 돕는 메커니즘이다. 🧐
- 선택적으로 특정 단어에 더 많은 "주의"를 기울일 수 있도록, 각 단어를 쿼리, 키, 가치 벡터로 변환한다. 🗝️
- 쿼리 벡터는 다른 단어와의 관계를 묻는 질문과 같고, 키 벡터는 현재 단어에 대한 답변을 제공하는 역할을 한다. 🗣️
- 키와 쿼리가 매치될 때마다 점수가 계산되며, 이 점수를 Softmax 함수를 통해 정규화하여 각 단어가 문맥에 얼마나 관련이 있는지 나타내는 가중치를 얻는다. 📈
- Attention tensor는 가중치들을 사용하여 각 단어 벡터를 조합하여 문맥 정보를 더욱 풍부하게 담는다. 🧬