- GPT-1은 비지도 사전 훈련과 지도 미세 조정이라는 2단계 학습 과정을 거칩니다. 🧠
- GPT는 문맥을 캡슐화하는 것을 넘어 텍스트를 생성하는 데 중점을 둡니다. ✍️
- GPT는 트랜스포머의 디코더 부분을 활용하여 텍스트를 생성합니다. 🤖
- 마스크된(masked) 어텐션은 모델이 미래의 단어에 대한 정보를 보지 않고 다음 단어를 예측하도록 합니다. 🙈
- 마스크된 어텐션은 학습 속도를 높이고, 모델이 문장 구조를 이해하도록 돕습니다. 🚀
- 모델은 각 단어 예측 후 가중치를 업데이트하기 위해 역전파를 수행합니다. 🔄
- 실제 사용 시에도 학습 때와 마찬가지로 마스크된 어텐션을 사용합니다. 🎭