데브허브 | DEVHUB | AI Engineering #3: Internals of GPT 1.0AI Engineering #3: Internals of GPT 1.0
- GPT 1.0은 비지도 사전 훈련과 지도 미세 조정을 포함하는 혁신적인 2단계 훈련 과정을 거친다. 🔄
- 이 모델의 핵심은 다음 단어를 예측하여 텍스트를 생성하는 생성형 AI 기능이다. ✍️
- GPT 1.0의 아키텍처는 트랜스포머 모델의 디코더 부분만을 활용하여 구성된다. 🏗️
- 모델은 다음 단어 예측 확률을 기반으로 가중치를 업데이트하며, 인간의 직접적인 레이블 없이 문장 구조를 학습하는 자기 지도 학습 방식을 사용한다. 🧠
- 마스크드 어텐션은 모델이 다음 단어를 예측할 때 미래 단어의 정보를 미리 보지 못하도록 하여, 오직 이전 단어들의 문맥만을 활용하게 하는 핵심 메커니즘이다. 🎭
- 이 기술은 N개의 토큰을 병렬로 처리하여 동시에 N개의 다음 단어를 예측할 수 있게 함으로써 훈련 속도를 크게 향상시킨다. ⚡
- 일반 셀프 어텐션이 문장 내 모든 단어의 문맥을 활용하는 것과 달리, 마스크드 어텐션은 현재 단어 이전의 문맥만 고려한다. 🚫🔮
- 훈련 시 마스크드 어텐션을 사용했기 때문에, 추론(실제 사용) 시에도 동일하게 마스크드 어텐션을 적용해야 모델이 올바르게 작동한다. ⚙️
- 마스크드 어텐션은 GPT가 효율적으로 다음 단어를 예측하고 텍스트를 생성하는 데 필수적인 핵심 메커니즘이며, GPT의 예측 능력의 기반이 된다. ✨