How does an LLM ACTUALLY Work? (Visual Breakdown)
- LLM은 기본적으로 텍스트 시퀀스에서 다음 토큰을 예측하는 데 특화되어 있습니다. 🔮
- 입력 텍스트는 토큰으로 분할되고 벡터 임베딩으로 변환됩니다. 쪼개고 임베딩! 🔪
- 레이어 정규화는 벡터가 너무 커지거나 작아지지 않도록 값을 제어하여 학습 안정성을 유지합니다. 안정적인 학습! ⚖️
- 트랜스포머 블록에서 각 토큰은 쿼리(검색), 키(자신 설명), 값(정보 제공) 벡터를 생성합니다. 쿼리, 키, 값! 🔑
- GPT 모델은 미래를 보지 않고 과거만 참조하는 인과적 self-attention을 사용하여 텍스트를 생성합니다. 과거만 참조! 🕰️
- Multi-head attention은 여러 attention 계산을 병렬로 수행하여 문법, 장거리 의존성, 단어 연관성과 같은 다양한 관계를 포착합니다. 다양한 관계 포착! 🎭
- MLP(Multi-Layer Perceptron)는 각 토큰을 개별적으로 처리하며, 비선형 활성화 함수를 사용하여 복잡한 패턴을 학습합니다. 토큰 개별 처리! 🧮
- MLP 레이어는 특정 패턴에 반응하는 특징 감지기를 생성하며, 이는 때로는 매우 구체적인 개념에 반응할 수 있습니다. 특징 감지기! 💡
- 여러 개의 트랜스포머 블록을 쌓아 모델의 깊이와 능력을 향상시키며, 각 레이어는 점진적으로 더 복잡한 특징을 학습합니다. 레이어 스태킹! 🧱
- 최종 벡터는 어휘 크기로 투영되어 각 토큰에 대한 로짓(raw score)을 생성합니다. 로짓 생성! 📊
- Softmax 함수는 로짓을 확률로 변환하여 모델이 다음 토큰을 선택할 수 있도록 합니다. 확률 변환! 🎲
- 온도 설정을 조정하여 모델의 창의성을 제어할 수 있습니다. 낮은 온도는 안전한 선택, 높은 온도는 창의적인 선택을 유도합니다. 온도 조절! 🔥
- 최신 모델은 Flash Attention, Mixture of Experts, Rotary Embeddings, SwiGLU activations 등의 최적화 기술을 사용하여 효율성을 높입니다. 최적화 기술! ⚙️
- LLM은 거대한 트랜스포머 스택을 사용하여 막대한 양의 수학적 연산을 수행하고 다음 토큰을 예측합니다. 수학 연산! ➗