데브허브 | DEVHUB | [EN] Google’s Introduction to LLM Fundamentals[EN] Google’s Introduction to LLM Fundamentals
- 트랜스포머 아키텍처는 어텐션 메커니즘으로 모든 토큰을 동시에 처리하며, 현대 LLM의 기본 설계도입니다. 🧠
- 멀티 헤드 어텐션은 병렬 투영을 통해 다양한 패턴을 학습하여 풍부한 표현을 생성합니다. 💡
- Mixture of Experts(MoE)는 희소 활성화를 통해 총 파라미터는 많지만 토큰당 계산량을 관리하여 효율성을 높입니다. 🧩
- Chinchilla 논문은 고정된 컴퓨팅 예산에서 데이터와 파라미터를 동일하게 확장하는 것이 최적임을 밝혀, 이전의 파라미터 우선 확장 전략을 뒤집었습니다. ⚖️
- 모델 크기 증가는 논리적 추론에서 개선을 보이지만, 일반 지식에서는 성능이 정체될 수 있어, 단순히 크기만 키우는 것이 만능은 아닙니다. 📈
- GPT-1, BERT, GPT-2는 트랜스포머의 언어 처리 능력을 입증했으며, GPT-3는 규모를 극적으로 확장하여 Few-shot 및 Zero-shot 능력을 선보였습니다. 🚀
- GLaM은 MoE 설계를 통해 GPT-3를 능가하면서도 훈련 에너지와 추론 비용을 절감하여 희소성의 힘을 보여주었습니다. ⚡
- Chinchilla는 더 많은 훈련 토큰에 컴퓨팅 자원을 재할당하여 Gopher보다 작은 모델로 더 우수한 성능을 달성했습니다. 🏆
- Google의 PaLM 시리즈는 대규모 데이터셋으로 훈련되었으며, PaLM 2는 더 적은 파라미터로 더 나은 성능을 달성하여 스마트한 설계의 중요성을 강조했습니다. ✨
- Gemini는 텍스트, 이미지, 오디오, 비디오를 통합 처리하는 멀티모달 모델로, MoE와 효율적인 어텐션을 사용해 긴 컨텍스트와 복잡한 추론을 처리합니다. 🌌
- Gemini 1.5 Pro는 컨텍스트 길이를 수백만 토큰으로 확장하여 긴 코드베이스, 문서, 비디오에 대한 추론 능력을 보여주었습니다. 📚
- Gemma는 Gemini의 아이디어를 오픈 모델 생태계에 가져와, 작은 패키지에서도 강력한 성능을 제공하며 접근성을 높였습니다. 🌍
- Meta의 Llama와 Mistral의 Mixtral(MoE) 같은 오픈 LLM들은 강력한 성능과 효율성을 제공하며 오픈 생태계를 활성화했습니다. 🤝
- OpenAI의 O1 시리즈와 Deepseek 같은 모델들은 강화 학습을 통해 명시적인 추론 체인을 장려하여 코딩 및 과학 문제 해결 능력을 향상시켰습니다. 🤔
- LLM의 발전은 파라미터 수, 컨텍스트 창, 훈련 데이터 규모의 극적인 증가를 통해 Few-shot 학습 및 복잡한 추론과 같은 새로운 능력을 가능하게 했습니다. 🌟
- LLM 훈련은 대규모 텍스트로 다음 토큰을 예측하는 '사전 훈련'으로 시작하여 일반적인 기반 모델을 생성합니다. 🏗️
- '지도 미세 조정(SFT)'은 고품질 예제로 모델을 훈련하여 지시를 따르고 대화하며 안전하게 행동하도록 가르칩니다. 🧑🏫
- '인간 피드백 기반 강화 학습(RLHF)'은 인간의 선호를 명시적으로 모델링하여 모델이 더 유용하고 안전한 응답을 생성하도록 미세 조정합니다. 👍
- '파라미터 효율적 미세 조정(PEFT)' 기술(어댑터, LoRA, 프롬프트 학습)은 적은 수의 추가 파라미터만 훈련하여 비용을 크게 절감합니다. 📉
- 효과적인 '프롬프트 엔지니어링'은 명확한 작업 설명, 제약 조건, 예시 제공을 통해 미세 조정 없이도 성능을 향상시키는 가장 빠르고 저렴한 방법입니다. ✍️
- '디코딩 전략'(온도, Top-K/P 샘플링)은 모델 출력의 다양성과 결정론적 특성을 제어하여 특정 작업에 맞게 조정합니다. 🎲
- '체계적인 평가'는 표준 벤치마크, 안전성 테스트, 인간 평가를 포함하며, 모델의 실제 작동 방식과 미묘한 품질을 이해하는 데 필수적입니다. ✅
- '효율적인 모델 서빙'은 KV 캐싱, 추측 디코딩, 양자화, 배치 처리와 같은 기술을 사용하여 지연 시간과 비용을 크게 줄입니다. ⚙️
- 실제 시스템에서는 품질, 속도, 비용 균형을 고려하여, 대부분의 요청에는 빠르고 가벼운 모델을, 복잡한 쿼리에는 더 큰 모델을 사용하는 계층적 접근 방식을 채택합니다. 🎯
- LLM의 발전 속도는 여전히 가속화되고 있으며, 안전성, 정렬, 데이터 품질, 에너지 사용과 같은 중요한 질문들이 계속해서 제기되고 있습니다. ⏩