EP 64. gpt-oss talk with Lablup 신정규 대표
- OpenAI가 GPT-2 이후 처음으로 오픈소스 모델인 gpt-oss를 공개했습니다. 🔓
- 모델 공개 압박과 DeepSeek의 기술 공개로 인한 경쟁 심화가 공개 이유로 추정됩니다. ⚖️
- 내부 인력 이동과 경영진의 판단 차이도 영향을 미쳤을 가능성이 있습니다. ➡️
- gpt-oss는 성능 면에서 "엄청 좋다"까지는 아니지만, 코드, 포맷, 레시피를 함께 공개하여 개발 및 연구에 유용합니다. 🧑💻
- Sovereign AI 관점에서 gpt-oss는 호재이며, 공개된 레시피를 활용하여 자체 모델 개발에 도움이 될 수 있습니다. 🇰🇷
- Apache 라이선스로 공개되어 상업적 이용 제한이 없어 활용도가 높습니다. 🛡️
- gpt-oss는 MoE 구조를 채택했으며, expert 수를 조절하여 모델 사이즈를 컨트롤하는 방식이 특징입니다. 🎛️
- MoE에서 expert는 특정 분야의 전문가가 아닌, 훈련 과정에서 쪼개진 작은 모델들을 의미합니다. 🧩
- 추론 과정에서 prefill과 토큰 generation을 분리하여 GPU farm을 구성하는 방식이 효율성을 높이고 있습니다. 🚜
- 모델 트레이닝과 서빙 모두 복잡해지고 있으며, 특화 모델 개발 시도가 증가하고 있습니다. 🎯