EP 64. gpt-oss talk with Lablup 신정규 대표
- OpenAI가 GPT-2 이후 처음으로 오픈 소스 모델 gpt-oss를 공개하며 모델 공개 압박에 대응하고 기술적 우위를 확보하려 함 🤔
- DeepSeek의 reasoning 모델 공개로 경쟁 심화, OpenAI 인력 이동 등 내부 요인도 오픈 소스 공개에 영향을 미침 🗣️
- NVIDIA는 DeepSeek 공개 후 GPU 시장 위기를 Sovereign AI 아젠다로 전환하여 극복, OpenAI도 유사한 전략 필요 💡
- gpt-oss는 성능 면에서 최고는 아니지만, 코드, 포맷, 레시피를 함께 공개하여 개발 및 연구에 기여 🎁
- Sovereign AI 관점에서 gpt-oss는 호재이며, 공개된 레시피와 연산량 정보는 모델 개발에 유용함 🇰🇷
- gpt-oss는 H100 2,000장으로 2개월 내 훈련 가능, PyTorch 기반 코드로 접근성이 높음 💻
- 중국 모델은 국가 제한 라이선스를 적용하는 경우가 있으나, gpt-oss는 Apache 라이선스로 자유로운 사용 가능 🌐
- OpenAI는 gpt-oss의 한계를 인지하고 있으며, 더 큰 규모의 게임을 위한 발판으로 활용할 것으로 예상 🚀
- gpt-oss는 다국어, 특히 한국어 성능이 약하며, Sovereign AI는 자국어 데이터로 fine-tuning 필요 ✍️
- MoE (Mixture of Experts) 아키텍처는 올해의 트렌드이며, gpt-oss에도 적용됨 🧠
- MoE에서 expert는 특정 분야 전문가가 아닌, 훈련 시 쪼개진 작은 모델들의 집합체임 🧩
- GPU farm을 활용한 서빙 기술 발전으로 prefill과 토큰 생성을 분리하여 효율성을 높임 🚜
- NVIDIA는 GPU 간 통신 방식 변화를 통해 Sovereign AI 시대에 맞는 아키텍처를 구축 중 ⚙️
- Lablup의 Backend.AI는 복잡해지는 컴퓨팅 환경에서 모델 트레이닝 및 서빙을 지원 🧰