OpenAI's OPEN SOURCE "GPT-OSS" in 8 mins!
- OpenAI가 Apache 2.0 라이선스로 200억 및 1200억 파라미터의 오픈 소스 모델 "GPT-OSS"를 출시했습니다. 🚀
- 200억 파라미터 모델은 도구를 사용할 경우 GPT-3 mini보다 성능이 우수하며, 로컬에서 실행 가능합니다. 💻
- 이 모델은 코드 포스(Codeforces)에서 높은 점수를 받았으며, 데스크톱 정리 데모에서 인상적인 성능을 보였습니다. 🧹
- 200억 파라미터 모델은 24개의 레이어와 36억 개의 활성 파라미터를 가진 MOE(Mixture of Experts) 모델이며, 128K의 컨텍스트 길이를 지원합니다. 🧠
- 1200억 파라미터 모델은 단일 80GB GPU에서 실행 가능하며, 36개의 레이어와 50억 개의 활성 파라미터를 가집니다. 💡
- Hugging Face에서 모델을 다운로드할 수 있으며, 완전한 CoT(Chain of Thought) 접근 권한을 제공합니다. 🔗
- 이 모델은 Python 실행 및 웹 브라우징 기능을 지원하며, MX FP4 양자화 방식으로 출시되어 GPU 호환성을 높였습니다. 🌐
- LM Studio 또는 Ollama를 통해 로컬에서 모델을 실행할 수 있으며, Grok에서는 무료로 모델을 체험할 수 있습니다. 🕹️
- Grok에서 200억 파라미터 모델은 204 토큰/초, 1200억 파라미터 모델은 526 토큰/초의 속도를 보여줍니다. ⚡
- OpenAI는 처음으로 CoT 추론 과정을 공개했으며, 파라미터 효율적인 미세 조정(PFT)을 지원할 예정입니다. 🔑