OpenAI GPT-OSS in 7 Minutes
- OpenAI에서 GPT-OSS 12B 및 20B라는 새로운 오픈 소스 추론 모델을 출시했습니다. 🚀
- 이 모델들은 아파치 2 라이선스 하에 있으며, 혼합 전문가 모델 구조를 사용합니다. 🧑💻
- 20B 모델은 16GB 메모리를 가진 노트북에서도 실행 가능하며, 120B 모델은 단일 80GB GPU에서 실행할 수 있습니다. 💻
- GPT-OSS 모델은 5년 만에 처음으로 공개된 모델이며, 최대 128,000 토큰의 컨텍스트 길이를 지원합니다. 📚
- 이 모델은 주로 영어, STEM 코딩 및 일반 지식에 중점을 둔 텍스트 데이터 세트로 학습되었습니다. 📝
- 모델의 사후 훈련 과정에서 chain of thought 추론 및 도구 사용을 적용하여 답변을 생성합니다. 💡
- 벤치마크 결과, GPT-OSS 모델은 GPT-3 Mini를 능가하며, GPT-3와 경쟁적인 성능을 보입니다. 🏆
- 특히, 에이전트 아키텍처 설정 없이도 도구 호출 기능을 통해 웹 검색 또는 코드 실행이 가능합니다. 🔍
- Grock 및 Cerebrus와 같은 플랫폼에서 호스팅 경쟁이 치열하며, 가격은 매우 저렴합니다. 💰
- Hugging Face에서 다운로드하거나 Olama를 통해 로컬에서 실행할 수 있습니다. ⬇️
- OpenRouter를 통해 다양한 가격 옵션과 통합 결제를 이용할 수 있습니다. 🌐