OpenAI's New OPEN Models - GPT-OSS 120B & 20B
- OpenAI가 GPT-OSS 120B 및 20B 모델을 공개했으며, 이는 Apache 2.0 라이선스로 사용이 자유롭습니다. 🔓
- 이 모델들은 오픈 소스 모델이 아닌 오픈 웨이트 모델로, 훈련 코드나 데이터 접근성은 제공되지 않습니다. 🏋️
- 120B 모델은 클라우드 환경에, 20B 모델은 로컬 환경에서 실행 가능하도록 설계되었습니다. ☁️
- 에이전트 워크플로우에 적합하도록 설계되었으며, 도구 사용, 웹 검색, Python 코드 실행 등의 기능을 지원합니다. 🤖
- 두 모델 모두 낮은, 중간, 높은 수준의 추론 노력을 지원하며, 이는 시스템 프롬프트로 설정할 수 있습니다. 🤔
- 모델은 혼합 전문가(Mixture of Experts, MoE) 아키텍처를 사용하며, 120B 모델은 50억 개의 활성 파라미터를, 20B 모델은 36억 개의 활성 파라미터를 사용합니다. 🧮
- 최대 128K 컨텍스트 길이를 지원하지만, 주로 영어에 최적화되어 있습니다. 🌐
- 2024년 6월까지의 지식 컷오프를 가지며, 이는 과거 데이터셋을 사용했음을 시사합니다. 🗓️
- OpenRouter를 통해 쉽게 사용해 볼 수 있으며, OpenAI 모델과 유사한 응답 스타일을 보입니다. 🗣️
- 로컬에서 실행하려면 Triton 설치가 필요하며, 4비트 부동 소수점 양자화를 사용해야 합니다. ⚙️
- OpenAI Harmony SDK를 통해 메시지를 구성하고 다양한 역할을 설정할 수 있습니다. 🧩
- Ollama를 사용하여 로컬에서 쉽게 실행할 수 있으며, 16GB RAM으로 20B 모델을 실행할 수 있습니다. 🦙