- GPT-5는 SWE-Bench에서 높은 점수를 받았지만, 모델 비교의 공정성 문제가 존재함. 🧪
- ADA Polyglot 벤치마크에서 GPT-5는 잠재적으로 높은 점수를 기록할 것으로 예상되지만, 공식 검증이 필요함. ⏳
- Live Codebench에서 GPT-5 Mini는 성능과 속도 면에서 GPT-5 및 Claude 4 Opus를 능가함. 🚀
- GPT-5 시스템은 여러 모델의 조합으로, 프롬프트에 따라 최적의 모델로 라우팅되어 사용자 경험이 다를 수 있음. 🧩
- OpenAI는 라우터를 개선하여 프롬프트에 관계없이 최상의 응답을 제공하기 위해 노력하고 있음. 🛠️