Why GPT‑5 SMASHES Scores—But People Aren’t Impressed
- GPT-5는 SWE-Bench, ADA Polyglot, Live Codebench 등 코딩 벤치마크에서 높은 점수를 기록했지만, 사용자 경험은 엇갈림 🏆
- SWE-Bench에서 GPT-5는 Opus와 유사한 성능을 보였으나, 테스트 환경 차이로 직접적인 비교는 어려움 🧪
- ADA Polyglot 벤치마크에서 GPT-5는 O3보다 높은 점수를 주장하지만, 공식 검증은 아직 진행 중 ⏱️
- Live Codebench에서 GPT-5 Mini는 GPT-5 및 Claude 4 Opus보다 빠른 성능을 보임 ⚡
- GPT-5 시스템은 여러 모델의 조합으로, 프롬프트에 따라 최적의 모델로 라우팅하여 응답하는 방식임 🔀
- 간단한 작업의 경우, GPT-5가 더 단순한 모델로 라우팅하여 기대에 못 미치는 응답을 줄 수 있음 🤔
- OpenAI는 라우터를 개선하여 모든 프롬프트에 대해 최상의 응답을 제공하기 위해 노력 중임 ⚙️
- 다양한 코딩 벤치마크가 존재하지만, 최신 리더보드를 찾기 어려운 경우도 있음 🗺️
- 벤치마크 점수 외에도 개인적인 경험이나 직관도 모델 선택에 중요한 요소가 될 수 있음 💡