유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

Why GPT‑5 SMASHES Scores—But People Aren’t Impressed

Better Stack

2025. 8. 14.

0

#ai
  • GPT-5는 SWE-Bench, ADA Polyglot, Live Codebench 등 코딩 벤치마크에서 높은 점수를 기록했지만, 사용자 경험은 엇갈림 🏆
  • SWE-Bench에서 GPT-5는 Opus와 유사한 성능을 보였으나, 테스트 환경 차이로 직접적인 비교는 어려움 🧪
  • ADA Polyglot 벤치마크에서 GPT-5는 O3보다 높은 점수를 주장하지만, 공식 검증은 아직 진행 중 ⏱️
  • Live Codebench에서 GPT-5 Mini는 GPT-5 및 Claude 4 Opus보다 빠른 성능을 보임 ⚡
  • GPT-5 시스템은 여러 모델의 조합으로, 프롬프트에 따라 최적의 모델로 라우팅하여 응답하는 방식임 🔀
  • 간단한 작업의 경우, GPT-5가 더 단순한 모델로 라우팅하여 기대에 못 미치는 응답을 줄 수 있음 🤔
  • OpenAI는 라우터를 개선하여 모든 프롬프트에 대해 최상의 응답을 제공하기 위해 노력 중임 ⚙️
  • 다양한 코딩 벤치마크가 존재하지만, 최신 리더보드를 찾기 어려운 경우도 있음 🗺️
  • 벤치마크 점수 외에도 개인적인 경험이나 직관도 모델 선택에 중요한 요소가 될 수 있음 💡

Recommanded Videos