유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

Did OpenAI Lie on Benchmarks??!!!

1littlecoder

2025. 1. 6.

0

#ai
#etc
  • OpenAI의 SWE 벤치마크 결과에 대한 의혹 제기 🤔
  • 실제 GitHub 이슈 적용 결과는 OpenAI 주장(48%)보다 훨씬 낮은 30%에 그침 📉
  • Claude 모델은 다른 프레임워크(Open Hands) 사용 시 53% 달성, OpenAI의 선택과 대조됨 🤖
  • OpenAI가 사용한 'agentless' 프레임워크는 Open Hands보다 성능이 낮음, 선택 이유에 대한 의문 제기 🤨
  • OpenAI의 벤치마크 방식과 결과 해석에 대한 투명성 부족 지적 🔎
  • 연구자들은 OpenAI의 선택이 모델의 기억력에 편향된 결과를 초래했을 가능성을 제기함 🤔
  • 추론 모델의 에이전트 역할 수행 방식에 대한 근본적인 문제점 제기 🧐

Recommanded Videos