- OpenAI의 SWE 벤치마크 결과에 대한 의혹 제기 🤔
- 실제 GitHub 이슈 적용 결과는 OpenAI 주장(48%)보다 훨씬 낮은 30%에 그침 📉
- Claude 모델은 다른 프레임워크(Open Hands) 사용 시 53% 달성, OpenAI의 선택과 대조됨 🤖
- OpenAI가 사용한 'agentless' 프레임워크는 Open Hands보다 성능이 낮음, 선택 이유에 대한 의문 제기 🤨
- OpenAI의 벤치마크 방식과 결과 해석에 대한 투명성 부족 지적 🔎
- 연구자들은 OpenAI의 선택이 모델의 기억력에 편향된 결과를 초래했을 가능성을 제기함 🤔
- 추론 모델의 에이전트 역할 수행 방식에 대한 근본적인 문제점 제기 🧐