- SWE-bench는 실제 GitHub 이슈 해결 능력을 평가하는 AI 코딩 벤치마크다. 🛠️
- 2294개의 이슈를 파악, 코드 수정, 테스트 통과까지 요구한다. 🧪
- SWE-bench Verified는 더 명확한 이슈로 구성된 고품질 데이터셋이다. ✅
- Opus가 SWE-bench 및 SWE-bench Verified에서 가장 높은 점수를 받았다. 🥇
- BetterStack에서 더 많은 AI 관련 정보를 얻을 수 있다. 💡
Recommanded Videos