- Qwen3 Coder는 벤치마크에서 Claude Sonnet 4와 유사한 성능을 주장하지만, 실제 코딩 테스트에서는 문제 발생. 🤯
- Kim K2는 느리지만 저렴하여 간단한 작업에 유용하며, Claude Sonnet 4는 복잡한 작업에 적합. 💡
- 모델 성능은 환경, 프로젝트, 프롬프트 품질 등 다양한 요인에 따라 달라질 수 있음. ⚙️
- Claude Sonnet 4가 YouTube transcript를 읽지 못하는 예상치 못한 문제 발생. 🤷♀️
- 벤치마크 점수가 항상 실제 성능을 반영하는 것은 아님. ⚠️