데브허브 | DEVHUB | Gemini-3.0 Pro Agentic Tests (& New KingEval): I TESTED Gemini-3 on AGENTIC TESTS & NEW BENCHMARK!Gemini-3.0 Pro Agentic Tests (& New KingEval): I TESTED Gemini-3 on AGENTIC TESTS & NEW BENCHMARK!
- Gemini 3 Pro는 Kingbench 1.0에서 100% 만점을 기록하며 Sonnet보다 50%, GPT 5.1 Codecs보다 2배 뛰어난 성능을 보였습니다. 💯
- 새로운 KingEval 2.0 벤치마크는 Godot 게임 엔진의 GDScript와 Svelte 코드 생성 능력을 평가하는 GDScript Bench 및 Svelte Bench를 포함합니다. 🎮
- 이 벤치마크들은 단위 테스트와 LLM 심사관을 통해 코드 품질을 평가하며, 코딩에 중점을 둔 종합 지능 지수를 산출합니다. 🧠
- Gemini 3 Pro는 종합 지능 지수에서 60.4점으로 Sonnet(37.5), Opus(34.9), GPT5 Codecs(31.3)를 크게 앞서며 선두를 차지했습니다. 🚀
- 특히 Godot Bench에서 20.8점, Svelte Bench에서 83.3점을 기록하며 각 부문에서 최고 점수를 달성했습니다. ✨
- 가격 대비 성능 면에서도 Gemini 3 Pro는 모든 벤치마크를 단 2.85달러로 실행하여 Sonnet보다 훨씬 저렴한 비용 효율성을 자랑합니다. 💰
- Agentic 테스트에서 Gemini 3 Pro는 영화 추적 앱, Godot 게임 기능 추가, Go TUI 계산기, Tauri 앱 등 다양한 복잡한 작업을 성공적으로 수행했습니다. ✅
- 이전에는 CodeBuff만 통과했던 'Mostly Undefeated Open Code' 질문(SVG 명령)을 Gemini 3 Pro가 통과했으며, CodeBuff보다 더 나은 결과를 보여주었습니다. 🏆
- Agentic 리더보드에서 Gemini 3 Pro는 71.4%로 70% 임계값을 돌파하며 CodeBuff를 제치고 1위를 차지했습니다. 🥇
- 간혹 긴 에이전트 작업에서 환각 현상이 발생하지만, 잘 회복하며 시스템 프롬프트 튜닝을 통해 더욱 개선될 여지가 있습니다. 🛠️
- (스폰서) Augment Code는 대규모 코드베이스를 위한 엔터프라이즈급 AI 코딩 도우미로, 독점적인 컨텍스트 엔진과 실시간 관련 스니펫 제공 기능을 갖추고 있습니다. 💼