데브허브 | DEVHUB | Claude Opus 4.5 (Fully Tested): Anthropic REALLY COOKED with this model! #1 on my Agentic Tests!Claude Opus 4.5 (Fully Tested): Anthropic REALLY COOKED with this model! #1 on my Agentic Tests!
- Claude Opus 4.5는 Anthropic의 새로운 주력 모델로, 코딩, 에이전트, 실제 컴퓨터 사용에 중점을 둡니다. 💻
- 이전 모델 대비 가격이 크게 인하되어 (입력 $5, 출력 $25/백만 토큰) 더 저렴하고 실용적으로 접근 가능해졌습니다. 💰
- 코딩, 에이전트, 다국어 코딩, 장기 일관성, 심층 연구 에이전트 벤치마크에서 Sonnet 4.5 및 이전 Opus 모델을 크게 능가하는 성능을 보였습니다. 🚀
- 안전성 측면에서 우려 행동 지표가 낮고 프롬프트 주입 취약성이 가장 낮아 안전성이 향상되었습니다. 🛡️
- 추론 능력에서도 ARC AI2 Verified, GPQA Diamond, MMU Val 등에서 경쟁 모델 대비 뛰어난 결과를 보여줍니다. 🧠
- 작성자의 비에이전트 테스트에서는 일부 프론트엔드 및 시각적 작업에서 혼합된 결과를 보였으나, Minecraft 클론 및 나비 시뮬레이션 등 일부 작업에서는 매우 뛰어난 성능을 나타냈습니다. 🎨
- 작성자의 에이전트 테스트(Kilo Code 사용)에서는 Expo 모바일 트래커, Go 터미널 계산기, Svelte 앱 등 복잡한 애플리케이션 구축에서 탁월한 능력을 발휘하며 에이전트 리더보드 1위를 차지했습니다. 🥇
- Opus 4.5는 Gemini 3보다 훨씬 비싸지만 (77.1% 정확도에 $48 vs. 71.4%에 $8), 성능은 놀랍고 진정한 도약으로 평가됩니다. 📈
- 프론트엔드 작업(예: 보라색 UI)에서는 여전히 약점을 보이며, 백엔드 및 디버깅에 강점을 가집니다. Gemini 3는 프론트엔드에 강합니다. 🛠️
- 최적의 활용을 위해 Opus로 기능적 초안을 만들고 Gemini로 프론트엔드를 다듬는 하이브리드 접근 방식이 제안됩니다. 🤝
- Anthropic의 자체 플랫폼(Claude Code)에서는 모델의 잠재력이 제한될 수 있으며, Kilo와 같은 외부 도구를 사용할 때 더 나은 성능을 발휘합니다. 🔗