데브허브 | DEVHUB | GPT-5.2 (V/S Gemini 3 & Opus 4.5) - Fully Tested: Is it the OPENAI Comeback or A FLOP?
이 영상에서는 OpenAI의 새로운 GPT-5.2 릴리스를 분석하고, GPT-5.1과의 차이점, 그리고 가격 및 변형 버전이 다소 혼란스러운 이유에 대해 설명합니다. 이어서 Verdent와 KiloCode 같은 도구를 사용하여 GPT-5.2가 Opus 4.5, Sonnet 4.5, Gemini 3 Pro와 비교하여 실제 성능을 어떻게 발휘하는지 알아보기 위해 비에이전트 및 에이전트 벤치마크를 직접 실행해 보았습니다.
-- 참고 자료:
GPT-5.2 블로그 게시물: https://openai.com/index/introducing-...
Verdent: https://verdent.ai/
KiloCode: https://kilocode.ai/
--
주요 내용:
🚀 GPT-5.2는 OpenAI PR 스타일 작업을 포함한 기여형 코딩 벤치마크에서 상당한 성능 향상을 제공합니다.
💰 가격이 백만 출력 토큰당 10달러에서 14달러로 인상되어 Sonnet에 더 가까워졌고 일부 경쟁 제품보다 높아졌습니다.
🧠 초고도 추론 변형은 결과를 크게 향상시킬 수 있지만, 장단점과 변형 스택이 모순적으로 느껴집니다.
🧪 OpenAI 자체 벤치마크에 따르면 특히 심층 디버깅 및 내부 병목 현상 진단에서 완벽한 성능을 보여주지는 못합니다.
⚠️ 엄격한 지침 준수는 역효과를 초래할 수 있습니다. 엄격한 형식 제약 조건 하에서 지침을 준수하기 위해 잘못된 결과를 도출할 수 있습니다.
📉 비에이전트 테스트에서 추론 기능이 없는 버전은 성능이 저조하며 실제 GPT-5.1보다 뒤처지는 경우도 있습니다.
🛠️ 에이전트 환경에서 GPT-5.2는 간단한 작업을 과도하게 설계하여 Opus가 강점을 보이는 부분에서도 제대로 작동하지 못할 수 있습니다.
📊 전반적인 순위는 괜찮지만, 가격 대비 성능을 고려하면 좋은 도구를 갖춘 Sonnet이나 Opus가 더 매력적입니다. 🔄 제 결론은 GPT-5.2가 "OpenAI의 Gemini 3"처럼 느껴진다는 것입니다. 즉, 일회성 데모에서는 훌륭하지만 에이전트 기반 워크플로에서는 다소 불안정합니다.