GPT-5.2는 기존 벤치마크에서 높은 점수를 받았음에도 불구하고, 실제 사용 시 '마늘'의 'R' 개수를 잘못 세거나 비현실적인 재정 조언을 하는 등 기본적인 추론 능력에서 심각한 결함을 보인다. 🤦♀️
화자는 GPT-5.2의 이러한 문제가 모델이 전통적인 벤치마크에 과도하게 최적화(benchmaxed)되었기 때문이라고 추정하며, 이로 인해 실용적인 유용성과 '사고' 능력이 저하되었다고 지적한다. 📉
AI Explained의 'Simple Bench'와 화자 본인의 'Skate Bench' 같은 비공개/맞춤형 벤치마크에서는 GPT-5.2가 예상보다 훨씬 낮은 성능을 보이며, 특히 'Skate Bench'의 '추론 없음' 버전에서 2%라는 처참한 점수를 기록하여 단순 암기가 아닌 실제 추론 능력의 퇴보를 시사한다. 📊
GPT-5.2는 이전 버전인 GPT-5에 비해 비용은 훨씬 비싸지만, 'Skate Bench'에서 점수 향상은 미미하거나 오히려 퇴보하는 경향을 보여 비용 효율성이 크게 떨어진다. 💰
새로운 'Writing Arena' 벤치마크 결과, GPT-5.2는 초기 에세이 작성 능력도 우수했지만, 특히 다른 모델(Claude, Gemini, Kimmy K2)로부터 받은 피드백을 적용하여 에세이를 수정하는 능력에서 탁월한 성능을 보여 지시 이행 능력이 강점임을 입증했다. 📝
Kimmy K2는 에세이 작성 및 대화형 모델로서 매우 저평가되어 있으며, GPT 모델보다 사용자 경험이 더 좋다고 평가받았다. ✨
Gemini 모델은 피드백을 받아도 지시를 잘 따르지 않고 '자기만의 세상'으로 가는 경향이 있어, 피드백 적용 능력이 현저히 떨어진다고 비판받았다. 🤖
Claude 4.5 Opus는 에세이 작성 능력은 떨어지지만, 다른 모델의 에세이에 대해 구체적이고 유용한 피드백을 제공하는 능력은 뛰어나다고 평가되었다. 🧠
전반적으로 GPT-5.2는 UI 개선이나 어려운 수학 문제 해결 등 특정 영역에서는 발전했지만, 전반적인 실용성과 비용 대비 성능, 그리고 '생각하는' 능력에서는 퇴보하여 '이상한 모델'이라는 평가를 받는다. ❓