- 기존 AI 벤치마크는 실제 성능을 제대로 반영하지 못해 신뢰하기 어렵습니다. 📉
- OpenAI는 실제 전문가의 업무를 기반으로 한 새로운 벤치마크 'GDP vow'를 발표했습니다. 🛠️
- 'GDP vow'는 학술적 퍼즐이 아닌, 실제 직업에서 수행되는 과제를 바탕으로 구축되었습니다. 💼
- 이 벤치마크는 학자가 아닌 실제 산업 전문가들이 자신의 업무 경험을 바탕으로 과제를 제공하여 만들어졌습니다. 🧑💻
- 목표는 AI 모델이 전문가들이 실제로 하는 일을 수행할 수 있는지 측정하는 것입니다. ✅
- 'GDP vow'는 AI 평가에 대한 근본적으로 다른 철학을 제시하며, 기존 방식의 한계를 지적합니다. 🤔





