데브허브 | DEVHUB | This Stupid Test BROKE the BEST LLMs (Medium Mode Only!)This Stupid Test BROKE the BEST LLMs (Medium Mode Only!)
- 'SoloBench'는 LLM의 단일 발생 언어 출력(Single Occurrence Linguistic Output) 능력을 측정하는 새로운 오픈 소스 벤치마크입니다. 📊
- 핵심 과제는 LLM이 주어진 단어 목록에서만 단어를 사용하여 '동사 + 형용사 + 명사 + 명사' 구조의 4단어 문장 250개(쉬움 모드) 또는 500개(중간 모드)를 생성하는 것입니다. 📝
- 엄격한 규칙이 적용되는데, 모든 생성 문장에서 단어는 단 한 번만 사용되어야 하며, 외부 도구나 프로그래밍 언어 사용은 금지됩니다. 🚫
- 겉보기에는 간단해 보이지만, 대부분의 최신 LLM은 이 벤치마크에서 매우 낮은 점수를 기록하며 고전하고 있습니다. 🤯
- 현재 Google의 Gemini 2.5 Pro만이 쉬움 모드에서 75%, 중간 모드에서 57%를 기록하며 50% 이상을 달성한 유일한 모델입니다. 🏆
- 이 벤치마크는 단일 정답이 없어 '벤치마크 최대화'를 방지하고, 객관적인 파이썬 스크립트로 평가되어 LLM이나 인간 심판의 편향이 없습니다. ⚖️
- 모델당 평가 비용이 5센트 미만으로 매우 저렴하며, 특별한 평가 도구가 필요 없어 비용 효율적입니다. 💰
- 긴 컨텍스트 입력 및 출력 성능, 메모리, 지시 따르기, 추론 능력, 그리고 환각 여부를 종합적으로 평가합니다. 🧠
- 이 벤치마크는 LLM이 엄격한 제약 조건 내에서 정확한 지시를 따르고, 기억하며, 반복 없이 생성하는 능력에 근본적인 약점이 있음을 시사합니다. 💡
- GitHub에서 누구나 접근하고 사용할 수 있는 완전한 오픈 소스 프로젝트로 제공됩니다. 🌐