This Stupid Test BROKE the BEST LLMs (Medium Mode Only!)
- 새로운 벤치마크 Solo Bench는 LLM의 언어 능력, 특히 긴 문맥 이해 및 규칙 준수 능력을 평가합니다. 🧠
- Solo Bench는 특정 문법 구조와 주어진 단어 목록을 사용하여 고유한 문장을 생성하도록 LLM에 요청합니다. 📝
- 이 벤치마크는 LLM이 환각을 일으키는지, 즉 주어진 단어 목록에 없는 단어를 사용하는지 여부를 확인합니다. 🤥
- Gemini 2.5 Pro가 현재 Solo Bench에서 가장 높은 점수를 받았지만, 다른 모델들은 어려움을 겪고 있습니다. 🥇
- Solo Bench는 오픈 소스이며, 객관적인 평가를 제공하며, LLM 성능을 분리하는 데 효과적입니다. 🔓
- 이 벤치마크는 LLM이 기본적인 규칙 준수 및 단어 선택에 어려움을 겪는다는 것을 보여줍니다. 🤔
- Solo Bench는 쉬운 모드와 중간 모드의 두 가지 난이도로 제공되며, 중간 모드에서는 성능 차이가 더욱 두드러집니다. 📊
- 개발자는 GitHub 리포지토리를 통해 Solo Bench를 사용할 수 있으며, 기여를 장려합니다. 🧑💻