This Stupid Test BROKE the BEST LLMs (Medium Mode Only!)

'SoloBench'는 LLM의 단일 발생 언어 출력(Single Occurrence Linguistic Output) 능력을 측정하는 새로운 오픈 소스 벤치마크입니다. 📊
핵심 과제는 LLM이 주어진 단어 목록에서만 단어를 사용하여 '동사 + 형용사 + 명사 + 명사' 구조의 4단어 문장 250개(쉬움 모드) 또는 500개(중간 모드)를 생성하는 것입니다. 📝
엄격한 규칙이 적용되는데, 모든 생성 문장에서 단어는 단 한 번만 사용되어야 하며, 외부 도구나 프로그래밍 언어 사용은 금지됩니다. 🚫
겉보기에는 간단해 보이지만, 대부분의 최신 LLM은 이 벤치마크에서 매우 낮은 점수를 기록하며 고전하고 있습니다. 🤯
현재 Google의 Gemini 2.5 Pro만이 쉬움 모드에서 75%, 중간 모드에서 57%를 기록하며 50% 이상을 달성한 유일한 모델입니다. 🏆
이 벤치마크는 단일 정답이 없어 '벤치마크 최대화'를 방지하고, 객관적인 파이썬 스크립트로 평가되어 LLM이나 인간 심판의 편향이 없습니다. ⚖️
모델당 평가 비용이 5센트 미만으로 매우 저렴하며, 특별한 평가 도구가 필요 없어 비용 효율적입니다. 💰
긴 컨텍스트 입력 및 출력 성능, 메모리, 지시 따르기, 추론 능력, 그리고 환각 여부를 종합적으로 평가합니다. 🧠
이 벤치마크는 LLM이 엄격한 제약 조건 내에서 정확한 지시를 따르고, 기억하며, 반복 없이 생성하는 능력에 근본적인 약점이 있음을 시사합니다. 💡
GitHub에서 누구나 접근하고 사용할 수 있는 완전한 오픈 소스 프로젝트로 제공됩니다. 🌐

로딩 중...

This Stupid Test BROKE the BEST LLMs (Medium Mode Only!)

Minimum Number of Increments on Subarrays to Form a Target Array - Leetcode 1526 - Python

Norton Neo: This FULLY FREE AI Browser by NORTON is REALLY GOOD!

Instagram's Database Denormalization #softwareengineer #database

Creating Cool Things With v0 in UNDER 1 Minute! The Matrix

Top Beginner Cybersecurity Certifications to Get in 2025!

알고 있으면 너무 좋은 프론트엔드 웹 기술 : Device Memory API