데브허브 | DEVHUB | Deepseek V3.2 (Speciale) & Mistral Large 3 (Fully Tested): The OGs of Open Models are BACK!Deepseek V3.2 (Speciale) & Mistral Large 3 (Fully Tested): The OGs of Open Models are BACK!
- 새로운 Deepseek V3.2는 DSA(Deepseek Sparse Architecture)를 도입하여 LLM의 주요 병목 현상인 어텐션 메커니즘을 혁신했습니다. 💡
- DSA는 '라이트닝 인덱서'를 통해 중요한 토큰에만 집중하여, 최대 128,000 토큰의 긴 컨텍스트에서도 컴퓨팅 비용을 크게 절감합니다. ⚡
- 'Speciale' 모델은 추론에 특화되어 훈련 중 길이 페널티를 완화하여 모델이 필요한 만큼 사고할 수 있도록 설계되었습니다. 🧠
- Deepseek V3.2는 자체 벤치마크에서 11위를 기록하며 GPT 5.1 CEX 및 GLM보다 높은 성능을 보였습니다. 🏆
- 하지만 Deepseek의 추론 변형은 API를 통한 답변 완료 실패 및 버그가 많은 코드 생성 등 불안정한 모습을 보였습니다. 🐛
- Mistral Large 3는 Deepseek V3 아키텍처를 기반으로 하는 새로운 사전 훈련 MoE 모델로, 총 6450억 개의 매개변수 중 약 410억 개를 활성화합니다. ⚙️
- 이 모델은 추론 기능이 없는 '원시적이고 단순한' 모델로, 자체 벤치마크에서 SOTA 성능을 주장하지만, 실제 테스트에서는 실망스러운 결과를 보였습니다. 📉
- Mistral Large 3는 사용자 벤치마크에서 3D 평면도, SVG 팬더, 3JS 포켓볼, 체스판 등 다양한 코딩 작업에서 낮은 품질의 결과물을 생성했습니다. ❌
- Mistral Large는 리더보드에서 27위를 기록하며, Deepseek V3.2보다 낮은 순위를 차지했습니다. 📊
- 두 모델 모두 툴 호출(tool calling) 능력은 괜찮은 편입니다. 🛠️
- 발표자는 여전히 GLM, Miniax, Kimmy와 같은 기존 모델들이 더 우수하며, 이 새로운 모델들이 반드시 필요하지는 않다고 평가했습니다. 🤔
- 오픈 모델의 복귀는 긍정적이지만, 실제 성능은 기대에 미치지 못하거나 특정 영역에서 불안정함을 보였습니다. 🚀