데브허브 | DEVHUB | SmolLM3 - A Local Agents Winner?SmolLM3 - A Local Agents Winner?
- SmolLM-V3는 Hugging Face가 출시한 3B 규모의 새로운 모델로, 이전 버전들을 기반으로 하며 로컬 에이전트 활용 가능성에 중점을 둡니다. 🚀
- 기본, 인스트럭트, Onyx 버전으로 제공되며, Olama 및 LM Studio용 GGUF 버전도 빠르게 출시되었습니다. 📦
- 3B 모델 중 최고 성능을 자랑하며, 4B 모델과도 경쟁하고, 모바일 기기에서 실행하기에 적합한 크기입니다. 🏆
- 11조 개의 토큰으로 학습되었으며, 128K(최대 256K)의 긴 컨텍스트를 지원합니다. 🧠
- 추론 기능을 켜고 끌 수 있는 '듀얼 씽크' 시스템을 갖추고 있으며, 6개 유럽 언어를 지원하는 다국어 모델입니다. 💡
- 모델 자체보다 더 중요한 것은 Hugging Face가 공개한 상세한 훈련 '청사진'으로, 전처리부터 아키텍처, 후처리까지 모든 단계를 투명하게 설명합니다. 🗺️
- Llama 3 아키텍처와 유사하며, NoPE(회전 임베딩 대신 인과 마스크 사용)와 Olmo 2의 아이디어를 통합했습니다. 🛠️
- 훈련 비용은 384개의 H100 GPU를 24일간 사용하여 수십만 달러 수준으로, 과거의 수백만 달러 모델보다 훨씬 저렴합니다. 💰
- 3단계 사전 훈련은 웹 데이터로 시작하여 코드와 수학 데이터를 점진적으로 늘리는 방식으로 진행되었습니다. 📈
- 추론 훈련은 DeepSeekR1 및 Qwen3의 합성 데이터를 주로 활용했으며, DPO 변형을 통한 정렬과 모델 병합 기술을 사용했습니다. 🧪
- 코드 테스트 결과, 추론 모드는 상세하고 유용한 답변을 제공하지만, 때로는 빈 추론을 생성하거나 과도하게 장황할 수 있습니다. 💬
- 함수 호출 및 도구 사용 능력이 뛰어나, 날씨 조회나 웹 검색과 같은 복잡한 작업을 위한 인수를 정확히 파악합니다. 🔧
- 불필요한 도구 사용을 피하는 데는 혼합된 결과를 보였지만, 전반적으로 에이전트 활용에 큰 잠재력을 보여줍니다. 🤖
- Hugging Face의 이러한 개방적인 모델 및 훈련 청사진 공개는 커뮤니티에 큰 기여로 평가받고 있습니다. 💖