Introducing NVIDIA's Nemotron Nano 9B V2
- NVIDIA에서 Nemotron Nano 9B V2라는 새로운 소형 언어 모델을 출시했습니다. 🚀
- Nemotron Nano 9B V2는 instruction following, 수학, 과학, 코딩, 도구 사용 등에서 Quen 38B 모델보다 뛰어난 성능을 보입니다. 🏆
- 이 모델은 Mamba와 Transformer 아키텍처의 조합을 통해 추론 능력과 빠른 속도를 동시에 제공하는 하이브리드 아키텍처를 사용합니다. 💡
- Nemotron Nano 9B V2는 엣지 장치나 일반 소비자용 하드웨어에서도 실행할 수 있을 정도로 작습니다. 📱
- 모델 학습에 사용된 데이터 세트가 HuggingFace에 공개되어 있어, 다른 모델의 기반으로 활용할 수 있습니다. 📚
- 이 모델은 추론 및 비추론 작업을 모두 수행할 수 있는 통합 모델이며, 시스템 프롬프트를 통해 사고 과정을 제어할 수 있습니다. 🤔
- 사용자는 어려운 질문에 대해 모델이 더 많이 생각하도록 하거나, 간단한 질문에 대해 더 빠르게 응답하도록 설정할 수 있습니다. ⚙️
- 모델은 Mamba 2와 MLP 레이어를 활용하며, Megatron LM 및 Nemo를 사용하여 강화 학습을 통해 훈련되었습니다. 🤖
- Nemotron Nano 9B V2는 영어, 독일어, 스페인어, 프랑스어, 이탈리아어, 일본어를 지원합니다. 🌐
- 모델의 사고 예산을 조절하여 응답의 정확도를 높일 수 있으며, 특히 AME 2025 데이터 세트에서 높은 성능을 보입니다. 📈
- 모델 훈련은 여러 단계를 거쳤으며, 각 단계마다 데이터 혼합 비율이 다르게 구성되었습니다. 📊
- build.envidia.com에서 다양한 모델을 체험해 볼 수 있으며, Nemotron Nano 9B V2도 사용해 볼 수 있습니다. 💻
- 모델은 도구를 활용할 수 있으며, 사고 과정을 켜고 끌 수 있고, 사고 예산을 설정할 수 있는 유연성을 제공합니다. 🧰
- NVIDIA는 인상적인 하드웨어뿐만 아니라 훌륭한 오픈 소스 모델을 개발하고 공개하여 업계에 기여하고 있습니다. 👏