Qwen 3 Coder in 6 Minutes
- Qwen 3 Coder는 Alibaba의 최신 오픈 소스 코드 모델로, 4800억 개의 매개변수(활성 350억)를 가진 MoE(Mixture of Experts) 아키텍처를 채택했습니다. 🤖
- 최대 100만 토큰의 컨텍스트 길이를 지원하며, 기본적으로 256,000 토큰을 처리할 수 있어 대규모 코드 베이스 작업에 유리합니다. 📖
- Kimmy K2를 능가하고, Claude 4 Sonnet과 대등하거나 일부 벤치마크(예: Terminal Bench)에서 더 나은 성능을 보여주며, 전반적으로 매우 경쟁력 있는 성능을 자랑합니다. 🏆
- 7.5조 개의 토큰(70% 코딩 토큰)으로 훈련되었으며, 합성 데이터를 활용하여 데이터 품질을 크게 향상시켜 모델의 견고성을 높였습니다. 💻
- 에이전트 코딩 작업을 위해 Gemini Code에서 포크된 'Qwen Code' CLI 도구를 오픈 소스로 제공하며, 맞춤형 프롬프트와 함수 호출 프로토콜로 Qwen 3 Coder의 역량을 극대화합니다. 🛠️
- AI IDE, Cloud Code, Klein 등 다양한 플랫폼과의 통합을 지원하여 개발자들이 기존 워크플로우에서 쉽게 활용할 수 있도록 했습니다. 🔗
- 실행 중심의 대규모 강화 학습에 중점을 두었으며, 경쟁 수준의 코드 생성보다는 실제 세계의 코딩 문제 해결에 초점을 맞춰 실용성을 강조했습니다. 🎯
- 멀티턴 상호작용, 계획, 도구 사용을 장려하는 장기 강화 학습(Long-horizon RL)을 통해 에이전트 기능을 강화하여 복잡한 소프트웨어 엔지니어링 작업을 수행할 수 있습니다. 🧠
- Alibaba 클라우드 인프라를 활용, 20,000개의 독립적인 환경에서 병렬 학습을 통해 대규모 에이전트 RL을 구현하여 모델의 성능을 최적화했습니다. ☁️
- 몇 달 만에 Deep Seek R1 대비 엄청난 성능 향상을 보여주며, AI 모델 개발의 가속화 추세를 명확히 입증했습니다. 🚀
- 웹 앱 인터페이스(chat.qwen.com)를 통해 무료로 모델을 체험할 수 있으며, 생성된 웹 앱을 미리 볼 수 있는 'artifacts' 기능도 제공하여 사용자 경험을 향상시켰습니다. 🌐