- 알리바바 압사라 컨퍼런스에서 Qwen 팀은 인공 초지능(ASI) 달성 로드맵과 투자 확대를 발표했습니다. 🚀
- Qwen3-Max는 1조 개 이상의 매개변수와 36조 토큰으로 학습된 독점 모델로, 현재 '비사고' 버전이 출시되었으며 '사고' 버전은 훈련 중입니다. 🧠
- Qwen3-VL은 MoE 기반의 비전 언어 모델로, 32개 언어 OCR 지원, 최대 100만 토큰의 확장 가능한 컨텍스트 창, 공간 이해 능력에서 Gemini 2.5 Pro와 경쟁하며 에이전트용으로 설계되었습니다. 이 모델은 오픈 웨이트로 제공됩니다. 👁️🗨️
- Live Translate Flash는 실시간 다중 모달 통역 모델로, 오디오와 비전을 활용하여 입술 읽기, 제스처, 화면 텍스트를 이해하지만, 오픈 소스가 아닙니다. 🗣️
- Qwen3-Omni는 Qwen3 MoE 개념을 업데이트한 다국어 모델로, 향상된 도구 호출 기능을 제공하며 오픈 웨이트로 출시되어 로컬 실행 가능성이 높습니다. 🛠️
- Qwen3-Guard는 콘텐츠 조정 및 안전을 위한 모델로, 119개 언어 및 방언을 지원하며 오픈 웨이트로 제공됩니다. 🛡️
- Qwen-Image 업데이트는 포즈 추정 및 의류 조건부 이미지 생성 등 새로운 기능을 추가하여 다중 이미지 편집, 캐릭터 일관성, 이미지 복원 등을 가능하게 하며 오픈 모델입니다. 🖼️
- 새로운 TTS 및 ASR 시스템, 그리고 업그레이드된 Qwen3-Coder-Plus는 강력한 성능을 보이지만, API 전용으로 제공되어 오픈 소스 커뮤니티의 아쉬움을 남겼습니다. ☁️
- Qwen 팀은 특정 사용 사례에 최적화된 에이전트 전용 모델 개발에 집중하고 있으며, 개인 AI 여행 디자이너 및 딥 리서치 에이전트와 같은 사례를 통해 특정 에이전트 프레임워크에 모델을 맞춤화하는 전략을 보여주었습니다. 🤖
- 전반적으로 Qwen 팀은 많은 모델과 업데이트를 발표했지만, 일부 핵심 모델이 오픈 소스로 공개되지 않아 오픈 웨이트 모델에 대한 기존의 강점과 대조를 이루었습니다. ⚖️