Microsoft's Vibe Voice, Eleven Voice & More Crazy AI Updates!
- Microsoft에서 Vibe Voice 1.5 billion 모델을 오픈 소스로 공개, 11 Labs version 3 및 Gemini 2.5 Pro preview text to speech 보다 우수한 성능을 제공합니다. 🎤
- Grok 2.5 모델은 오픈 소스이지만, 모델 크기가 커서 로컬 환경에서 실행하기는 어렵습니다. 💻
- 11 Labs에서 비디오를 업로드하여 비디오 컨텍스트에 맞는 음악을 생성하는 기능이 추가되었습니다. 🎶
- Highfields AI를 사용하여 이미지에 제품을 추가하면 자동으로 비디오에 반영됩니다. 🎂
- Excel에서 코파일럿을 통해 수식 없이 AI가 자동으로 작업을 수행할 수 있습니다. 📊
- Command A 추론 모델은 R1 GPOSS 120B 및 Magistral Medium과 비교하여 더 나은 성능을 보입니다. 🤔
- Quen CLI는 Claude code, Gemini CLI와 유사하며, Quen 모델이 오픈 소스이므로 로컬에서 실행할 수 있습니다. ⌨️
- Quen image edit는 이미지 편집 분야에서 오픈 웨이트 리더이며, Nano banana보다 우수한 성능을 보입니다. 🖼️
- Grok에서 프롬프트 캐싱을 통해 캐시된 토큰에 대해 50% 할인을 제공합니다. 💰
- 11 Labs에서 고품질 AI 음악 모델인 11 music을 출시했습니다. 🎵
- 11 Labs version 3 alpha text to speech 모델이 출시되어 다양한 기능이 추가되었습니다.🗣️
- Skyre's A3 talking avatars는 립싱크 성능에서 Hydra 및 Hon avatar보다 우수한 평가를 받고 있습니다. 🤖
- Van 2.2 S2V 모델은 오디오 기반의 인간 애니메이션을 위해 설계되었으며, 400억 개의 파라미터를 가지고 있습니다. 🎬
- Cloud code에서 컨텍스트 창 및 토큰 사용량을 시각화하는 새로운 컨텍스트 명령이 추가되었습니다. ☁️
- Nvidia의 Jetson Tour는 물리적 AI 및 휴머노이드 로봇을 위한 플랫폼입니다. 🦾
- Cance AI 플랫폼을 통해 비디오 및 이미지를 생성할 수 있습니다. ✨