This Voice AI Creates Full Podcasts in Minutes! (Microsoft's VibeVoice)
- Microsoft에서 Vibe Voice라는 새로운 오픈 소스 텍스트 음성 변환 모델을 출시했습니다. 🗣️
- Vibe Voice는 최대 4명의 화자를 지원하며, 최대 90분 길이의 오디오 생성이 가능합니다. ⏱️
- 이 모델은 'next token diffusion'이라는 기술을 사용하여 대화의 일관성을 유지하면서도 음향 디테일을 추가합니다. 🧬
- Vibe Voice는 감정 표현이나 노래 부르기와 같은 즉흥적인 기능을 추가할 수 있지만, 이러한 기능에 대한 제어는 불가능합니다. 🎭
- 현재 영어와 중국어만 지원하며, 작은 모델은 실시간 음성 어시스턴트나 IoT 장치에 적합할 수 있습니다. 🌐
- 프로젝트를 통해 영화 제목을 입력하면 두 명의 화자가 영화에 대한 흥미로운 정보를 토론하는 팟캐스트 에피소드를 자동 생성할 수 있습니다. 🎬
- Vibe Voice를 사용하여 팟캐스트를 생성하는 과정은 RunPod에서 A40 GPU를 사용하여 진행되었으며, OpenAI 및 TMDB API 키가 필요합니다. 🔑
- 생성된 오디오는 때때로 감정 표현이 과장되거나 배경 음악이 부자연스러울 수 있으며, 화자의 목소리가 갑자기 바뀌는 현상이 발생하기도 합니다. 🤪
- Vibe Voice는 Notebook LM의 무료 대안으로 사용될 수 있지만, 아직 개선해야 할 부분이 많습니다. 🤔
- 전반적으로 Vibe Voice는 재미있고 무작위적인 결과물을 생성하지만, 실용적인 사용 사례는 제한적일 수 있습니다. 🤣