highly emotive, super long - breakthrough text to speech!!!
- Microsoft에서 새롭고 감정을 잘 표현하는 긴 텍스트 음성 변환(TTS) 모델인 Vibe Voice를 출시했습니다. 🗣️
- Vibe Voice는 최대 90분 길이의 오디오 콘텐츠를 생성할 수 있으며, 이는 기존 TTS 솔루션보다 훨씬 뛰어납니다. ⏱️
- 이 모델은 영어와 중국어를 지원하며, 여러 언어를 혼합하여 사용할 수 있습니다. 🌏
- 팟캐스트 스타일의 콘텐츠를 배경 음악과 함께 생성할 수 있으며, 여러 화자를 지원합니다. 🎧
- Vibe Voice는 diffusion과 LLM 스택을 결합한 모델로, 텍스트의 컨텍스트를 이해하고 고품질의 오디오를 생성합니다. 🧠
- 이 모델은 MIT 라이선스로 제공되어 상업적 목적으로도 사용할 수 있습니다. 💰
- 스트리밍을 위한 5억 파라미터 모델도 곧 출시될 예정입니다. 🚀
- Hugging Face Spaces에서 Vibe Voice를 사용해 볼 수 있으며, 화자 태그를 사용하여 텍스트를 구성할 수 있습니다. 🤗
- 감정 표현은 뛰어나지만, 배경 소음이 추가되는 경우가 있고, 화자 목소리가 섞이는 듯한 느낌이 들 때도 있습니다. 🤔
- 전반적으로 오디오북, 코스 커리큘럼 등 다양한 분야에서 유용하게 사용될 수 있는 훌륭한 모델입니다. 📚
- Microsoft가 다른 언어에 대한 미세 조정 스크립트를 공유하여 다양한 언어에서 활용될 수 있기를 기대합니다. 🌐