NotebookLM but OPEN SOURCE!
- Microsoft의 Vibe Voice 모델은 오픈 소스 NotebookLM 솔루션으로, 로컬에서 실행 가능하다. 💻
- 이 모델은 15억 개의 파라미터를 가지며, 긴 형식의 표현력 있는 TTS(Text-to-Speech)를 지원한다. 🗣️
- Vibe Voice는 확산 프레임워크를 사용하여 90분 분량의 음성 생성이 가능하며, 여러 화자를 태깅할 수 있다. 🎤
- 기존 TTS 솔루션과 달리, 문맥을 인식하고 감정 표현이 가능하며, 노래도 부를 수 있다. 🎶
- OpenAI의 TTS 모델과 비교했을 때, Vibe Voice는 더 자연스럽고 다양한 표현력을 제공한다. 😮
- 이 모델은 영어와 중국어(만다린)를 지원하며, Quinn 2.5 모델을 기반으로 한다. 🇨🇳
- 65,000 토큰의 컨텍스트 길이를 가지며, 스트리밍 방식으로 음성 생성이 가능하다. ⏱️
- 다양한 여성 및 남성 음성 옵션을 제공하며, CFG 파라미터를 통해 프롬프트 준수도와 창의성을 조절할 수 있다. 🎨
- MIT 라이선스를 통해 상업적 목적으로 자유롭게 사용 가능하며, 원하는 컴퓨팅 환경에서 실행할 수 있다. ✅
- 데모 링크가 제공되며, 모델에 대한 추가 테스트 요청은 댓글을 통해 가능하다. 💬