데브허브 | DEVHUB | Kyutai STT & TTS - A Perfect Local Voice Solution?Kyutai STT & TTS - A Perfect Local Voice Solution?
- Kyutai는 이전에 ASR과 TTS를 LLM과 통합한 Moshi 프로젝트를 선보였으나, 이번에는 독립적인 STT 및 TTS 모델을 출시했습니다. 🚀
- STT(Speech-to-Text) 모델은 영어와 프랑스어만 지원하며, 매우 빠르고 정확한 전사 기능을 제공합니다. 🗣️
- TTS(Text-to-Speech) 모델은 1.6B 규모로, 영어와 프랑스어만 지원하지만 Chatterbox, Dia, ElevenLabs와 견줄 만한 고품질 음성 합성을 자랑합니다. ✨
- 특히 TTS 모델은 10초 음성 샘플만으로 억양과 음색을 매우 잘 재현하는 뛰어난 음성 복제(Voice Cloning) 능력을 보여주었습니다. 🎤
- 하지만 Kyutai는 동의 없는 음성 복제를 방지하기 위해 음성 임베딩 모델을 직접 공개하지 않고, 대신 Espresso 및 VCTK와 같은 데이터셋 기반의 사전 제작된 음성 라이브러리를 제공합니다. 🔒
- 현재 다른 언어에 대한 미세 조정 기능은 없지만, Kyutai 팀은 이를 위한 아이디어를 모색 중입니다. 🌍
- TTS 모델은 250만 시간의 방대한 데이터로 훈련되었으며, Whisper medium 모델을 사용하여 데이터에 레이블을 지정했습니다. 📊
- 제공된 코드를 통해 사전 제작된 음성 임베딩을 로드하여 음성을 합성하고, 심지어 여러 음성 임베딩을 평균화하여 새로운 '블렌딩된' 음성을 생성하는 것도 가능합니다. 🧪
- 전반적으로 Kyutai의 이번 출시는 작지만 강력한 로컬 음성 솔루션으로, STT와 TTS 모두에서 뛰어난 성능을 보여주며 로컬 챗 시스템 구축에 활용될 잠재력이 큽니다. 💡
- STT 모델은 이미 MLX 버전이 존재하며, TTS 모델도 MLX 버전으로의 전환이 기대되어 Mac 노트북과 같은 로컬 환경에서의 활용성이 더욱 높아질 것으로 예상됩니다. 💻