데브허브 | DEVHUB | Building with Chatterbox TTS and Voice CloningBuilding with Chatterbox TTS and Voice Cloning
- Chatterbox TTS 모델 소개: RESEMBLE.AI에서 개발한 새로운 오픈소스 TTS 모델로, MIT 라이선스를 따르며 재미있게 활용할 수 있습니다. 🤖
- 독특한 감정 제어 기능: 'exaggeration' 파라미터를 통해 음성의 감정 강도를 조절할 수 있어 표현의 폭이 넓습니다. 🎭
- 뛰어난 제로샷 음성 복제: 단 5초의 참조 오디오만으로 음색, 톤, 심지어 공간의 잔향까지 매우 정확하게 복제할 수 있습니다. 🗣️
- 경량 모델 및 온프레미스 실행: 5억 개의 파라미터로 비교적 작아 개인 기기에서 실행 가능하며, 토큰당 비용 없이 자유롭게 사용할 수 있습니다. 💻
- 워터마크 기능 및 위조 감지: 생성된 오디오에 워터마크를 삽입하여 위조 여부를 증명하고, 실제 오디오와 합성 오디오를 구분할 수 있습니다. 🕵️♀️
- 간편한 코드 통합:
pip install로 쉽게 설치하고 model.generate 함수로 텍스트를 음성으로 변환할 수 있습니다. 🚀
- ElevenLabs 대비 선호도: 사용자 선호도 조사에서 ElevenLabs보다 Chatterbox 모델의 음성 버전이 더 선호되는 것으로 나타났습니다. 👍
- 오디오 길이 제한 및 최적화: 한 번에 약 40초 분량의 오디오 생성이 가능하며, 긴 텍스트는 30초 단위로 분할하여 처리하는 것이 좋습니다. ✂️
- CFG 가중치를 통한 속도 제어: 감정 과장(exaggeration) 시 CFG(Classifier Free Guidance) 가중치를 조절하여 음성 속도 변화를 제어할 수 있습니다. ⚙️
- 확장된 활용 가능성: Chatterbox TTS extended 리포지토리를 통해 오디오북과 같은 장문 콘텐츠 제작에 활용할 수 있습니다. 📚
- 오픈소스의 장점: Dia나 Gemini TTS와 같은 다른 모델에 비해 음성 복제 기능이 뛰어나고, 개인 정보 보호 및 비용 효율성 측면에서 강점을 가집니다. 🌟