데브허브 | DEVHUB | NEW EMOTIONAL Text-to-Speech AI - New Best Voice Cloning?NEW EMOTIONAL Text-to-Speech AI - New Best Voice Cloning?
- Boson AI의 새로운 감성 Text-to-Speech(TTS) 및 음성 복제 모델인 Higs Audio V2가 출시되었습니다. 🚀
- 1천만 시간 이상의 오디오 데이터와 다양한 텍스트 데이터로 사전 훈련되었으며, 사후 훈련이나 미세 조정 없이 높은 성능을 보여주는 것이 특징입니다. 🧠
- 특히 감정 전달 능력이 뛰어나며, GPT-4o mini TTS와 비교했을 때 감정 및 질문 카테고리에서 75%의 승률을 기록했습니다. 💖
- 화자의 말하는 스타일(운율)을 잘 적응하고, 음성 복제 시 목소리, 속도, 일시 정지 등을 효과적으로 포착합니다. 🗣️
- GPT-4o mini TTS 및 ElevenLabs V2 다국어 모델과 비교하여 감정 측정(ESD)에서 더 낮은 오류율(1.49)을 보이며 경쟁력 있는 성능을 입증했습니다. 📊
- 배경 오디오나 음악까지 캡처할 수 있어, 음성 복제 시 참조 클립 선택에 주의가 필요하지만, 다른 모델이 놓칠 수 있는 많은 것을 포착합니다. 🎶
- 음성 복제 시 화자의 특정 액센트(예: 인도 액센트)를 완벽하게 포착하지 못하고 다른 액센트(예: 말레이시아 액센트)처럼 들릴 수 있다는 관찰이 있었습니다. 🤔
- Hugging Face에서 데모를 통해 쉽게 사용해 볼 수 있으며, 연간 사용자 10만 명 미만인 경우 상업적 사용이 가능한 제한적 오픈 라이선스를 제공합니다. 🌐
- 고품질의 감성적인 TTS 및 음성 복제 기능을 제공하며, 강력히 사용을 권장하는 모델입니다. 👍