데브허브 | DEVHUB | Gemini TTS - Native Audio OutGemini TTS - Native Audio Out
- Google I/O에서 Gemini 2.5 TTS 모델의 'Native Audio Out' 기능이 프리뷰로 출시되었으며, 이전 Gemini 2.0 버전의 한계를 개선했습니다. 🚀
- 단일 화자 및 다중 화자(팟캐스트 재현, 대화 중 끼어들기, 웃음 등) 음성 합성을 지원하여 다양한 콘텐츠 제작이 가능합니다. 🗣️
- 프롬프트를 통해 웃음, 속삭임, 단호함 등 특정 감정이나 방식으로 말하도록 지시할 수 있어 음성 스타일을 세밀하게 제어할 수 있습니다. 🎭
- Google AI Studio UI 또는 Python SDK(Google GenAI)를 통해 쉽게 접근하고 사용할 수 있어 개발자 친화적입니다. 💻
- 2.5 Flash 및 2.5 Pro 두 가지 프리뷰 모델이 제공되며, Flash 모델이 음성 품질 면에서 좋은 평가를 받고 있습니다. ✨
- 코드 구현 시
response_modality를 audio로 설정하고 speech_config, voice_config를 통해 음성 및 스타일을 구성합니다. ⚙️
- '흥분해서 말해:', '부드럽게 속삭여:'와 같이 프롬프트 앞에 스타일 지시어를 추가하여 음성 톤을 효과적으로 조절할 수 있습니다. 💬
- 다중 화자 설정 시
multi_speaker_voice_config를 사용하여 각 화자의 음성 세부 정보를 정의함으로써 자연스러운 대화 흐름을 구현합니다. 🎙️
- 음성 스타일이 때때로 과장되게 들릴 수 있으며, 프리뷰 단계라 가격 정보는 아직 불확실하다는 점을 고려해야 합니다. ❓
- 클라우드 기반 서비스이므로 실시간 애플리케이션에는 로컬에서 실행 가능한 오픈 모델보다 속도 면에서 불리할 수 있습니다. ☁️