팀노바 응용2단계) AI로 한국어 TTS 개선하기 연구
- 팀노바 응용 2단계 프로젝트는 한국어 TTS의 부자연스러움을 개선하여 실제 사람처럼 자연스러운 대화가 가능한 AI 모델을 만드는 것을 목표로 합니다. 🗣️
- 기존 TTS 서비스(ChatGPT, Gemini)는 자연스럽고 깔끔하지만, 톤이 일정하고 문맥을 고려한 동적인 발화 변화가 부족하다는 한계가 있습니다. 🤖
- Sesami는 문맥에 따라 말투, 속도, 억양이 변하고 자연스러운 멈춤과 필러를 사용하여 대화하는 느낌을 주지만, 한국어를 지원하지 않는 데모 버전입니다. 💬
- 프로젝트의 핵심 아이디어는 문맥에 따라 말투, 억양, 피치, 말 속도, 멈춤 등 음성 표현 요소가 동적으로 변화하는 한국어 음성 AI 모델을 개발하는 것입니다. 💡
- 기술 구현 흐름은 사용자 음성 입력(ASR, 감정 인식) -> LLM (텍스트, 감정, 대화 이력 기반 응답 생성) -> TTS (감정 벡터, 스타일 토큰 활용 자연스러운 음성 생성) -> 음성 출력으로 구성됩니다. ⚙️
- 주요 과제는 실시간 감정 벡터 추출 및 LLM의 문맥/감정 반영 응답 생성, 그리고 전체 파이프라인의 지연 없는 빠른 처리(레이턴시 최적화)입니다. ⏱️
- 감정이 태그된 대화 음성 데이터셋(6000시간)과 일상 대화 음성 데이터셋을 활용하며, 코코로, 코지보이스 등 오픈소스 TTS 모델을 파인튜닝할 계획입니다. 📚
- 최신 연구 동향은 심리학적 접근 및 LLM 기반 감정 정보 추출을 통해 자연스러운 음성 출력을 목표로 활발히 진행되고 있음을 확인했습니다. 🔬
- 이러한 연구 및 시장 조사는 AI 개발자가 시장 트렌드를 파악하고 구직 시 경쟁력을 높이는 데 중요한 역할을 합니다. 📈
- 향후 온디바이스 AI 적용을 통한 속도 최적화 등 지속적인 연구와 개선을 통해 프로젝트를 발전시킬 예정입니다. 🚀
데브허브 | DEVHUB | 팀노바 응용2단계) AI로 한국어 TTS 개선하기 연구