자연스럽게 말하는 AI기반 TTS. 간투어가 추가된 팀원들 작품
- AI 기반 TTS의 자연스러움을 극대화하기 위해 '어', '음', '그'와 같은 간투어를 학습시켜 실제 사람과 유사한 발화를 구현했습니다. 🗣️
- 간투어 학습 모델은 기존 모델 대비 간투어를 자연스럽게 인식하고 발음하여 음성의 어색함을 크게 줄였습니다. ✨
- 간투어 생성의 일관성 부족(위치, 빈도)과 데이터셋의 양적/다양성 부족이 현재 문제점으로 파악되었으며, 이를 해결하기 위해 녹음 방식과 데이터 패턴 다양화를 계획 중입니다. 🚧
- 실시간 음성 인식 및 텍스트 변환을 위한 ASR 파이프라인을 구축했으며, VAD(음성 구간 감지) 기술을 활용하여 음성 감지 및 문장 구분을 효율적으로 처리합니다. 🎙️
- ASR 모델로 Faster Whisper를 사용하여 문맥을 고려한 정확도를 높였고, VAD를 통해 문장 단위로 데이터를 전달하여 성능을 최적화했습니다. 🚀
- LLM 파이프라인 개발을 위해 임베딩 모델을 선정했으며, 무료, 상업적 제한 없음, 한국어 성능 우수, 검색 성능 우수 등의 제약 조건을 고려했습니다. 💰
- MTB 벤치마크 프레임워크와 NDCG 지표를 활용하여 임베딩 모델의 검색 성능을 평가하고, 프로젝트 요구사항에 맞는 모델을 필터링했습니다. 📊
- 최종적으로 Multilingual E5 Large Instruct 모델을 선정했는데, 이는 모델 크기가 가장 작으면서도 답변 품질이 우수하고 임베딩 속도가 빨랐기 때문입니다. 🧠
- 4~5개월간의 개발 기간 동안 간투어 데이터셋 직접 구축, 서버 기술, 데이터베이스, LLM 모델 등 다양한 분야를 학습하며 소프트웨어 공학적 접근을 병행했습니다. 🛠️
- 팀원들의 높은 열정과 노력으로 어색했던 초기 결과물에서 자연스러운 발화가 가능한 수준으로 발전했으며, 지속적인 최신 트렌드 분석과 튜닝을 통해 한국어에 최적화된 모델을 만들고 있습니다. 🔥