Dia 1.6B TTS for NotebookLM Podcasts
- 두 명의 학부생이 NotebookLM과 유사한 TTS 시스템을 개발하여 주목을 받고 있으며, 그 품질이 11 Labs나 OpenAI와 견줄 만하다고 평가받고 있습니다. 🧑🎓✨
- Nari Labs라는 이름으로 활동하는 Toby와 Jay는 16억 개의 파라미터를 가진 'Dier'라는 TTS 시스템을 만들었습니다. 🔬
- Dier는 Soundstorm과 Parakeet 모델에서 영감을 받았으며, TPU Research Cloud Grants를 통해 컴퓨팅 자원을 확보했습니다. ☁️
- 모델은 Jax로 작성되었지만, 대부분의 사용자를 위해 PyTorch로 변환되었습니다. 🔄
- Hugging Face Spaces에서 텍스트 합성 또는 오디오 음성 복제를 통해 모델을 시험해 볼 수 있습니다. 🗣️
- 모델을 Colab에서 실행하여 NotebookLM 스타일의 팟캐스트 경험을 재현할 수 있습니다. 💻
- 현재는 화자 1과 화자 2의 음성을 제어하기 어렵지만, S1과 S2 태그를 사용하여 다른 화자를 지정할 수 있습니다. 🎭
- 긴 텍스트를 입력하면 오디오 속도가 빨라지는 경향이 있으며, 이를 해결하기 위해 텍스트를 여러 세그먼트로 분할하는 방법이 제시되었습니다. ✂️
- Librosa나 Rubber Band 라이브러리를 사용하여 오디오 속도를 늦출 수 있지만, 완벽하지는 않습니다. 🐌
- YouTube 비디오나 학술 논문을 입력하여 팟캐스트를 만들 수 있으며, 이는 NotebookLM 스타일의 활용과 유사합니다. 🎬
- 모델은 실시간 사용에는 적합하지 않지만, NotebookLM 팟캐스트 생성과 같은 작업에는 좋은 품질을 제공합니다. 🎧
- 향후 MLX 오디오 라이브러리에 통합될 예정이며, 이를 통해 GPU 없이도 Mac에서 로컬로 실행할 수 있게 될 것입니다. 🍎