- NVIDIA가 Whisper를 능가하는 Parakeetv2 모델을 공개했습니다. 🚀
- Parakeetv2는 6억 개의 파라미터로 구성된 소형 모델이며, 정확한 단어 수준 타임스탬프와 구두점 예측 기능을 제공합니다. ⏱️
- 현재 Parakeetv2는 영어에만 특화되어 있어 다국어 지원이 필요한 경우 Whisper가 더 적합합니다. 🌐
- 상업적 이용이 가능하며, Hugging Face Spaces에서 직접 사용해 볼 수 있습니다. 🤝
- MLX 버전을 통해 Apple Silicon 칩에서 로컬로 실행할 수 있습니다. 💻
- 오디오를 텍스트로 변환하는 데 매우 빠르며, 26분 오디오를 25초 만에 변환했습니다. ⚡
- 화자 식별 기능은 없지만, 외부 화자 식별 모델이나 멀티모달 LLM을 활용할 수 있습니다. 🗣️