The NEW FREE ASR To Transcribe Speech-to-Text in 2025

Nvidia가 6억 개 파라미터의 새로운 ASR 모델 'Parakeet TDT'를 출시했습니다. 🚀
이 모델은 완전히 오픈 소스이며 CC BY 4.0 라이선스로 상업적 사용이 가능합니다. 🆓
구두점, 대문자화, 정확한 타임스탬프를 포함하여 오디오를 자막으로 쉽게 변환할 수 있습니다. ✍️
'Cohere', 'Mistral', '22 billion'과 같은 복잡한 단어와 숫자를 정확히 인식하며, 다양한 억양을 잘 처리하는 높은 정확도를 보여줍니다. ✅
Hugging Face Open ASR 리더보드에서 가장 낮은 단어 오류율(WER)로 1위를 차지하며, Whisper와 같은 기존 모델들을 능가합니다. 🏆
Nvidia GPU에 최적화되어 있으며, Mac에서도 실행 가능성을 모색 중입니다. 💻
오디오 클립을 블로그 게시물이나 기타 텍스트 형식으로 변환하는 등 다양한 활용이 가능합니다. 💡
특히 고품질 영어 전사에 특화되어 있습니다. 🇬🇧

로딩 중...