- 중국 상하이 출신의 StepFun AI가 뛰어난 오디오 및 비디오 모델을 Hugging Face에 공개했어요. 🤯
- 텍스트-비디오 모델과 음성 채팅 모델 두 가지가 있으며, 모두 오픈소스로 이용 가능해요. 🎁
- 텍스트-비디오 모델은 300억 개의 파라미터를 가지고 있으며, 초당 최대 200프레임의 비디오를 생성할 수 있어요. 🎬
- 고품질 비디오 생성에는 80GB 이상의 GPU 메모리가 필요하지만, 더 빠른 속도를 위해 Turbo 버전도 제공돼요. 💨
- 음성 채팅 모델은 1300억 개의 파라미터를 가진 다중 모달 모델로, 기존 모델보다 훨씬 우수한 성능을 보여줘요. 🗣️
- StepFun AI는 아직 알려지지 않은 회사이지만, 향후 오디오 및 비디오 분야의 강력한 경쟁자가 될 것으로 예상돼요. ✨
- TTS 모델은 8GB GPU로도 실행 가능해요. 💡