xADA: Expressive Audio Driven Animation for MetaHumans | Unreal Fest Orlando 2025
- xADA는 오디오 음성만으로 립싱크, 표정, 머리 움직임을 예측하여 메타휴먼 캐릭터를 애니메이션화하는 기술입니다. 🗣️
- 얼굴 애니메이션의 높은 난이도와 노동 집약적인 과정을 해결하고, 실시간 상호작용이 가능한 애니메이션 생성을 목표로 합니다. 🚀
- UE 5.6 업데이트를 통해 오디오 기반 머리 움직임, 표정 제어 강화, 스트리밍 솔루션 등 새로운 기능이 추가되었습니다. ✨
- 기존 데이터셋의 부족한 다양성과 표현력을 보완하기 위해 에픽 게임즈가 직접 고품질의 방대한 학습 데이터를 구축했습니다. 📚
- 데이터 수집은 발음 균형 문장, 21가지 감정 표현, 대화형 비대본 녹음, 비언어적 소리(기침, 웃음 등)를 포함하여 폭넓은 인간의 음성 및 표정 행동을 포착했습니다. 🎭
- 얼굴 데이터는 배우별 맞춤형 메타휴먼 페이셜 컨트롤 리그를 생성하고, 비디오에서 얼굴 퍼포먼스를 솔브하여 81개의 주요 컨트롤로 표현합니다. 🧑💻
- 혀 움직임은 메타휴먼 애니메이터가 직접 솔브하지 못하므로, IMT22 데이터셋으로 훈련된 음성-혀 모델을 활용하여 합성 혀 애니메이션을 생성합니다. 👅
- 몸 데이터는 모션 캡처 데이터를 메타휴먼 스켈레톤에 리타겟팅하고, 머리 움직임(6D 회전)과 골반의 상대적 이동만 추출하여 애니메이션에 활용합니다. 🚶
- 모델 아키텍처는 모듈식 구조로 얼굴 애니메이션, 머리 움직임, 눈 깜빡임을 각각 담당하며, 'X aer'로 명명되었습니다. 🧠
- 얼굴 애니메이션 모듈은 OpenAI의 Whisper 모델 인코더를 활용한 전이 학습 방식으로 오디오 특징을 추출하고, 이를 기반으로 얼굴 애니메이션 디코더를 훈련하여 적은 데이터로도 강력한 성능을 발휘합니다. 💡
- 화자 ID와 감정 ID를 임베딩하여 생성되는 애니메이션의 말하는 스타일과 감정을 제어할 수 있습니다. 🎛️