데브허브 | DEVHUB | [Unite Seoul 2025] Multi Modal과 Neural Rendering을 활용한 유니티 및 센티스 활용 꿀팁[Unite Seoul 2025] Multi Modal과 Neural Rendering을 활용한 유니티 및 센티스 활용 꿀팁
- 유니티 개발 워크플로우는 고품질 아트워크 구현에 모델링, 재료, 라이팅 등 복잡한 전문 지식을 요구하며, 일반 개발자에게는 진입 장벽이 높다. 🎨
- 기존 3D 스캐닝은 고가의 장비와 전문 기술을 필요로 하여 접근성이 낮다. 💸
- 뉴럴 렌더링 기술 중 NeRF는 고품질이지만 학습 시간이 길고 연산량이 많아 실시간 활용이 어렵다. 🐢
- 가우시안 스플래팅은 휴대폰 영상/사진으로 스캔 가능하며, NeRF보다 훨씬 빠른 학습 시간과 높은 품질로 실시간 3D 환경 구현에 적합하다. 🚀
- 실제 유니티 오피스 22층을 가우시안 스플래팅으로 스캔하여, 약 1시간 만에 유니티 엔진 내에서 활용 가능한 3D 환경을 생성하는 데 성공했다. 🏢
- 가우시안 스플래팅은 반사 재질 표현에 한계가 있고, 동영상 촬영 시 블러 현상으로 노이즈가 발생할 수 있으나, 정지 이미지 촬영으로 품질 개선이 가능하다. 📸
- 가우시안 스플래팅 뷰어는 생성된 3D 환경의 노이즈 제거, 투명도 조절, 밝기 조절 등 다양한 후처리 기능을 제공한다. ✨
- 기존 유니티 디지털 휴먼 데모는 텍스트 입력 기반의 제한적인 상호작용과 정적인 환경으로 개선의 여지가 있었다. 💬
- 유니티 센티스는 AI 모델을 학습시키는 툴이 아니라, 파이토치, 텐서플로우 등에서 학습된 ONNX 포맷 모델을 유니티 엔진에서 추론(inference)할 수 있게 돕는 엔진이다. 🧠
- 멀티모달 AI는 이미지, 텍스트, 음성 등 여러 형태의 데이터를 동시에 처리하여 더 풍부한 AI 상호작용을 가능하게 한다. 🗣️🖼️
- CLIP 모델은 텍스트와 이미지를 동일한 벡터 공간에 임베딩하여, 두 데이터 간의 유사도를 계산하는 멀티모달 AI의 초기 사례이다. 🔗
- 텍스트는 바이트 페어 인코딩(BPE)을 통해 토큰화되고 숫자로 변환되며, 이미지는 텐서로 변환되어 AI 모델에 입력된다. 🔢
- 이러한 기술들을 통합하여, 가우시안 스플래팅으로 생성된 동적인 3D 환경에서 멀티모달 센티스를 활용한 디지털 휴먼과의 자연스러운 상호작용 시스템 구축이 가능하다. 💡