The Yoga of Image Generation with Stable Diffusion & ComfyUI by Raphaël Semeteys
- 요가 자세 이미지 생성의 어려움(촬영, 저작권)을 해결하기 위해 AI 이미지 생성 도입을 시도했습니다. 🧘♀️
- Nvidia 4070 (8GB VRAM) 노트북에서 로컬로 실행하고 오픈 소스 원칙을 준수하는 Stable Diffusion 및 ComfyUI를 선택했습니다. 💻
- Stable Diffusion은 노이즈가 많은 이미지에서 시작하여 텍스트 프롬프트에 따라 잠재 공간(latent space)에서 단계적으로 노이즈를 제거하며 이미지를 생성합니다. ✨
- ComfyUI는 Stable Diffusion 워크플로우를 시각적으로 구축할 수 있는 모듈식 오픈 소스 UI 도구로, 커뮤니티 기반의 사용자 정의 노드를 통해 확장성이 뛰어납니다. 🧩
- 초기 텍스트-이미지(Text-to-Image) 방식은 스타일 제어는 가능했지만, 복잡한 요가 자세의 정확한 제어에는 한계가 있어 자세가 부정확하거나 환각 현상이 발생했습니다. 🚫
- ControlNet은 입력 이미지에서 자세, 깊이, 가장자리와 같은 특정 구조적 정보를 추출하여 이미지 생성 과정에 주입함으로써, 정확한 자세 제어를 가능하게 하는 핵심 솔루션입니다. 🎯
- ComfyUI는 생성된 이미지의 EXIF 메타데이터에 전체 워크플로우 정보를 저장하여, 이미지를 다시 불러오면 동일한 설정을 재현하고 공유할 수 있도록 합니다. 🔄
- Stable Diffusion의 개방성은 모델, 미세 조정된 모델, 임베딩, 도구 및 튜토리얼을 공유하는 활발한 커뮤니티 생태계를 조성하여 기능 확장에 기여합니다. 🌐
- ControlNet을 활용하여 추상적인 스케치나 가상 마네킹 이미지로부터 정확한 요가 자세를 생성함으로써, 실제 사진 없이도 원하는 콘텐츠를 얻는 목표를 달성했습니다. ✅