Diffusion Transformer 논문의 핵심
- DiT 논문의 핵심은 adaLN과 adaLN-Zero conditioning 방법이며, 여러 conditioning 방식 중 adaLN의 성능이 가장 우수함. 🥇
- adaLN은 Adaptive Layer Normalization의 약자로, LayerNorm의 scale (γ) 과 shift (β) 를 condition 정보를 활용하여 구함. ⚙️
- Class embedding을 MLP에 통과시켜 γ와 β를 생성, 컨디션 정보가 LayerNorm의 γ과 β를 직접 조절하는 방식임. 🧬
- 기본 LayerNorm은 latent를 분석하는 단순한 weight 개념인 반면, adaLN은 컨디션 정보를 반영하는 LayerNorm임. 💡
- adaLN은 single label conditioning에는 좋지만, variable length conditioning (자연어 등) 에는 한계가 있음. 📝
- adaLN-Zero는 adaLN에 attention 직후 scale을 곱하는 구조를 추가한 방식으로, 논문에서 가장 성능이 좋았음. ✨
- 곱해지는 scale을 0으로 초기화하여, 초기에는 attention 출력을 무시하고 residual connection만 남겨 안정적인 학습을 유도함. 🚀
- Zero initialization은 일반적으로 안 좋지만, 여기서는 identity mapping으로 시작하여 안정적인 학습에 기여함. 🎯
- DiT는 time embedding과 conditioning을 사용하며, 컨디셔닝 방법이 중요하고, adaLN과 adaLN-Zero가 핵심적인 컨디셔닝 방법임. 🗝️