【Diffusion Transformer 시각화로 설명】
- DiT는 디퓨전 모델의 핵심 딥러닝 구성 요소로, 노이즈와 데이터 혼합에서 노이즈만을 정확히 예측하여 제거하는 역할을 수행합니다. 🧩
- 기존 트랜스포머와 달리 DiT는 오토리그레시브한 생성 방식이 아니므로, 언어 모델에서 필수적인 커절 마스킹이 필요 없습니다. 🚫
- DiT는 디퓨전의 순차적 노이즈 제거 과정에서 현재 단계를 모델에 알려주기 위해 '타임 임베딩'을 활용합니다. ⏳
- 생성 결과의 품질과 제어를 위해 '컨디셔닝'이 매우 중요하며, 텍스트 정보 등을 모델에 주입하는 다양한 방법이 존재합니다. 🎨
- 컨디셔닝 방법 중 'AdaLN (Adaptive Layer Normalization)'은 조건 정보를 활용하여 레이어 정규화의 스케일 및 시프트 파라미터를 동적으로 조절합니다. 🔄
- 'AdaLN-Zero'는 AdaLN에 어텐션 출력 후 스케일링을 추가하고, 이 스케일을 0으로 초기화하여 학습 초기 모델이 항등 함수처럼 작동하게 함으로써 성능을 극대화합니다. 🚀