- DiT(Diffusion Transformer)는 Diffusion 모델에서 딥러닝 모델의 역할을 수행하며, 데이터와 노이즈 혼합에서 노이즈를 제거하는 데 사용됩니다. 🤖
- Diffusion 모델은 Gaussian 확률 분포와 딥러닝 모델을 결합하여 원하는 데이터를 생성하는 생성 모델의 한 종류입니다. 🎨
- Diffusion 모델의 생성 방식은 순차적으로 노이즈를 제거하는 방식으로, 딥러닝 모델은 데이터와 노이즈 혼합에서 노이즈만 걷어내는 역할을 합니다. ⚙️
- 원래 Transformer는 Encoder-Decoder 구조를 가지며, Decoder 출력으로 autoregressive하게 단어를 붙여나가는 방식으로 생성합니다. 📝
- DiT의 입력과 출력은 동일한 shape을 가지며, [batch, 데이터 shape] 형태입니다. 📤
- DiT는 언어 모델 Transformer와 달리 출력 전체를 사용하며, causal masking이 필요하지 않습니다. 🚫
- 언어 모델 Transformer는 autoregressive 생성을 위해 causal masking을 사용하지만, DiT는 입력에서 노이즈를 제거하는 데 집중하므로 masking이 불필요합니다. 🎯
- DiT는 기본 Transformer와 비교했을 때 원래 Transformer에 있던 causal masking이 없어지는 차이점이 있습니다. ➖
- 다음 영상에서는 DiT에서만 존재하는 요소인 time embedding과 conditioning에 대해 설명할 예정입니다. ➡️