- DiT는 Diffusion 모델에서 사용되는 Transformer로, Autoregressive 모델과 달리 causal masking이 없습니다. 🎭
- DiT는 Encoder-Decoder 구조가 아닌 Encoder-only Transformer 형태를 가집니다. 🏗️
- Time embedding은 Diffusion의 순차적 denoising 과정에서 시간을 나타내는 변수 t를 모델에 입력하여 노이즈 수준을 예측하는 모듈입니다. ⏱️
- Time embedding은 Autoregressive 언어 모델에는 없고 DiT에만 사용됩니다. 💡
- Conditioning은 생성하고 싶은 이미지의 텍스트 정보 등을 모델에 입력하는 방법으로, DiT에서 중요한 역할을 합니다. 🖼️
- Conditioning을 데이터의 일부처럼 사용하는 방식은 성능이 좋지 않아 거의 사용되지 않습니다. 🗑️
- Condition을 key-value로 사용하는 방식은 노이즈-데이터 혼합을 query로, condition을 key-value로 사용하여 가중치를 구하는 방식으로, 비교적 많이 사용됩니다. 🔑
- DiT 논문 저자는 adaLN(adaptive Layer Normalization) 방식이 가장 좋다고 주장합니다. 👍
- adaLN zero 방식도 있으며, adaLN과 adaLN zero에 대한 자세한 내용은 다음 영상에서 다룰 예정입니다. ➡️