- 비전 트랜스포머는 이미지를 패치 단위로 자르고, 각 패치에 위치 인코딩을 추가하여 학습합니다. 🧩
- 비전 트랜스포머는 대규모 데이터셋에서 최상의 성능을 보이며, CNN 모델과 비교하여 많은 데이터를 학습했을 때 우수한 결과를 냅니다. 📈
- 비전 트랜스포머는 패치 위치를 나타내는 위치 인코딩을 학습하고, 위치 정보를 활용하여 이미지 간의 관계를 파악합니다. 🗺️
- 각 헤드가 자기 주의 메커니즘을 통해 다양한 패치 간의 관계를 학습하며, 이는 다양한 위치 및 정보를 종합적으로 처리합니다. 🧠