- 비전 트랜스포머는 이미지를 패치로 나누어 토큰으로 변환하여, 토큰간의 관계를 이해하는 방식으로 글로벌 컨텍스트를 분석하는 모델입니다.🖼️
- 복잡한 이미지 이해, 분할 또는 이미지-텍스트 연관 작업에 적합하며, 트랜스포머의 핵심은 자기 주의(self-attention) 메커니즘을 사용하여 토큰 간의 관계를 학습하는 것입니다.📍
- 시각 트랜스포머의 핵심은 이미지 패치를 토큰으로 변환하고 각 토큰 간의 관계를 파악하여 이미지 전체의 맥락을 이해하는 것입니다.👀
- 트랜스포머와 마찬가지로, 비전 트랜스포머는 인코더와 디코더를 구성하며, 각 패치에 대한 정보를 파악 후 최종 분류에 활용합니다. 🧠
- 비전 트랜스포머는 높은 이미지 해상도로 작동하며, 대량의 데이터에서 우수한 성능을 보여주는 모델입니다.📈