- 2012년 AlexNet이 CNN의 시대를 열었으며, CNN 기반 모델이 이미지 분류, 객체 검출, 세그멘테이션 등 다양한 컴퓨터 비전 작업을 수행하는 뛰어난 성능을 보여주었습니다. 👁️
- RNN, LSTM, GRU와 같은 모델이 자연어 처리 분야에서 주도적인 역할을 했지만, 2017년 Transformer가 등장하면서 NLP 분야의 혁명을 일으켰습니다. 💡
- Transformer는 2020년 컴퓨터 비전 분야에 적용되어 Vision Transformer(ViT)를 만들었으며, 이미지 분류, 객체 검출, 세그멘테이션 등에서 CNN보다 더 뛰어난 성능을 보여주었습니다. 🌠
- 데이터 규모와 모델 크기를 늘려갈수록 컴퓨터 비전 분야에서도 성능이 향상되는 규칙 (스케일 법칙)이 적용될 수 있으며, 이로 인해 기존 컴퓨터 비전 모델보다 더 강력한 Foundational Models와 언어와 이미지를 연결하는 Multimodal Models이 등장할 수 있게 되었습니다. 📶