Deep Learning Vision Architectures Explained – CNNs from LeNet to Vision Transformers
- CNN 아키텍처의 진화 여정: LeNet부터 Vision Transformer까지, 모델 구조의 '이유'와 설계 철학을 깊이 탐구하는 과정입니다. 🗺️
- 핵심 설계 개념: 스킵 연결, 병목 설계, 파라미터 효율성 등 현대 딥러닝 아키텍처를 형성한 핵심 아이디어를 시각적 비유와 함께 설명합니다. 💡
- LeNet-5의 선구적 역할: 1998년 소개된 최초의 CNN 중 하나로, 픽셀에서 문자까지 계층적 특징 학습의 철학을 구현했습니다. 👶
- 컨볼루션-풀링 패턴 도입: 특징 감지(컨볼루션)와 공간 차원 축소(풀링)를 결합하여 과적합을 줄이고 이동 불변 특징 학습의 기반을 마련했습니다. 🔄
- 학습 가능한 커널: 수동 특징 엔지니어링 대신 백프로파게이션과 경사 하강법을 통해 커널 가중치를 자동으로 최적화하여 시각적 표현 학습을 자동화했습니다. 🧠
- 계층적 특징 학습: 초기 레이어는 단순한 모양을, 중간 레이어는 패턴을, 최종 레이어는 전체 숫자 개념을 학습하며 원시 픽셀에서 의미 있는 문자로 나아가는 과정을 보여줍니다. 📈
- 이동 불변성 확보: 컨볼루션과 풀링을 통해 이미지 내 위치에 관계없이 문자를 인식할 수 있게 하여, 인간 시각 시스템의 패턴 인식 전략을 모방했습니다. 👁️
- 종단 간 학습 및 자동화: 32x32 픽셀 입력부터 숫자 출력까지 백프로파게이션으로 완전히 훈련되어, 수동 특징 추출 및 필터 설정을 제거하고 자동화 철학을 구현했습니다. 🤖
- 실제 세계에 미친 영향: 2001년까지 AT&T ATM 수표 판독 시스템에 배포되어 매일 수천만 건의 수표를 처리하며, 학습된 계층적 특징의 실용적 가치를 입증했습니다. 🏦
- 철학적 기둥의 확인: 다층 컨볼루션을 통한 계층적 추상화, 공유 가중치와 풀링을 통한 불변성 및 견고성 등 LeNet-5의 설계 철학이 실제 결과로 확인되었습니다. 🏛️