Evolution of the Transformer Architecture Used in LLMs (2017–2025) – Full Course
- 트랜스포머 아키텍처는 자연어 처리, 컴퓨터 비전 등 다양한 분야에서 혁신을 일으켰습니다. 🤖
- 이 과정은 트랜스포머 모델의 정확성, 효율성, 확장성을 향상시키는 발전을 단계별로 안내합니다. 🚀
- 2017년 "Attention is All You Need" 논문에서 소개된 트랜스포머 아키텍처가 지난 8년간 크게 발전했습니다. 🕰️
- 이 과정에서는 다양한 위치 인코딩, 어텐션 메커니즘, 효율성 및 성능 향상을 위한 조정 방법을 배웁니다. ⚙️
- 다중 헤드 잠재 어텐션, 레이어 정규화, 드롭아웃 없음 등의 방법을 적용하여 손실을 11% 줄일 수 있었습니다.📉
- 다중 헤드 잠재 어텐션 덕분에 메모리 사용량이 50% 감소하고 추론 속도가 크게 향상되었습니다. 💾⚡
- 절대 위치 인코딩, 상대 위치 인코딩, 회전 위치 인코딩과 같은 다양한 위치 인코딩 방법을 비교합니다. 🧭
- 절대 위치 인코딩에는 학습 가능한 위치 인코딩과 사인파 위치 인코딩의 두 가지 주요 유형이 있습니다. ➕
- 회전 위치 임베딩은 절대 및 상대 위치를 모두 캡처하여 토큰 임베딩을 공간에서 회전시킵니다. 🔄
- 학습률 스케줄러는 훈련 중 학습률 값을 동적으로 변경하여 모델 성능을 향상시킵니다. 📈