유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

[딥러닝 프로젝트] 16강. 트랜스포머 인코더-디코더 모델 | ②T5 모델로 텍스트 요약하기(완강)

한빛미디어

2025. 9. 1.

0

#ai
#backend
  • T5 모델은 텍스트-투-텍스트 프레임워크를 사용하여 다양한 작업을 텍스트로 지시하고 처리할 수 있는 트랜스포머 기반의 인코더-디코더 모델입니다. 📝
  • T5 모델은 바트 모델과 유사한 구조를 가지며, 인코더의 최종 출력이 디코더 블록에 전달됩니다. 🧱
  • T5 모델은 층 정규화 대신 RMS 정규화를 사용하고, 어텐션 블록과 피드포워드 네트워크 앞에 정규화 층이 위치하는 특징이 있습니다. ⚙️
  • T5 모델은 다양한 크기(스몰, 베이스, 라지, 3B, 11B)로 제공되며, 모델 크기에 따라 어텐션 헤드 개수와 피드포워드 네트워크 차원이 달라집니다. 📏
  • T5 모델은 위치 임베딩 대신 상대 위치 임베딩을 사용하여 토큰 간의 거리를 고려하며, 버킷을 사용하여 토큰 사이의 거리를 계산합니다. 🧮
  • T5 1.1 버전은 젤루 함수 대신 지글루 함수를 사용하고, 별도의 임베딩 층을 사용하여 토큰의 확률을 출력합니다. ✨
  • 딥러닝 학습 후, 다양한 작업 수행 및 모델 미세 튜닝을 위해 '핸즈온 LM'과 'Build a Large Language Model (From Scratch)' 책을 추천합니다. 📚
  • '핸즈온 LM'은 LM을 다양한 분야에 적용하는 방법을 다루고, 'Build a Large Language Model (From Scratch)'는 더 낮은 수준에서 모델을 조립하고 미세 튜닝하는 방법을 제공합니다. 🛠️

Recommanded Videos