[딥러닝 프로젝트] 11강. 트랜스포머 인코더 모델 | ③BERT 후속 모델로 영화 리뷰 텍스트의 감성 분류하기
- 로보타(RoBERTa)는 BERT 모델의 후속 모델로, 더 많은 데이터와 동적 마스킹을 사용하여 훈련되었습니다. 📚
- 로보타는 다음 문장 예측(NSP) 작업을 제거하고 마스크 언어 모델링(MLM)에 집중하여 성능을 향상시켰습니다. 🚀
- 로보타는 바이트 수준 BPE 토크나이저를 사용하여 어휘 사전을 구성하고, BERT와 유사한 모델 구조를 가집니다. 🔤
- 로보타는 베이스 모델과 라지 모델 두 가지 버전이 있으며, 인코더 블록의 반복 횟수와 은닉 차원 크기에서 차이가 있습니다. 🔢
- 디스틸버트(DistilBERT)는 지식 증류를 통해 BERT보다 경량화된 모델로, 더 빠르고 작은 크기를 가지면서도 높은 정확도를 유지합니다. 💡
- 디스틸버트는 티처 모델(BERT)의 지식을 스튜던트 모델(디스틸버트)에게 전달하는 방식으로 훈련됩니다. 👨🏫
- 디스틸버트는 트랜스포머 인코더 블록의 수를 줄여 모델 크기를 줄였으며, 케라스 NLP 또는 허깅페이스 Transformers 라이브러리를 통해 사용할 수 있습니다. 💻
- 허깅페이스는 다양한 작업에 맞게 미세 조정된 모델을 제공하며, 이밸류에이트 패키지를 사용하여 모델 성능을 평가할 수 있습니다. 📊
- 트랜스포머 모델을 만들 때, 입력과 출력의 차원이 같기 때문에 트랜스포머 인코더를 여러 번 반복해도 문제가 없습니다. ♻️
- 로보타 베이스 모델을 IMDb 영화 리뷰 데이터셋에 미세 조정하면 높은 정확도를 얻을 수 있습니다. 🎬