- 트랜스포머 모델은 인코더, 디코더 구조로 구성되며, 각각 분리 사용 가능하다. 🏗️
- 디코더 기반 모델이 대규모 언어 모델의 주류를 이루고 있다. 🚀
- 버트는 마스크드 언어 모델링과 다음 문장 예측 방식으로 훈련되었다. 🎭
- 버트 모델은 활성 함수로 젤루(GELU)를 사용한다. 💡
- 케라스 NLP 또는 허깅페이스를 통해 사전 훈련된 버트 모델을 쉽게 로드하고 미세 조정할 수 있다. 🔑
- 허깅페이스의 트레이너 클래스를 사용하여 모델을 훈련하고 평가할 수 있다. 🏋️♀️
- 대규모 언어 모델은 훈련 시 사용한 토크나이저와 항상 함께 사용해야 한다. 🧩