- 2024년 3월 구글에서 공개한 디코더 기반 LRM인 Gemma 모델 소개 🚀
- 라마 모델의 경쟁 모델로, 더 큰 사전 크기를 가짐 📚
- 20억/70억 파라미터 버전 제공, 20억 버전은 멀티쿼리 어텐션 사용 🧠
- GPT와 유사한 구조, RMS 정규화 사용, 초기 트랜스포머 모델처럼 은닉 차원 제곱근을 토큰 임베딩에 곱함 ➗
- 젤루 함수를 사용하는 글루 함수(지굴루) 사용 💡
- 로터리 위치 임베딩(RoPE)을 사용하여 위치 정보 주입 🧭
- 70억 파라미터 버전은 일반적인 멀티 헤드 어텐션 사용 ⚙️
- 잼마 2는 그룹 쿼리 어텐션 사용, RMS 정규화 위치 변경 🔄
- 잼마 3는 멀티모달 모델 지원 (이미지+텍스트) 🖼️
- 피드포워드 네트워크 크기 확대로 모델 용량 증가 추세 📈
- 라마 3 모델을 케라스 NLP로 만들어보는 미니 프로젝트 소개 💻