- 라마 모델은 메타에서 공개한 디코더 전용 LLM이며, 오픈소스 LLM 시장에 크게 기여했다. 🚀
- 라마 2는 70억, 130억, 700억 개 파라미터 버전을 제공하며, 규모의 법칙이 LLM 시장을 달구는 계기가 되었다. 🔥
- 라마 2는 위치 임베딩 대신 RoPE(Rotary Position Embedding)를 사용하여 어텐션 계산 시 위치 정보를 주입한다. 💫
- RMS 정규화는 평균 계산을 생략하여 계산량을 줄이면서도 준수한 성능을 보인다. ⚡
- 스위글루 활성 함수는 스위치 함수와 글루 함수를 결합한 것으로, 라마 2에서 사용된다. 💡
- 그룹 쿼리 어텐션은 멀티 헤드 어텐션과 멀티 쿼리 어텐션의 절충안이다. 🤝
- 라마 3는 라마 2와 구조가 거의 동일하며, 3.2 버전은 멀티모달 모델이다. 🖼️