AI 엔지니어링 - 5. 최신 LLM 구조 2편
- 초기 위치 임베딩은 훈련 데이터 외부의 긴 길이에 대한 외삽 성능 저하와 상대 거리 학습 비효율성 문제를 겪었습니다. 📉
- **RoPE(Rotary Positional Embedding)**는 토큰 임베딩을 위치에 따라 각도로 회전시켜 상대적 거리에 기반한 유사도 계산을 가능하게 하고 벡터 길이를 보존합니다. 🔄
- 하지만 RoPE도 훈련 범위를 넘어서는 긴 길이에 대해서는 OOD(Out-Of-Distribution) 문제가 발생할 수 있습니다. ⚠️
- **ALiBi(Attention Linear Bias)**는 RoPE에 추가되어 토큰 간 거리에 비례하는 선형 페널티를 어텐션 점수에 적용하여 지역성 편향을 강화하고, 학습 없이 고속으로 작동합니다. 📏
- ALiBi는 긴 컨텍스트에서 의미가 쇠퇴하고 고정된 컨텍스트 길이에 최적화되어 유연성이 부족하다는 한계가 있습니다. ⏳
- 현대 LLM에서 긴 컨텍스트 처리 능력은 모델 성능 평가에 매우 중요하며, 위치 인코딩 기법이 핵심적인 역할을 합니다. 🔑
- **NTK(Dynamic Scaling)**는 문맥 길이에 따라 회전율을 동적으로 조절하여 긴 시퀀스에서도 각도 겹침 없이 위치 인코딩을 가능하게 합니다. ⚙️
- NTK는 매우 긴 문맥에서 회전 각도가 너무 작아져 위치 인코딩의 반영 값이 미미해지는 부작용이 있습니다. 🤏
- **LongRoPE(Selective Scaling)**는 NTK의 한계를 극복하기 위해 단거리에는 고주파(큰 각도), 장거리에는 저주파(작은 각도) 스케일링을 적용하여 모든 길이의 문맥에서 성능을 최적화합니다. 🌊
- **YaRN(Yet another RoPE Normalization)**은 위치 스케일링 후 발생하는 임베딩 불일치를 보정하여 어텐션 스코어를 안정화하며, RoPE 계열의 다양한 기법에 적용 가능합니다. ⚖️
- 현재 LLM 아키텍처에서는 RoPE 및 그 변형 기법들이 위치 인코딩 분야에서 지배적으로 사용되고 있습니다. 👑
데브허브 | DEVHUB | AI 엔지니어링 - 5. 최신 LLM 구조 2편