Llama 4 출시, 이전 모델 대비 기술적 세부 사항이 인상적이었지만, 기술 보고서가 부족하여 아쉬움 😞
모델 이름 변경(예: Scout, Maverick)으로 인해 파라미터 크기 직관적으로 파악하기 어려워짐. 활성 파라미터와 총 파라미터 간 차이 존재 헷갈림 😕
Mixture of Experts (MoE)는 모델의 효율성과 품질 간 균형을 맞추는 기술. 뇌의 작동 방식처럼 신경망 내의 중복성을 활용하여 쿼리마다 다른 부분을 활성화/비활성화하여 효율성을 높임. 전문가라는 이름이 거창하게 느껴질 수 있지만, 실제로는 신경망의 중복성을 관리하는 방법임 🤔
MoE에서 더 많은 전문가를 선택할 수 있다는 것은 모델의 품질이 향상됨을 의미하지만, 동시에 모델 크기도 커짐. 전문가 수를 줄이면 품질은 낮아지지만 파라미터 수가 줄어들어 효율성이 높아짐. 추론 시 활성 파라미터가 적으면 계산량이 줄어들어 효율적임. GPU 메모리 요구 사항이 여전히 높다는 점이 아쉬움 😥
1000만 토큰 컨텍스트 윈도우는 인상적이지만, 18TB의 RAM이 필요하여 비용 효율성이 떨어짐. RAG 기술을 완전히 대체하기에는 아직 어려움이 있음. 컨텍스트 윈도우가 커지면 RAG가 쉬워지지만, 여전히 비용 문제가 존재함 😫
컨텍스트 길이에 따른 메모리 요구량에 대한 의문이 제기됨. KV 캐시를 사용할 경우, int4 양자화 버전에서도 17TB의 메모리가 필요함. 이는 Transformer 모델의 quadratic attention 특성 때문임 🤯
Llama 4의 1000만 컨텍스트 윈도우는 인상적이지만, 비용, 속도, 메모리 요구 사항 등을 고려할 때 RAG를 완전히 대체하기는 어려움. RAG를 더 쉽게 만들 수 있지만, 여전히 해결해야 할 과제가 많음 🧐