데브허브 | DEVHUB | Better than MoE- Grouped Experts!Better than MoE- Grouped Experts!
- 화웨이가 자체 NPU(Ascend)에서 훈련된 새로운 LLM 아키텍처인 'Mixture of Grouped Experts (MoGE)'를 발표했습니다. 🚀
- MoGE는 기존 Mixture of Experts (MoE)의 고질적인 문제인 전문가 활성화 불균형을 해결하여 시스템 부하 분산을 최적화합니다. ⚖️
- MoGE는 전문가들을 동일한 그룹으로 나누고, 각 토큰에 대해 모든 그룹에서 전문가를 선택함으로써 컴퓨팅 부하를 균등하게 분배합니다. 🧩
- 이 아키텍처는 훈련 및 추론 시 처리량(throughput)을 크게 향상시키고, 불균형 점수를 거의 0에 가깝게 만듭니다. ⚡
- MoGE 기반의 Pangu Proe 모델은 720억 개의 총 파라미터 중 160억 개의 활성 파라미터를 가지며, 유사 규모의 다른 SOTA 밀집 모델들을 능가하는 성능을 보여줍니다. 🏆
- Pangu Proe는 MMLU, HellaSwag, HumanEval, GSM8K 등 다양한 벤치마크에서 우수한 성적을 기록하며, 특히 추론 효율성이 뛰어납니다. 🧠
- 화웨이는 모델 훈련뿐만 아니라 Ascend NPU에 최적화된 고효율 추론 시스템도 제공하여, LLM 배포 및 서비스에 강점을 보입니다. 💡
- 화웨이는 자체 칩과 혁신적인 아키텍처를 통해 LLM 훈련 및 서비스 분야에서 엔비디아의 독점적 지위에 도전하는 새로운 주요 플레이어로 부상하고 있습니다. 🌍