- 트랜스포머 모델은 "주의를 다"라는 슬로건으로 등장하여 인간의 언어 이해 및 생성에 혁신을 가져왔습니다. 🤖
- 그러나 트랜스포머의 복잡한 '자기 주의' 메커니즘은 대규모 계산과 메모리 사용을 요구하며, 이는 성능 향상과 함께 문제점으로 떠올립니다. 😥
- MOE(Mixture of Experts) 아키텍쳐는 트랜스포머의 한계점을 해결하기 위해 각 전문가 단위가 필요한 작업만 수행하여 자원 효율성을 높입니다. 🧠
- 구글이 개발한 Switch Transformer는 MOE를 적용하여 트랜스포머 모델의 파라미터를 늘리면서도 계산 부담을 줄이는 성공적인 사례를 보여줍니다. 📈