유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

카카오톡 AI 에이전트를 위한 온디바이스 모델 최적화 및 적용

kakao tech

2025. 9. 24.

0

#ai
#mobile app
  • 카카오톡 AI 에이전트를 위해 개인 정보 보호 및 온디바이스 성능 향상 요구에 맞춰 온디바이스 LLM 모델 개발을 추진했습니다. 🛡️
  • 서버 환경과 달리 온디바이스는 배터리, 발열, 공유 자원 제약으로 인해 작은 모델과 최적화된 솔루션, 그리고 모델 변환 과정이 필수적입니다. 🔋
  • 카나 모델 중 30억 개 미만의 파라미터를 가진 모델들을 양자화를 통해 온디바이스에 적용 가능하다고 판단했습니다. 🤏
  • 온디바이스 프레임워크 중 Apple Silicon에 최적화된 MLX를 선택했으며, Llama.cpp보다 월등히 빠른 속도와 허깅페이스 모델 호환성을 확인했습니다. 🍎
  • 양자화는 연속적인 값을 이산적인 값으로 변환하는 과정으로, 대칭형(Symmetric)과 비대칭형(Asymmetric) 방식이 있으며, 웨이트 그룹 단위로 스케일을 공유하여 모델 크기를 효율적으로 줄입니다. 📉
  • MLX LM의 기본 변환 방식이 비효율적이라고 판단, 허깅페이스 SafeTensors 구조를 분석하여 스케일과 제로 포인트를 재활용하고 다양한 양자화 기법을 지원하는 커스텀 모델 변환 툴을 직접 개발했습니다. 🛠️
  • 개발된 변환 툴을 통해 각 텐서별 양자화 수준을 다르게 하거나 여러 양자화 툴의 결과를 조합하는 믹스드 프리시전 실험이 가능해졌습니다. 🧪
  • 약 20억 개 파라미터 모델 기준으로 8비트 및 4비트 양자화 모델이 벤치마크에서 큰 성능 저하 없이 잘 동작함을 확인했습니다. ✅
  • Core ML은 Apple Neural Engine(ANE) 활용에 필수적이며, 2025년 등장한 Animal 프레임워크는 허깅페이스 모델을 Core ML로 변환하고 ANE를 활용하는 방법을 제공합니다. 🐾
  • LLM의 ANE 활용 시 메모리 복사 문제를 해결하기 위해 WWDC 2024에서 소개된 ML State 기능을 Animal 프레임워크가 사용하여 효율성을 높였습니다. 🧠
  • MLX는 GPU 가속으로 로딩 및 실행 속도가 빠르지만, Core ML(ANE)은 초기 컴파일 시간이 필요하고 실행 속도는 MLX 대비 약 2배 느리지만 CPU/GPU 자원을 절약할 수 있습니다. ⚖️
  • 단발성/빠른 실행에는 MLX, 지속적/반복적 실행에는 Core ML(ANE)이 적합하며, 향후 QAT, LoRA 등 추가 최적화 방법을 적용할 예정입니다. 🚀

Recommanded Videos