데브허브 | DEVHUB | Kanana 성과리더 김병학 : Agentic AI를 향한 카나나 모델의 진화 | if(kakao)25 Day2Kanana 성과리더 김병학 : Agentic AI를 향한 카나나 모델의 진화 | if(kakao)25 Day2
- 카카오는 단순히 질문에 답하는 것을 넘어 친구나 동료처럼 다양한 목적을 수행하는 '에이전틱 AI'로의 진화를 목표로 합니다. 🤖
- 에이전틱 AI의 핵심 능력은 다양한 입력 파악(지각), 상황 맥락 및 의도 파악(추론), 결과물 생성 및 작업 수행(행동) 세 가지입니다. 🧠
- 카나 모델은 고성능 LLM을 기반으로 롱 컨텍스트 처리, 멀티모달 추론, 외부 도구 활용 능력을 집중적으로 강화하고 있습니다. 🚀
- 카나 LLM은 1.5 버전에서 고난이도 문제 해결 능력을 높였고, 현재 성능과 효율성을 극대화한 카나 2.0을 개발 중입니다. 📈
- 카나 2.0은 모든 모델에 '멀티헤드 레이턴트 어텐션(MLA)'을, 대규모 모델에는 '믹스 오브 엑스퍼트(MoE)' 방식을 적용하여 추론 효율성과 속도를 획기적으로 개선했습니다. 💡
- 경량 모델 고도화를 위해 8B 모델을 개발 중이며, 향후 1.3B 등 온디바이스 모델로 발전시켜 다양한 규모의 고성능 경량 모델을 구축할 예정입니다. 📱
- 카나 오는 국내 최초로 텍스트, 음성, 이미지를 동시에 이해하고 텍스트와 음성으로 답변하는 통합 멀티모달 언어 모델입니다. 🗣️
- 카나 오는 제주 사투리 등 한국 문화와 장소에 대한 정확한 이해, 감정을 담은 자연스러운 음성 인터페이스, 실시간 스트리밍 대화가 특징입니다. 🇰🇷
- 카나 V(시각)는 사용자 지시 이행 능력을 강화하여 복잡한 수학 문제도 빠르게 풀며, 카나 A(음성)는 감정 표현 및 다화자 팟캐스트 생성 능력을 갖췄습니다. 🧩
- 카나 오는 한국어 관련 벤치마크에서 글로벌 모델 대비 뛰어난 성능을 보이며, 자체 구축한 한국어 특화 데이터셋으로 성능을 강화했습니다. 💪
- 향후 카나 오는 음성 기반 멀티턴 대화 처리, 풀-듀플렉스 음성 대화(끼어들기 가능), 유용하고 안전한 답변을 위한 기술을 강화할 것입니다. 💬
- 카카오는 멀티모달 이해를 넘어 이미지 생성(카나 콜라주)과 동영상 생성(카나 키네마) 능력까지 고도화하여 '애니투애니 옴니모델'을 지향합니다. 🎨
- 카나 키네마는 인물 포즈 제어 모듈을 추가하여 매우 자연스러운 인물 영상을 생성하며, 생성 속도 단축을 위한 최적화 작업도 진행 중입니다. 🎬
- 음성 모델은 한국어, 영어 외에 일본어, 중국어, 베트남어 등 5개 국어를 연내 지원하여 글로벌 소통 역량을 확장할 예정입니다. 🌍
- 카카오는 카나 모델을 기반으로 사용자의 마음을 읽고 알아서 도와주는 에이전틱 AI를 현실화하고, 기술적 토대를 공유하여 국내 AI 생태계 발전에 기여할 것입니다. 🤝