눈으로 보고, 귀로 듣고, 입으로 말하는 AI – 통합 멀티모달 언어모델 Kanana-o 개발기
- 카카오의 통합 멀티모달 AI 모델 'Kanana-o' 개발: 텍스트, 이미지, 오디오를 모두 이해하고 생성하는 AI를 목표로, Kanana-V(시각), Kanana-A(청각), Kanana-O(통합) 세 가지 모델을 개발했습니다. 🧠
- Kanana-V: 고해상도 이미지 처리 및 효율적인 시각 정보 전달: 고해상도 이미지를 원본 해상도로 처리하여 전체 맥락을 이해하고, 'C-Abstractor' 기술로 적은 토큰으로도 풍부한 시각 정보를 효율적으로 전달합니다. 🖼️
- Kanana-V 학습 전략 및 성능: 프로젝트 사전 학습, 기본 기능 학습, 지식 증류, 지시 이행 능력 강화의 4단계 학습을 통해 한국어 이미지 이해 및 문서 이해 능력에서 GPT-4를 능가하는 뛰어난 성능을 달성했습니다. 🚀
- Kanana-V 활용 사례: 이미지 상세 묘사, JSON 형식 정보 추출, 로드뷰 상호명 인식, 영수증/메뉴판 정보 추출, 한국 랜드마크 인식, 복잡한 지시 이행 등 다양한 실용적 기능을 제공합니다. 💡
- Kanana-A: LLM 지식 손실 및 음성 생성 속도 문제 해결: LLM과 오디오 토큰 LLM의 역할을 분담하여 LLM의 언어 능력 저하를 방지하고, 음성 생성 속도를 획기적으로 개선했습니다. 🗣️
- Kanana-A: 스트리밍 음성 생성 및 초고효율 오디오 토크나이저 개발: 유튜브처럼 실시간 스트리밍 방식으로 음성을 생성하여 사용자 대기 시간을 단축하고, 자체 개발한 'LMSPT' 토크나이저로 음성 생성 속도를 6배 향상시켰습니다. ⚡
- Kanana-A 활용 사례: 감정을 담은 자연스러운 음성 합성, 다자간 대화 연기, 특정 주제 팟캐스트 생성, 실시간 음성 통역, 사용자의 감정을 이해하는 멀티턴 음성 대화 등 풍부한 청각 경험을 제공합니다. 🎤
- Kanana-O: 효율적인 모델 병합 학습 전략: 이미 학습된 Kanana-V와 Kanana-A 모델을 병합하는 전략을 통해 효율적으로 통합 모델을 구축하고, 통합 데이터를 활용하여 종합적인 사고 및 소통 능력을 학습시켰습니다. 융합 🧩
- Kanana-O 벤치마크 성능 및 활용: 음성 인식, 음성 합성, 감정 인식, 음성/이미지 통합 질의응답 등 다양한 벤치마크에서 우수한 성능을 보였으며, 이미지와 음성을 결합한 복합적인 질의응답 및 상황 인지 기능을 제공합니다. 🌟
- 미래 연구 방향: 한국형 콘텐츠 이해도 심화, 추론 능력 강화, 풀 듀플렉스 음성 대화(사람처럼 자연스러운 상호작용), UI 에이전트 기능, 안전성 및 신뢰성 확보 등 지속적인 발전을 추구합니다. 🔭
- Kanana-V의 공개 및 상업적 활용 가능성: Kanana-V 모델은 허깅 페이스에 공개되어 있으며 상업적 활용이 가능한 라이선스로 배포되어, 새로운 서비스 탄생에 기여할 것으로 기대됩니다. 🌐