카
카카오
May 1, 20251회
이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기

간단 소개
카카오의 멀티모달 언어모델 Kanana-o는 텍스트, 이미지, 음성을 통합 이해하고 생성하며, 모델 병합을 통해 효율성을 높였습니다.
AI Summary
- Kanana-o 소개
- 카카오에서 개발한 멀티모달 언어모델로, 텍스트, 이미지, 오디오를 통합적으로 이해하고 생성 가능
- **Kanana-v(Vision)**와 **Kanana-a(Audio)**를 모델 병합하여 학습 효율 극대화
- 한국어 및 영어 벤치마크에서 글로벌 경쟁력 입증
- Kanana-a 상세 설명
- 오디오 인코딩 모듈을 통해 음성 신호를 LLM이 처리 가능한 형태로 변환
- 오디오 디코딩 모듈을 통해 LLM의 응답을 실제 음성 파형으로 복원
- 다양한 데이터셋(ASR, TTS, SpeechQA 등)을 활용하여 학습
- Kanana-o 학습 전략 및 성능
- 모델 병합(Model Merging) 기법을 통해 학습 시간 단축 및 유연성 확보
- 이미지, 오디오, 텍스트의 다양한 조합을 처리할 수 있도록 Omni-modal 학습 데이터셋 구축
- 한국어 음성 이해 및 생성 성능에서 글로벌 모델들을 압도, 영어에서도 경쟁력 있는 성능 기록
Next Feeds

10년 된 레거시를 현대화하다 - Part.3: 대고객 서비스로의 확장
올리브영이 DDD 기반 매장 도메인을 활용하여 온/오프라인 고객 서비스를 확장하고, API 설계 및 인프라 구축, 모니터링 전략을 통해 서비스 안정성을 확보한 사례입니다.
DDD매장 도메인HTTP APIAWS ECSDatadog
2025. 4. 30.
올리브영

더 잘 팔고, 더 잘 살 수 있는 방법
가격 혜택 커뮤니케이션 개선을 통해 고객, 제휴점, 비즈니스 모두에게 긍정적인 결과를 창출한 UX 개선 사례.
가격혜택UXA/B 테스트구매 전환율
2025. 4. 30.
여기어때

산뜻하게 봄맞이 청소 어때요?
여기어때는 봄맞이 대청소를 통해 업무 공간을 리프레시하고, 구성원들의 동료애를 증진시키며 긍정적인 업무 환경을 조성하고자 했습니다.
봄맞이 대청소조직문화업무 환경구성원리프레시
2025. 4. 30.
여기어때

생성과 검색의 하모니: RAG로 더 똑똑한 AI 만들기
RAG는 LLM의 한계를 극복하고 신뢰성 있는 AI를 만들기 위한 핵심 기술이며, 다양한 아키텍처와 고려 사항이 존재합니다.
RAGLLM검색생성벡터DB
2025. 4. 30.
교보dts

‘딜라이터’의 입사 첫 날은 이렇게 시작됩니다.
딜라이트룸 인턴의 입사 첫날 경험을 통해 회사의 문화, 복지, 유저 중심 가치를 소개하고, 적극적인 채용 홍보를 진행합니다.
딜라이트룸입사온보딩복지유저
2025. 4. 30.
딜라이트룸

70 : 1 경쟁을 뚫은 딜라이트룸 막내 인턴의 우당탕탕 입사기
70:1 경쟁률을 뚫고 딜라이트룸 인턴이 된 지원자의 입사 과정을 담은 이야기입니다. 딜라이트룸 지원 계기, 채용 과정, 합격 후 소감을 간략하게 요약했습니다.
딜라이트룸인턴채용콘텐츠 마케팅컬쳐덱
2025. 4. 30.
딜라이트룸