카
카카오
August 29, 20251회
Kanana 언어모델에 추론 기능 붙여보기 (feat. Kanana-1.5)

간단 소개
카카오 Kanana 언어모델에 추론 기능을 강화하기 위한 SFT, RL, Staged RL 실험 과정 및 결과를 분석하고, 성능 향상 전략을 제시합니다.
AI Summary
- Supervised Fine-Tune (SFT)
- Reasoning Demonstration Data 활용을 고도화하여 Two-staged SFT를 설계: verify_score와 CV를 활용, 데이터 난이도에 따라 두 단계로 학습.
- Learning Rate (LR) 최적화: 큰 LR을 사용하는 것이 효과적이며, LR은 모델 성능 상한을 결정짓는 핵심 요인.
- Reinforcement Learning (RL)
- DeepMath-103K 데이터셋을 필터링하여 강화학습에 사용, SFT 데이터셋과의 중복 제거 및 난이도 조절.
- PPO와 GRPO 알고리즘 비교 실험: GRPO에서 ϵlow\epsilon_{low}ϵlow를 완화하는 것이 성능 향상에 효과적, PPO가 후반 학습에서 더 안정적.
- Staged RL 및 평가
- 코드 데이터셋만으로 강화학습 시 수학 문제 성능 향상 확인, 이종 도메인 학습이 추론 능력 일반화에 효과적.
- AIME 2024, AIME 2025 평가 결과, Two-staged SFT와 강화학습을 통해 모델 성능 향상.
Next Feeds

토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다
토스 이현정님의 커리어 여정과 토스에서의 B2B, B2C 플랫폼 성공 경험, 그리고 빠른 판단과 실행의 중요성을 강조합니다.
UX/UIB2B 플랫폼B2C 플랫폼사용자 경험빠른 실행
2025. 8. 28.
토스

외부 백엔드 커뮤니티와 함께 한 올리브영의 SpringCamp 2025 참가 후기
올리브영이 SpringCamp 2025에 참가하여 물류 시스템 개선 경험을 공유하고, 개발자들과 소통하며 긍정적인 교류를 이뤘습니다.
SpringCamp물류 시스템KafkaRedis개발 문화
2025. 8. 28.
올리브영

Amazon EKS Add-on, Falco와 함께 Kubernetes 런타임 보안 확보하기
Amazon EKS Add-on과 Falco를 활용하여 Kubernetes 런타임 보안을 확보하고, CloudWatch Logs로 통합 모니터링하는 방법을 제시합니다.
EKSFalcoKubernetes런타임 보안CloudWatch Logs
2025. 8. 28.
AWS

데이터 쌓기만 하면 뭐하나? ‘어떻게 볼지’를 모르는데 – LG전자의 Agentic AI 기반 인사이트 추출 시스템 개발기
LG전자는 Agentic AI 기반 인사이트 추출 시스템을 통해 데이터 접근성을 높이고 마케팅 효율성을 극대화했습니다.
Agentic AI인사이트 추출데이터 드리븐 마케팅Text2SQL자동화
2025. 8. 28.
AWS

토스 피플: 50살, 엔지니어로 살아남는 법
50대 엔지니어 고동일님의 커리어 여정과 토스 합류 이유, 그리고 엔지니어로 살아남는 비결을 담은 인터뷰.
엔지니어커리어토스게임 개발광고 기술
2025. 8. 28.
토스

요기요는 어떻게 AI 챗봇으로 IT/HR 업무를 자동화했을까?
요기요는 사내 AI 챗봇 '조리'를 개발하여 IT/HR 업무를 자동화하고 있으며, 멀티에이전트 구조를 통해 효율성을 높이고 있습니다.
AI 챗봇자동화멀티에이전트RAGSlack
2025. 8. 28.
요기요