유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

국내 최초 오픈소스 가드레일: Kanana-safeguard

kakao tech

2025. 9. 24.

0

#ai
#backend
  • 카카오 클린 플랫폼 팀은 국내 최초 오픈소스 AI 가드레일 모델인 '카나 세이프가드'를 개발했습니다. 🛡️
  • 기존 글로벌 AI 가드레일 모델들은 서구 문화 및 영어 중심 학습으로 한국 서비스에 적용하기 어렵다는 한계가 있었습니다. 🌍
  • 카나 세이프가드 시리즈는 목적에 따라 세이프가드 기본형, 세이프가드 사이렌, 세이프가드 프롬프트 세 가지 모델로 구성됩니다. 🧩
  • 세이프가드 기본형은 일반 유해 리스크 7가지(사용자 발화 및 AI 응답)를, 세이프가드 사이렌은 법적 리스크 4가지(사용자 발화만)를 탐지합니다. 🚨
  • 세이프가드 프롬프트는 프롬프트 인젝션, 제일브레이킹 등 악성 프롬프트 공격 2가지(사용자 발화만)를 탐지하여 LLM의 오작동을 방지합니다. 🎣
  • 기술적 특징으로 단일 토큰 형태의 결과값 반환으로 빠른 유해 발화 판별이 가능하며, 한국어에 특화된 데이터셋을 구축하고 4단계 난이도의 평가 데이터로 정밀하게 성능을 측정했습니다. 🚀
  • 모델 성능 향상을 위해 말투, 유형, 단어 등 모델이 헷갈려 하는 세 가지 요소를 분석하고, 이를 다양하게 증강하여 학습 데이터의 품질을 높였습니다. 🧠
  • 특히 악성 프롬프트 데이터 자동 생성 시 발생하는 토큰 다양성 부족, 생성 거부, 유사 문장 중복, 특정 단어 편향 등의 문제를 해결하기 위해 콘텍스트 다양화, LLM 탈옥 및 사후 필터링, 유사 문장 제거, 편향 방지 데이터셋 추가 등의 노력을 기울였습니다. 🛠️
  • 이러한 노력으로 카나 세이프가드는 한국어에서 글로벌 모델 대비 우수한 성능을 보였으며, 특히 세이프가드 프롬프트는 GPT-4o보다 높은 정밀도를 달성했습니다. ✨
  • 세이프가드 프롬프트는 2.1B 파라미터의 작은 모델 크기와 단일 토큰 생성 방식으로 비용 효율적이며 빠른 추론 속도를 제공합니다. 💰
  • 카나 세이프가드 시리즈는 2024년 5월 허깅 페이스에 오픈소스로 공개되었으며, 최적의 효과를 위해 세 가지 모델을 함께 활용하는 것을 권장합니다. 🤝

Recommanded Videos