유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

Beyond the Prompt: Evaluating, Testing, and Securing LLM Applications by Mete Atamel

Devoxx

2025. 10. 2.

0

#ai
#devops
  • 발표자는 Google 개발자 애드버킷 Mete Atamel로, LLM 애플리케이션 평가, 테스트, 보안에 대한 경험과 도구를 공유합니다. 🗣️
  • 대부분의 LLM 사용은 아직 프로토타입 단계이며, 프로덕션 환경으로 전환 시 출력 품질 보장 문제가 발생합니다. 🚀
  • "좋은" LLM 출력은 구조, 정확성, 관련성, 근거성, 비독성, 도구 사용 등 다양한 기준을 포함하며, 이는 애플리케이션마다 다릅니다. ✅
  • Pydantic 스키마와 같은 도구를 사용하여 LLM에서 구조화된 JSON 출력을 얻는 것이 과거보다 훨씬 쉬워졌습니다. 🏗️
  • LLM 출력의 품질을 객관적으로 측정하기 위해 평가 프레임워크와 지표가 필수적입니다. 📏
  • Vertex AI Gen AI Evaluation Service, DeepEval, Ragas, Promptfoo, TruLens 등 다양한 평가 프레임워크가 존재하며, 각기 다른 지표와 초점을 가집니다. 🛠️
  • 평가 지표는 크게 통계/결정론적 지표(Blue, Rouge, Exact Match)와 모델 기반 지표(G-eval, 환각, 관련성)로 나뉩니다. 📊
  • 통계적 지표는 참조 데이터가 필요하며, 언어의 의미론적 뉘앙스를 포착하는 데 한계가 있어 미묘한 변화에도 점수가 크게 달라집니다. 📉
  • "I'm good"과 "I am good" 같은 예시에서 보듯이, 통계적 지표는 의미론적 유사성을 제대로 반영하지 못해 모델 기반 지표의 필요성이 대두됩니다. 🤔
  • 모델 기반 지표는 다른 LLM을 '심판'으로 사용하여 출력을 평가하며, 통계적 지표의 한계를 극복하지만 심판 LLM의 신뢰성에 대한 의문을 제기합니다. ⚖️

Recommanded Videos