LLM 품질 테스팅 시작하기

간단 소개

LLM 품질 평가 방법론과 한컴의 자체 평가 사례, 그리고 향후 개선 방향에 대한 분석.

AI Summary

LLM 평가 사례 및 문제점
- Hugging Face의 Open LLM Leaderboard는 대표적인 LLM 평가 방식이지만, 편법적인 벤치마킹과 데이터 세트 노후화로 실효성 문제가 발생.
- Open Ko-LLM Leaderboard는 한국어 기반 LLM 평가를 위해 추가되었으며, Season 2로 업그레이드되어 실용적인 능력과 신뢰성 평가에 집중.
- Chatbot Arena Leaderboard는 인간이 직접 챗봇을 테스트하고 선호도를 평가하는 방식으로 인기를 얻고 있지만, 한국어 모델 평가에는 제약이 있음.
자체 품질 평가 설계 및 프로세스
- 자체 sLLM의 특화된 부분에 대한 품질 지표를 활용하여 품질 평가를 진행하고, 평가 프로세스에 LLM을 활용하여 효율성과 신속성을 높임.
- LLM을 통해 질의문을 생성하고, (s)LLM의 API를 사용하여 답변 데이터를 받아 LLM을 통해 평가하는 방식을 사용.
- 평가 결과는 인공지능연구개발팀에 공유하여 sLLM 개발 방향을 설정하고, 한컴어시스턴트와 한컴피디아에 'Judge by LLM' 방식을 적용.
개선점 및 향후 계획
- 프롬프트 작성 과정에서의 어려움과 코딩 품질 지표 평가 시 체감 품질 수준과 Pass 비율의 차이 발생 등의 문제점을 개선해야 함.
- gpt-4o 업데이트에 따른 평가 차이 발생 가능성을 고려하여 세부 버전까지 정해야 하는지 고민이 필요하며, 특정 시나리오 테스트 도입 및 주요 기능별 성능지표 세분화 등의 개선 방향을 계획 중.