한
한글과컴퓨터
October 29, 20241회
LLM 품질 테스팅 시작하기

간단 소개
LLM 품질 평가 방법론과 한컴의 자체 평가 사례, 그리고 향후 개선 방향에 대한 분석.
AI Summary
- LLM 평가 사례 및 문제점
- Hugging Face의 Open LLM Leaderboard는 대표적인 LLM 평가 방식이지만, 편법적인 벤치마킹과 데이터 세트 노후화로 실효성 문제가 발생.
- Open Ko-LLM Leaderboard는 한국어 기반 LLM 평가를 위해 추가되었으며, Season 2로 업그레이드되어 실용적인 능력과 신뢰성 평가에 집중.
- Chatbot Arena Leaderboard는 인간이 직접 챗봇을 테스트하고 선호도를 평가하는 방식으로 인기를 얻고 있지만, 한국어 모델 평가에는 제약이 있음.
- 자체 품질 평가 설계 및 프로세스
- 자체 sLLM의 특화된 부분에 대한 품질 지표를 활용하여 품질 평가를 진행하고, 평가 프로세스에 LLM을 활용하여 효율성과 신속성을 높임.
- LLM을 통해 질의문을 생성하고, (s)LLM의 API를 사용하여 답변 데이터를 받아 LLM을 통해 평가하는 방식을 사용.
- 평가 결과는 인공지능연구개발팀에 공유하여 sLLM 개발 방향을 설정하고, 한컴어시스턴트와 한컴피디아에 'Judge by LLM' 방식을 적용.
- 개선점 및 향후 계획
- 프롬프트 작성 과정에서의 어려움과 코딩 품질 지표 평가 시 체감 품질 수준과 Pass 비율의 차이 발생 등의 문제점을 개선해야 함.
- gpt-4o 업데이트에 따른 평가 차이 발생 가능성을 고려하여 세부 버전까지 정해야 하는지 고민이 필요하며, 특정 시나리오 테스트 도입 및 주요 기능별 성능지표 세분화 등의 개선 방향을 계획 중.
Next Feeds

A/B테스트 기초(what, why, how)
A/B 테스트의 정의, 필요성, 성공 조건에 대해 설명하고, 데이터 기반 의사결정의 중요성을 강조합니다.
A/B 테스트가설 검증KPI트래픽무작위 배정
2024. 10. 28.
원티드

Playwright와 Jira로 만드는 스마트 장애/변경 알림 및 관리 시스템
Playwright, Jira, Slack 봇을 연동하여 장애/변경 알림 및 관리 시스템을 구축하고 자동화하여 효율성을 높였습니다.
PlaywrightJiraSlack 봇E2E 테스트자동화
2024. 10. 28.
LY Corp

컬리의 새로운 배송 시스템 구축 과정과 우리가 배운점
컬리는 기존 배송 시스템의 한계를 극복하고 효율성과 안정성을 높이기 위해 새로운 배송 시스템을 구축하고 성공적으로 전환했습니다.
배송 시스템컬리스쿼드점진적 전환협업
2024. 10. 25.
컬리
[#2 LLM Tutorial With RAG] 내 컴퓨터에 Chat GPT를 설치하자 With Ollama
Ollama를 사용하여 개인 PC에 Chat GPT를 설치하고, Hugging Face의 LLM 모델과 Modelfile을 통해 LLM을 제어하는 방법을 설명합니다.
OllamaLLMHugging FaceModelfileRAG
2024. 10. 24.
현대자동차

과격하게 레거시를 쇄신하는 세 가지 방법과 그 사례
데마에칸의 레거시 쇄신 사례를 통해 인프라 단절, 코드 재작성, 사양 경량화의 세 가지 과격한 레거시 해소 방법을 소개하고, 지속 가능한 서비스 구축 방향을 제시합니다.
레거시쇄신인프라 단절코드 재작성사양 경량화
2024. 10. 23.
LY Corp

엑셀 업로드 중 발생한 Zip Bomb 에러 파헤치기! 🥊
엑셀 파일 업로드 중 발생한 Zip Bomb 에러의 원인을 분석하고 해결하는 과정을 공유하며, 로그 분석의 중요성을 강조합니다.
Zip Bomb엑셀 파일압축 해제Apache POI로그 분석
2024. 10. 23.
컬리