L
LY Corp
November 15, 20241회
Harness를 이용해 LLM 애플리케이션 평가 자동화하기

간단 소개
Harness를 활용하여 LLM 애플리케이션 평가를 자동화하고, 다양한 지표를 통해 모델 성능을 다각도로 분석하는 방법론을 제시합니다.
AI Summary
- LLM 애플리케이션 테스트의 어려움
- LLM 애플리케이션은 입력값의 미세한 변화에도 결과가 크게 달라지는 변동성이 큰 특징을 가짐
- 프롬프트 체이닝과 같은 기술은 오차 누적을 심화시켜 테스트를 더욱 어렵게 만듦
- 테스트 및 평가 방법 개선
- 프롬프트별 테스트 단위 세분화: LLM 애플리케이션의 변동성을 제어하기 위해 출력에 영향을 주는 항목을 분리하여 개별 프롬프트의 성능을 독립적으로 평가
- 정량 평가 도입: 객관적인 지표로 모델 성능을 평가하여 일관된 기준을 세우고 빠른 결과 도출
- 다양한 평가 지표 활용: 정확한 매칭, 코사인 유사도, METEOR, Rouge-L, GPT 유사도, GPT 정확도 등 다양한 지표를 응답 형태에 따라 조합하여 사용
- Harness를 이용한 테스트 자동화
- Harness는 LLM 평가를 위한 오픈소스 프레임워크로, 다양한 벤치마크와 사용자 정의 작업 지원
- LM 클래스와 YAML 파일을 이용해 모델, 데이터 세트, 프롬프트에 대한 커스텀 인터페이스를 제공하여 LLM을 자유롭게 평가 가능
- 동적 프롬프트 적용: Harness의 Filter 옵션을 사용하여 모델의 응답을 여러 방법으로 후처리하고, 후처리된 응답별로 다른 평가를 수행
- 지표 집계 및 임곗값 설정: 각 지표별 임곗값을 설정하여 점수를 이진화하고, 도메인별 지표 평균 정답값 분포를 기반으로 임곗값을 자동 계산
Next Feeds

재고의 변동을 시계열 데이터로?!
Redis Stream을 활용하여 올리브영의 재고 변동 이력 관리 시스템을 개선하고 성능을 최적화한 사례를 소개합니다.
Redis Stream시계열 데이터재고 관리데이터 처리성능 최적화
2024. 11. 15.
올리브영
소비자를 기만하는 다크패턴의 사례
소비자를 기만하는 다크 패턴의 유형과 사례를 살펴보고, 자동차 산업에서의 잠재적 위험성을 분석합니다.
다크패턴UXUI소비자 기만자동차
2024. 11. 13.
현대자동차

무신사 성장과 함께 거대해져온 600줄짜리 쿠폰 쿼리와의 아름다운 이별
무신사의 복잡한 쿠폰 쿼리를 개선하여 성능 향상 및 유지보수 효율성을 높인 사례를 공유합니다.
쿠폰 시스템쿼리 최적화캐싱트래픽 관리레거시 시스템 개선
2024. 11. 13.
무신사
React Compiler - 우리는 memo를 잊을 수 있을까요?
React Compiler는 자동 메모이제이션을 통해 React 앱의 성능을 향상시키고 개발 생산성을 높이는 혁신적인 도구이다.
React Compiler메모이제이션React Forget성능 최적화자동 반응성
2024. 11. 13.
카카오모빌리티
콘텐츠를 조립하는 결제탭 피드 서버의 코드 아키텍처
카카오페이 결제탭 피드 서버는 SDU, Provider-Consumer 패턴, 3중화 캐싱을 통해 유연하고 안정적인 서비스 제공합니다.
SDUBFFMSAProvider-Consumerkotlin.Result
2024. 11. 12.
카카오페이

CLI로 환경변수 관리하기
프론트엔드 개발 환경에서 환경변수 관리의 어려움을 해결하기 위해 쉘 스크립트에서 CLI 도구로 전환한 경험과 교훈을 공유합니다.
환경변수CLIAWS Secrets Manager쉘 스크립트프론트엔드
2024. 11. 12.
쏘카