카
카카오
March 7, 20251회
LLM as a Judge를 활용한 CodeBuddy 성능 평가
간단 소개
LLM as a Judge를 활용한 CodeBuddy 성능 평가 및 활용 경험 공유, 편향 문제와 완화 전략 제시.
AI Summary
- LLM as a Judge 개요
- LLM을 활용하여 응답의 정확성, 일관성 등을 평가하는 방법
- 자동 평가, 주관성 최소화, 일관된 평가 기준 유지
- CodeBuddy에서 PR 기반 코드 리뷰 태스크 성능 평가에 활용
- LLM as a Judge 유형 및 제약 사항
- Pointwise, Pairwise, Listwise 방식 존재
- 자기 편향(Self bias), 장황 편향(Verbosity bias), 위치 편향(Position bias) 등의 제약
- 편향 완화를 위해 다양한 평가자 모델 활용, 반복 평가, 프롬프트 개선 필요
- CodeBuddy에서의 활용 및 실험 결과
- 모델 성능 평가, 코드 개선 태스크에 LLM as a Judge 활용
- Pairwise 방식, Win/Loss/Tie, Explanation, Scoring 등을 적용
- System/User message 구분 방식에 따른 평가 결과 차이 확인
- 위치 편향 검증 실험 결과, 개선 태스크에서 두드러진 위치 편향 확인
Next Feeds
PyTorch 2.x Torch Compile로 딥러닝 성능 올려보기
PyTorch 2.x의 Torch Compile은 딥러닝 성능을 향상시키는 핵심 기술로, 사용법과 주의사항, 실제 적용 경험을 공유합니다.
Torch CompilePyTorch 2.0딥러닝 최적화모델 컴파일추론 속도 향상
2025. 3. 6.
현대자동차

Luft's Road to Elasticity - Part 1: From Shared Nothing to Shared Storage
Luft의 Shared Nothing 아키텍처를 Shared Storage로 전환하여 탄력성을 확보하고 성능을 개선한 경험 공유.
LuftShared NothingShared StorageCompute-Storage SeparationOLAP
2025. 3. 6.
AB180

건강한 SEO로 성장하는 웹사이트 만들기
당근 웹사이트 SEO 강화 프로젝트를 통해 사용자 경험을 개선하고, 웹사이트 노출 및 사용자 유입을 증대시켰습니다.
SEO검색 엔진 최적화사용자 경험웹사이트반응형 디자인
2025. 3. 6.
당근

로그 인리치먼트(Log Enrichment)
로그 인리치먼트 구축 사례를 통해 아키텍처 선택, 메타데이터 관리, 데이터 저장 및 추출 전략을 설명합니다.
로그 인리치먼트마이크로 서비스비동기 방식메타데이터 저장소카프카
2025. 3. 6.
모두싸인

FE News 25년 3월 소식을 전해드립니다!
네이버 FE 엔지니어들이 큐레이션한 25년 3월 FE News 주요 내용 요약 및 FE News 프로젝트 소개.
FE News프레임워크JavaScript렌더링 최적화CRA
2025. 3. 5.
Naver d2

FE News 25년 2월 소식을 전해드립니다!
FE News 25년 2월 소식은 CSS 브라우저 지문 채취, AI 개발 도구, 프론트엔드 개발 지침, Portal 대체 기술을 다룹니다.
CSSAI프론트엔드Portal개발
2025. 3. 5.
Naver d2