- LM 시스템 평가의 핵심은 정확성, 관련성, 이행성, 안정성 네 가지 주요 지표를 균형 있게 고려하는 것 ⚖️.
- RAG 시스템 평가는 벡터 DB 검색 결과와 LM 자체 평가를 비교하여 데이터 누락 여부를 확인하는 방식으로 이루어진다 🔍.
- 테스트 셋을 활용한 최종 답변 평가는 필수적이지만, 테스트 셋 자체를 구축하는 데 LM을 활용하는 역설적인 상황이 발생한다 🔄.
- 품질 개선을 위한 다양한 시도 중, 레그 체인이나 임베딩 모델 변경은 부담이 크므로 비임베딩 요소 강화가 선호되지만 효과는 미미할 수 있다 🤏.
- LM 시스템 개발 시 평가 방법론 구축은 필수적이며, 소프트웨어 개발의 테스트 케이스와 유사하지만, LM은 테스트 케이스 구축 자체가 어렵다는 차이점이 존재한다 🤔.