- RAG 시스템 평가는 LM으로 생성된 결과물의 품질을 검사하는 과정으로, 단순하지 않으며 다양한 지표를 활용해야 함 🧐
- 주요 평가 지표는 정확성, 관련성, 이행성, 안정성으로, 이들은 거의 모든 평가 지표에서 공통적으로 나타남 🤔
- 정확성은 올바르고 정확한 답변을 제공하는지를 평가하는 것으로, 국제 표준 데이터 셋의 중요성이 부각됨 🌍
- 관련성은 질문의 의도에 부합하는 답변을 제공하는지를 평가하며, 상대적으로 측정하기 용이함 🎯
- 이행성은 사용자의 지시를 잘 따르는지를 평가하는 것으로, 양날의 검과 같은 특성을 지님 (시키지 않은 것은 안 한다는 단점) ⚔️
- 안정성은 위험한 답변을 회피하고 보안 정책을 준수하는지를 평가하며, 기밀 누출 방지 등이 중요함 🛡️
- 보조 지표로는 컨텍스트 유관성, 논리적 일관성, 연결성, 창의성 등이 있으며, 이는 특정 상황이나 목적에 따라 중요도가 달라짐 💡
- 컨텍스트 유관성은 채팅 인터페이스에서 기존 대화 내용을 얼마나 잘 유지하는지를 평가하며, 프롬프트 기술과 관련이 깊음 💬
- 논리적 일관성은 답변 간의 모순이 없는지를 평가하며, 인공지능은 확률 분포로 인해 자기 모순성을 가질 수 있음 🤹
- 연결성은 핵심 내용을 간결하게 전달하는지를 평가하며, 창의성은 뻔하지 않은 답변을 제공하는지를 평가함 🎨
- RAG 시스템 평가는 벡터 DB 검색 결과의 정확성을 검증하고, 최종 답변의 품질을 평가하는 방식으로 진행됨 🔍
- 품질 개선을 위해서는 테스트 셋을 활용하여 기존 결과와 비교하고, 개선 정도를 측정해야 함 📈
- RAG 시스템의 품질 개선 요소로는 레그 체인 변경, 임베딩 모델 변경, 비임베딩 요소 강화, 부분 요소 교체 등이 있음 🛠️
- 레그 체인 변경과 임베딩 모델 변경은 부담이 크므로, 비임베딩 요소 강화(BM25 키워드 검색 병행 등)가 많이 활용됨 ➕
- LM 시스템 개발 시 평가 방법을 간과해서는 안 되며, 테스트 케이스를 통해 지속적인 품질 관리가 필요함 ✅
- LM 테스트는 말뭉치 기반으로 진행되므로, 테스트 케이스를 만드는 것이 어려움 📚