데브허브 | DEVHUB | AI 엔지니어링 - 9. LLM 모델 평가의 개요와 기준AI 엔지니어링 - 9. LLM 모델 평가의 개요와 기준
- AI 개발에서 모델 평가는 핵심이며, 좋은 모델은 에이전트 개발 노력을 크게 줄여줍니다. 📊
- 모델 선택 시 허깅 페이스 같은 일반 벤치마크와 도메인 특화 모델용 평가표를 참고하는 것이 유용합니다. 📚
- 평가 지표의 수학적 이해보다는 각 지표가 무엇을 의미하는지 파악하는 것이 중요합니다. 🧠
- LLM의 정확성은 원본 데이터의 '재현율'을 의미하며, 학습된 대로 답변하는 능력을 말합니다. 🎯
- 자연어의 특성상 의미적 유사도를 평가하기 위해 사람, 다른 LLM, 임베딩 유사도 등 다양한 방법을 활용해야 합니다. 💬
- 모델의 '정확성'이 곧 '유용성'을 의미하지 않으므로, 우리에게 유용한 기능이 무엇인지 정의하는 것이 가장 어렵고 중요합니다. 🛠️
- 학습 적합성은 Cross-Entropy와 PPL(Perplexity)로 측정되며, PPL은 모델이 평가 데이터를 얼마나 잘 예측하는지 표준화된 숫자로 보여줍니다. 📉
- PPL은 특정 도메인 데이터에 대한 모델의 이해도를 평가하는 데 결정적이며, 아무리 좋은 범용 모델이라도 우리 도메인 PPL이 높으면 쓸모가 없습니다. 💡
- 기능 정확성 평가 시 LLM의 출력 다양성을 보정해야 하며, 정규화된 출력 기능이나 후처리 알고리즘을 활용할 수 있습니다. ✅
- PPL은 트랜스포머 구조 내에서 평가되어 NLP의 모호성이 없어 연구자들이 선호하는 객관적인 지표입니다. 🔬