데브허브 | DEVHUB | AI 엔지니어링 - 10. 퍼블렉시티와 AI로 모델 평가하기AI 엔지니어링 - 10. 퍼블렉시티와 AI로 모델 평가하기
- 모델 평가는 토큰의 확률 분포를 기반으로 하며, 곱셈으로 인한 소수점 문제를 해결하기 위해 자연로그를 취한 로그 프로브(Log-Prob)를 사용해 덧셈으로 변환합니다. ➕
- 교차 엔트로피(Cross-Entropy)는 로그 프로브의 합산으로, 모델이 실제 토큰을 얼마나 잘 예측하는지 나타내는 지표입니다. 📊
- 퍼플렉시티(Perplexity, PPL)는 교차 엔트로피를 정규화한 값으로, 1에 가까울수록 완벽한 예측을, 100에 가까울수록 무작위 예측을 의미하며, 로그 밑값(네이츠/비트)에 관계없이 동일한 값을 제공하여 모델 비교에 용이합니다. 🎯
- PPL은 로짓 기반으로 NLP 보정이 없어 연구자들이 선호하는 평가 지표입니다. 🔬
- LLM(대규모 언어 모델)의 본질은 '말짓기' 시스템이며, 할루시네이션(환각)은 통계적 확률을 유지하려는 모델의 자연스러운 특성입니다. 🗣️
- LLM은 정확한 수치 계산 능력이 없으므로, 1~5점과 같은 정량적 평가를 요구하면 할루시네이션으로 이어질 수 있습니다. 🔢❌
- LLM을 평가자로 사용할 때는 점수 부여 대신 '판정' 또는 '분류'(예: 참/거짓, 예/아니오)에 특화시켜야 하며, 토너먼트 방식처럼 분류 결과를 합산하여 최종 점수를 도출하는 것이 더 정확합니다. ✅
- 평가의 문제점으로는 '기준점 이동'이 있는데, LM의 출력과 평가 모델의 결과가 매번 달라지므로, 일관된 평가를 위해 출력 안정화 및 평가 결과 합산 기준(예: 최빈값 제외 평균)을 마련해야 합니다. 🔄
- 평가용 LM과 대상 LM이 도메인에 대한 이해도(퍼플렉시티로 측정)가 다르면 평가 결과가 왜곡될 수 있으므로, 두 모델의 도메인 퍼플렉시티가 유사해야 합니다. 🧠
- LM 평가 점수가 높다고 해서 반드시 사람의 가치에 부합하는 것은 아니며, 벤치마크 튜닝은 높은 점수를 얻지만 실제 사용성이 떨어지는 AI를 만들 수 있는 허점입니다. 📉