여러분 AI Agent 만들어서 쓰고 계신가요? 근데 한 번쯤 이런 생각 해보셨을 거예요.
“이거… 진짜 잘 되고 있는 건가?”
“프롬프트 바꾸면 좋아진 걸까, 나빠진 걸까?”
“모델만 바꾸면 성능이 오를까?”
개인 프로젝트는 감으로도 넘어갈 수 있지만, 업무에서 제대로 활용하려면 평가를 꼭 해보시는 걸 추천드립니다. 이번 영상에서는 n8n Evaluation 기능으로 내 AI 워크플로우를 숫자로 측정하고, 데이터 기반으로 최적화하는 방법을 보여드립니다.
[타임라인]
0:00 인트로
0:45 AI 에이전트 평가 방법론
3:36 메일 분류 시스템 실습
4:12 AI 에이전트 평가의 3단계 프로세스
4:40 n8n 데이터 테이블 활용 추천
7:43 n8n 평가 노드 설정 가이드
12:20 정량적 지표를 통한 성능 개선
13:57 RAG 시스템 평가 실습
22:26 아웃트로
––––––––––––––––––––––––––––––
[영상 상세 가이드] https://github.com/citizendev9c/yt-as...