- AI 에이전트가 시행착오를 통해 스스로 학습하는 방식인 리플렉션 추론 방법론 소개 🤖.
- 리플렉션은 액터, 이밸류에이터, 셀프 리플렉션 세 가지 모듈로 구성됨 🧩.
- 액터는 텍스트 생성, 이밸류에이터는 결과 평가, 셀프 리플렉션은 피드백 생성 담당 🗣️.
- 언어적 피드백을 통해 강화 학습을 구현, 가중치 변경 없이 에이전트 강화 🏋️.
- 리플렉션은 과거 실수로부터 학습하여 미래 행동 개선, 인간의 반성과 유사 🧘.
- 랭체인에서 리플렉션 구현 시 이밸류에이터와 메모리 부분은 간소화됨 🛠️.
- 라가스(Ragas)는 LLM 답변 평가 프레임워크, 데이터베이스는 메모리 확장 방법 💾.
- 리플렉션은 기존 강화 학습의 한계를 극복, 더 정교한 메모리 구조 필요 🧠.