유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

Why We Built LangSmith for Improving Agent Quality

LangChain

2025. 11. 4.

0

#ai
#devops
  • LangSmith는 에이전트 품질 향상을 위한 플랫폼으로, '바이브 테스트'를 넘어 체계적인 테스트와 평가(eval)의 중요성을 강조합니다. 🧪
  • 초기 LangSmith는 디버깅을 위한 트레이싱, 유닛 테스트와 유사한 오프라인 평가, 프롬프트 반복을 위한 플레이그라운드 및 허브 기능을 제공했습니다. 🛠️
  • 새롭게 출시된 '인사이트' 기능은 프로덕션 환경에서 발생하는 수백만 건의 트레이스에서 사용자 상호작용, 에이전트 동작, 오류 발생 지점 등 흥미로운 트렌드를 자동으로 발견합니다. 📈
  • 인사이트는 제품 사용 패턴 분석, 에이전트 오류 모드 식별 및 분류와 같은 구체적인 활용 사례를 제공하며, 사용자 정의가 가능합니다. 🔍
  • 인사이트 알고리즘은 Anthropic의 'quo' 논문에서 영감을 받아, 다양한 에이전트 페이로드(챗봇 외)에서 일반적인 패턴을 찾아내도록 발전했습니다. 🧠
  • 인사이트의 핵심 과제는 챗봇을 넘어선 다양한 형태의 에이전트 페이로드에서 통찰력을 일반화하여 생성하는 것입니다. 🧩
  • 인사이트는 '알려지지 않은 미지'를 발견하는 데 중점을 두며, 이를 통해 새로운 평가(eval) 지표를 설정하는 전 단계 역할을 합니다. 💡
  • '스레드'는 사용자 정의 가능한 관련 트레이스 시퀀스(예: 대화, 사용자 세션)로, 에이전트와 사용자 간의 전체적인 상호작용 맥락을 제공합니다. 🧵
  • '스레드 평가(Thread Evals)'는 단일 턴 평가와 달리, 전체 스레드에 걸친 사용자 감정, 도구 호출 궤적 등 종단 간 사용자 상호작용을 실시간으로 측정합니다. 💬
  • 온라인 스레드 평가는 프로덕션 데이터에 실시간으로 적용되어, 에이전트 변경 사항이 실제 사용자 경험에 미치는 영향을 즉시 파악할 수 있게 합니다. 🚀
  • 스레드를 활용하여 사용자 상호작용 비용 분석, 시간 경과에 따른 평가 데이터 시각화, 부정적인 사용자 피드백에 대한 자동화된 검토 등 다양한 분석 및 액션을 수행할 수 있습니다. 📊
  • 오프라인 평가가 '알려진 예시'에 대한 테스트라면, 온라인 스레드 평가는 '실제 프로덕션 데이터'를 기반으로 에이전트의 실제 성능을 측정하는 보완적인 역할을 합니다. 🔄
  • 평가(eval)는 죽지 않았으며, AB 테스트와 온라인 테스트만으로는 모든 사용자 상호작용을 커버할 수 없으므로, 오프라인 평가와 온라인 평가는 상호 보완적입니다. ✅

Recommanded Videos