데브허브 | DEVHUB | How Unify Built AI Research Agents at ScaleHow Unify Built AI Research Agents at Scale
- Unify는 AI 에이전트를 활용하여 기업의 시장 진출(Go-to-Market) 전략을 과학적이고 반복 가능하며 확장 가능한 방식으로 전환하여 잠재 고객을 발굴합니다. 🔬
- 고객은 특정 회사나 인물에 대한 질문 목록과 연구 수행 방법에 대한 지침을 제공하며, 에이전트는 이를 바탕으로 인터넷 데이터를 활용해 답변을 생성합니다. 📝
- 초기 에이전트 개발은 React 프레임워크를 기반으로 인터넷 검색, 웹사이트 검색, 웹사이트 스크래핑의 세 가지 핵심 도구를 사용했습니다. 🛠️
- GPT-4o와 같은 강력한 추론 모델이 에이전트의 계획 수립 및 최종 정확도에 큰 영향을 미친다는 것을 발견했으며, 이는 더 상세하고 명확한 계획으로 이어졌습니다. 🧠
- 초기 평가(evals)는 수동 라벨링된 데이터셋을 기반으로 정확도를 측정했으며, Connor 에이전트(GPT-4 기반)가 Sambot Mark1(GPT-4o 기반)보다 우수한 성능을 보였습니다. 📊
- 에이전트 개선을 위해 모델 및 프롬프트 변경, 도구 추가의 두 가지 핵심 영역에 집중했습니다. 🚀
- 에이전트 비용 최적화를 위해 GPT-4에서 GPT-4o로 전환하여 계획 수립 비용을 35센트에서 10센트로 크게 절감하면서도 유사한 성능을 유지했습니다. 💰
- 날짜 형식 오류나 일반적인 검색어 사용과 같은 예상치 못한 엣지 케이스들이 평가 지표만으로는 포착하기 어렵다는 점을 깨달았으며, 여전히 수동 추적 분석이 중요합니다. 🧩
- 모델은 사용 사례에 따라 성능이 다르므로, 계획 수립, 도구 호출, 반성 등 에이전트 워크플로우의 각 단계에 맞는 모델을 선택하는 것이 중요합니다. 🎯
- 심층 인터넷 연구, 브라우저 접근, HTML 검색, 데이터셋 접근과 같은 새로운 도구들을 추가하여 에이전트의 활용 범위를 확장했습니다. 🌐
- 심층 인터넷 연구 도구는 검색 결과 미리보기만으로 답변을 선택하는 문제를 해결하기 위해 URL과 페이지 콘텐츠를 한 번에 가져와 오해를 줄였습니다. 🔍
- 브라우저 접근 도구는 서브 에이전트 형태로 구현되어, GPT-4o mini와 Computer Use Preview를 활용해 구글 지도나 이미지와 같은 복잡한 대화형 웹 작업을 수행할 수 있게 했습니다. 💻
- 이러한 개선을 통해 현재 Unify의 주력 에이전트는 'Canal Browser Agent'이며, 앞으로도 평가 가능하고 확장 가능한 평가 시스템에 투자할 계획입니다. 🏆