유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

화면을 이해하고 행동하는 AI - GUI Agent 개발기

kakao tech

2025. 9. 25.

0

#ai
#frontend
  • GUI 에이전트는 기존 대화형 AI의 한계를 넘어, 화면을 이해하고 스스로 판단하여 실제 웹 환경에서 클릭, 스크롤, 타이핑 등 행동을 수행하는 AI입니다. 🤖
  • GUI 에이전트의 핵심은 화면 내 객체 위치를 정확히 인식하는 '그라운딩' 능력과 목표 달성을 위한 단계별 계획을 추론하는 '플래닝' 능력입니다. 🎯
  • 대규모 학습 데이터셋 구축 시, 공개 데이터셋의 포맷 및 액션 스페이스 불일치, 낮은 품질, 한국어 데이터 부족 등의 문제에 직면했습니다. 🧩
  • 이러한 문제를 해결하기 위해 액션 스페이스를 통합하고, 저품질 데이터를 정제하며, 한국 웹 환경에 특화된 고품질 자체 데이터셋을 휴먼 레이블링 방식으로 구축했습니다. 🧑‍💻
  • 모델 학습 과정에서 좌표계 통일(절대 좌표 사용)이 성능에 결정적인 영향을 미치며, 초기 SFT 방식은 단일 정답 좌표만 학습하는 한계가 있었습니다. 📏
  • 단일 좌표 학습의 한계를 극복하고자 히트맵 기반의 '소프트 타겟 분포'를 도입하여 모델이 정답 영역을 유연하게 이해하도록 학습시켰고, 이는 그라운딩 정확도 향상으로 이어졌습니다. 🔥
  • SFT의 한계를 넘어, 모델의 행동 결과에 따라 보상을 주는 '검증 가능한 보상 기반 강화 학습(RLVR)'을 도입하여 실제 환경에서의 성공률을 높였습니다. 🏆
  • RLVR은 SFT 모델을 초기 정책으로 활용할 때 가장 높은 성능을 보였으며, 특히 난이도 높은 벤치마크(Screenspot Pro, Kakao Grounding)에서 그라운딩 성능이 크게 향상되었습니다. 📈
  • 플래닝 벤치마크(Real Benchmark)에서도 베이스라인 대비 테스크 성공률이 2.7% 개선되었으나, 현재 플래닝 능력은 SFT 모방 학습 결과이며 RL 기반 최적화는 향후 과제입니다. 🚀
  • 현재 GUI 에이전트는 한국 특정 도메인에 대한 지식 부족(예: 카카오뱅크 아이콘의 맥락 이해 부족)이라는 한계가 있으며, 이는 추가 한국 특화 데이터 학습으로 개선 가능합니다. 🚧
  • 향후 연구 방향은 장기 '기억' 능력, 실패를 분석하는 '반성' 능력, 그리고 외부 도구/API 연동을 통한 '확장성' 확보에 중점을 둡니다. 🧠

Recommanded Videos