데브허브 | DEVHUB | EP 51. AI Agent 개발의 어려운 점, Browser Use 를 중심으로EP 51. AI Agent 개발의 어려운 점, Browser Use 를 중심으로
- AI 개발의 초점이 모델 품질에서 비용 효율성 및 애플리케이션/에이전트 시장으로 이동하고 있으며, OpenAI의 전략적 인재 영입에서도 이러한 변화가 감지됩니다. 🚀
- Claude, Gemini, ChatGPT 등 LLM은 이제 웹 브라우징 기능을 통해 에이전트처럼 작동하며, URL을 직접 탐색하고 정보를 처리할 수 있습니다. 🌐
- OpenAI o3의 GeoGuessing 및 Andrej Karpathy 사진 분석 사례는 LLM이 복잡한 프롬프트와 웹 검색 도구를 활용하여 이미지에서 위치를 정확히 파악하는 등 놀라운 멀티모달 추론 능력을 보여줍니다. 🗺️
- 에이전트 개발은 비결정적(non-deterministic) 특성으로 인해 시행착오가 많으며, 목표 달성을 위해 'divide and conquer' 전략과 정교한 프롬프트 엔지니어링이 필수적입니다. 🧩
- Codex CLI를 활용한 브라우저 제어 실험은 커스텀 서버와 크롬 확장 프로그램을 통해 LLM이 브라우저 DOM을 읽고 조작하며, 웹 페이지에 코드를 주입하는 등 복잡한 작업을 수행할 수 있음을 입증했습니다. 💻
- 에이전트가 환경과 상호작용하며 학습하고 방향을 조정하기 위해서는 실행 결과에 대한 명확한 피드백 루프 구축이 매우 중요합니다. 🔄
- 방대한 웹 페이지 DOM 정보를 효율적으로 처리하기 위해 추상화(예: ARIA 역할)가 필수적이며, 인간의 눈에 뻔히 보이는 시각적 정보를 에이전트가 이해하도록 돕는 도구 지원이 중요합니다. 🖼️
- 에이전트가 환경을 변화시키는 경우(예: DOM 조작), 변경 이력을 관리하는 것이 중요하며, 멀티 에이전트 환경에서는 비동기적 통신 및 이벤트 처리가 핵심 과제입니다. 🌍
- 이러한 에이전트 기반 개발 방식은 직접 코딩보다는 큰 그림의 계획과 마이크로 스펙 정의, 반복적인 프롬프트 디버깅을 통해 이루어지는 새로운 프로그래밍 패러다임을 제시합니다. 💡
- Gemini가 Pokémon Blue를 클리어한 사례는 에이전트가 복잡한 게임 환경에서 시각 정보를 추상화하여 목표를 달성하는 능력이 발전하고 있음을 보여줍니다. 🎮
- Operator나 Fellou와 같은 기존 도구들은 에이전트가 브라우저를 활용하여 특정 업무를 자동화하거나 여러 모델을 비교하는 데 사용될 수 있습니다. 🤖