이 영상에서는 Google의 새로운 Gemini 2.5 Computer Use를 자세히 설명합니다. 작동 방식, 장점(과 단점), 가격, Browserbase를 통한 무료 체험 방법, Agent Quickstart를 통한 설정, Anthropic/OpenAI와의 비교, UI 테스트 및 웹 자동화 활용 방법 등을 소개합니다.
--
주요 내용:
🚀 Google은 실제 웹 상호작용 및 탐색을 위한 브라우저 중심 에이전트인 Gemini 2.5 Computer Use를 출시했습니다.
🤝 Browserbase와 협력하여 개발되었으며, Stagehand 평가에서 최고 성능을 기록했습니다. Gemini 2.5 Pro에서 미세 조정되었으며, Project Mariner, Firebase 테스트 에이전트 및 AI 모드에서 사용되었습니다.
🌐 웹 브라우저에만 최적화되어 있으며(OS 레벨이 아님), OS-World 벤치마크는 설계상 포함되지 않았습니다.
🧰 Anthropic의 접근 방식과 유사한 전용 API 도구로 제공되었으며, Gemini 2.5 Pro와 동일한 가격이며, Browserbase에서 무료로 체험해 볼 수 있습니다.
⚙️ 빠른 시작: 저장소 복제, 종속성 설치, Gemini API 키 설정, 쿼리를 사용하여 기본 파일 실행; 선택 사항인 Browserbase 샌드박스 구성.
🧪 UI 테스트 및 웹 탐색에 적합; 오늘의 Wordle 문제 해결과 같은 더 어려운 작업에는 어려움을 겪었습니다.
🔌 통합이 아직 초기 단계입니다(아직 MCP 없음; Roo, Cline, Kilo 지원 예정). 별도의 엔드포인트는 Sonnet 기본 제공 도구와 비교했을 때 불편합니다.
🆚 자동화 및 컨텍스트 수집의 경우 Gemini 2.5 Flash + Browser Use가 여전히 우위를 점하고 있습니다. Sonnet 대비 가격: 소규모 작업의 경우 더 저렴하고 128k 컨텍스트 이상에서는 동일합니다.
🧭 유망하지만 아직 초기 단계입니다. 커뮤니티 구현이 제한적이며 많은 에이전트 도구가 과대 광고처럼 느껴집니다. 더 나은 통합과 Gemini 3을 기다리고 있습니다.