I Forced Claude to Code for 24 Hours NONSTOP, Here's What Happened
- Anthropic이 오픈 소스화한 하네스는 AI 코딩 에이전트가 컨텍스트 창 과부하 없이 장시간 작업할 수 있도록 조율하는 계층입니다. ⚙️
- 이 시스템은 대규모 작업을 여러 에이전트와 컨텍스트 창으로 분할하여 장기적인 코딩 프로젝트를 가능하게 합니다. 🧩
- 현재는 실험적 단계이지만, 미래에는 자동 개념 증명(PoC) 생성 등 코딩 보조 도구의 백그라운드 작업으로 널리 활용될 잠재력이 큽니다. 🚀
- 하네스는 테스트 주도 개발(TDD) 원칙을 채택하여, 모든 코딩 전에 성공 기준과 테스트를 정의하고 지속적으로 작업 진행 상황을 검증합니다. ✅
app_spec.txt(PRD), 200개 이상의 테스트 케이스를 포함하는 feature_list.json, 초기화 스크립트, Git 저장소, 그리고 세션 간 진행 상황을 요약하는 claude_progress 파일이 핵심 구성 요소입니다. 📂
- 초기화 에이전트가 프로젝트를 설정하고, 코딩 에이전트가
claude_progress를 읽어 이전 작업을 파악한 후 feature_list에 따라 다음 기능을 구현하고 테스트하며 Git 커밋을 생성합니다. 🔄
- 각 코딩 에이전트 세션마다 새로운 컨텍스트 창을 사용하고 핵심 아티팩트를 통해 빠르게 작업 상황을 파악함으로써 무한에 가까운 실행이 가능합니다. 🧠
- 하네스는 프롬프트와 파일로 구성되어 있어 Claude Code뿐만 아니라 Codeex, Open Code 등 다른 코딩 보조 도구와도 쉽게 교체하여 사용할 수 있습니다. 🛠️
- CLI 대신 Claude Agent SDK를 사용하여 파이썬 코드에서 직접 에이전트를 제어함으로써 높은 유연성과 프로그래밍 가능성을 확보합니다. 💻
- 장시간 실행 시 발생할 수 있는 API 비용을 줄이기 위해 Anthropic API 키 대신 Claude 구독 토큰을 사용하는 등 실제 운영 비용에 대한 고려가 필요합니다. 💰
- 200개 이상의 상세한 테스트 케이스를 생성하기 위해서는
app_spec 파일이 매우 구체적이고 상세하게 작성되어야 합니다. ✍️
- 에이전트는 새로운 기능 구현 전에 회귀 테스트를 수행하여 기존 기능의 작동 여부를 확인하며, 브라우저를 방문하여 시각적으로 검증하는 도구도 포함됩니다. 🔍
데브허브 | DEVHUB | I Forced Claude to Code for 24 Hours NONSTOP, Here's What Happened