저와 함께하세요: http://brainqub3.com/
사실 확인: http://check.brainqub3.com/
장기적인 AI 에이전트 테스트에서 가장 불안한 발견 중 하나는 모델이 어려운 수학 문제를 풀지 못한다는 것이 아니라, 현실이 지루해지면 음모론을 만들어낸다는 것입니다.
이 영상에서는 자판기 사업 운영이라는, 겉보기에는 간단해 보이는 과제를 통해 LLM 에이전트를 테스트하도록 설계된 새로운 벤치마크인 "VendingBench"를 분석합니다. 그 결과 Claude 3.5 Sonnet이나 o3-mini와 같은 기존 모델의 치명적인 결함이 드러납니다. 유능한 에이전트조차 "드리프트" 현상을 겪는 것을 볼 수 있는데, 이는 배송 누락이나 작은 오류가 존재론적 위기로 번져, 수익성 좋은 사업을 접고 보이지 않는 사기 행위에 대해 FBI에 연락하려는 AI의 행동으로 이어집니다.
본 논문에서는 장기적인 일관성이 AI 신뢰성의 핵심 요소인 이유, 인간에게 도움이 되는 것과 달리 LLM(Learning Leadership Model)에는 추가 시간이 항상 도움이 되지 않는 이유, 그리고 이러한 "극심한 변동성"이 오늘날 현실 세계에 자율 에이전트를 배포하려는 모든 사람에게 의미하는 바가 무엇인지 살펴봅니다.
#brainqub3 #brainqub3_youtube #agents #ai #artificialintelligence #llm #vendingbench #futureofwork #tech #generativeai
Vending Bench: https://arxiv.org/pdf/2502.15840