홈 유튜브 블로그 Top 10

데브허브 안내

소개 업데이트 소식

데브허브 커뮤니티

다른 영상 보기

Did OpenAI Lie on Benchmarks??!!!

1littlecoder

2025. 1. 6.

0회

#ai

#etc

OpenAI의 SWE 벤치마크 결과에 대한 의혹 제기 🤔
실제 GitHub 이슈 적용 결과는 OpenAI 주장(48%)보다 훨씬 낮은 30%에 그침 📉
Claude 모델은 다른 프레임워크(Open Hands) 사용 시 53% 달성, OpenAI의 선택과 대조됨 🤖
OpenAI가 사용한 'agentless' 프레임워크는 Open Hands보다 성능이 낮음, 선택 이유에 대한 의문 제기 🤨
OpenAI의 벤치마크 방식과 결과 해석에 대한 투명성 부족 지적 🔎
연구자들은 OpenAI의 선택이 모델의 기억력에 편향된 결과를 초래했을 가능성을 제기함 🤔
추론 모델의 에이전트 역할 수행 방식에 대한 근본적인 문제점 제기 🧐

Recommanded Videos

AI컨퍼런스 4개에서 들은 현업이야기 와 최신트랜드 싹다 정리해서 알려줌

AI컨퍼런스 4개에서 들은 현업이야기 와 최신트랜드 싹다 정리해서 알려줌

2024. 11. 24.

Python Tutorial: Build an AI-assisted Reddit Scraping Pipeline

Python Tutorial: Build an AI-assisted Reddit Scraping Pipeline

2025. 9. 11.

[인프런 X 생활코딩] HTML과 인터넷 (02) 기획

[인프런 X 생활코딩] HTML과 인터넷 (02) 기획

2025. 2. 20.

정말 재밌게 한 게임이 유나이트에?

정말 재밌게 한 게임이 유나이트에?

2025. 3. 14.

Sphere에서 펼쳐진 Phish 라이브 콘서트를 리얼타임 비주얼로 재정의한 Moment Factory

Sphere에서 펼쳐진 Phish 라이브 콘서트를 리얼타임 비주얼로 재정의한 Moment Factory

2025. 1. 6.

얇은 아이폰 (iPhone 17 Air) 내년 출시, 예상 가격, 스펙 정보 | 기판, PCB, 배터리, 카메라 등 신규 적용 기술과 한계 | 얇은 아이패드, 아이폰은 어려운 이유

얇은 아이폰 (iPhone 17 Air) 내년 출시, 예상 가격, 스펙 정보 | 기판, PCB, 배터리, 카메라 등 신규 적용 기술과 한계 | 얇은 아이패드, 아이폰은 어려운 이유

2024. 11. 23.