EP 71. 시끌벅적한 전환의 시기,쏟아지는 AI 뉴스들 (25. 9. 26. ~ 25. 10. 4.)
- AI 개발 경쟁이 다시 '엑스트라바간자' 시기로 접어들며, 정보 과부하와 함께 목표 지점이 빠르게 변화하고 있음을 시사합니다. 🚀
- 사용자 데이터를 기반으로 외부 뉴스를 결합하여 아침에 브리핑을 제공하는 'Pulse' 기능이 출시되어, AI의 선제적(proactive) 작업 수행 능력이 제품화되었습니다. 💡
- OpenAI는 수학, 과학, 컴퓨터 외 글쓰기, 사고, 코딩, 데이터 정리, 비디오 등 다양한 영역에서 AI 모델의 성능을 평가하고 경제적 효과를 예측하는 벤치마크 'GDPval'을 공개했습니다. 📈
- 'Video models are zero-shot learners and reasoners'라는 제목의 Veo 3 논문이 공개되어, 비디오 모델이 추론 능력을 갖추고 있음을 과시하며 Sora 2 출시를 암시하는 분위기를 조성했습니다. 🎬
- Julian의 블로그 포스트는 AI 모델의 기하급수적인 발전 속도와 STEM 분야를 넘어선 일반화 능력을 강조하며, 이러한 추세에 저항하는 기업들은 도태될 것이라는 경고를 재확인했습니다. ⚡
- 샘 알트만은 AI 발전 속도를 과소평가하고 현재 모델 성능에만 의존하는 기업들은 '짓밟힐(steamrolled)' 것이라고 경고하며, 일반 지능 개발의 빠른 진전을 강조했습니다. 🚂
- 샘 알트만과 일론 머스크 같은 리더들은 PR 필터링 없이 솔직한 발언을 통해, 대중이 인지하는 것보다 훨씬 빠른 AI 발전의 최전선을 목격하고 있음을 드러냅니다. 🗣️
- Julian은 2026년 중반까지 AI 모델이 8시간 자율 작업, 2026년 말까지 인간 전문가 수준 도달, 2027년 말까지 인간 전문가 능가라는 구체적인 AI 발전 로드맵을 제시했습니다. 🗓️
- 현재 최전선 AI 모델들은 적절한 에이전트 하네스를 통해 거의 모든 작업을 수행할 수 있으며, 코딩 분야는 이미 AI가 대체하는 수준에 이르렀다는 현장 경험이 공유되었습니다. 🤖
- AI 개발의 분위기가 '코딩'에서 '리서치'로 전환되고 있으며, 이는 AI가 코딩 작업을 상당 부분 대체했음을 시사하는 중요한 신호로 해석됩니다. 🔬
- 미라 무라티가 설립한 Thinking Machines Lab은 'LoRA without Regret' 기술 블로그를 통해 추론 및 미세 조정 관련 제품 출시를 암시하며 AI 기술 혁신을 예고했습니다. 🧠
- Anthropic은 Claude Sonnet 4.5와 Claude Code 2.0을 발표하며, Sonnet 4.5가 Opus 4.1보다 더 스마트하다고 강조, 모델 성능의 새로운 기준을 제시했습니다. 🌟
- Claude는 Catan 보드게임 예시를 통해 긴 시간 동안의 복잡한 상황에서 효과적인 컨텍스트 관리(Context Editing)의 중요성을 보여주었으며, 이는 '가비지 컬렉션'과 유사한 자동화된 컨텍스트 엔지니어링으로 발전하고 있습니다. ♻️
- 인간이 직접 수행하던 컨텍스트 엔지니어링 작업이 AI 모델 자체의 메모리 및 컨텍스트 관리 도구를 통해 자동화되는 단계로 빠르게 진입하고 있습니다. ⚙️
- SWE-bench 80% 달성 등 현재 AI 기술의 놀라운 성과를 바탕으로, 2026년 과학적 발견 가능성이라는 다음 이정표가 이미 현실화되고 있음을 시사하며 목표 지점이 계속 이동하고 있습니다. 🎯
- AI 모델의 뛰어난 작업 수행 능력에도 불구하고, 일반 사용자들이 매일 24시간 AI에게 맡길 충분한 작업과 그 비용을 감당할 수 있는지에 대한 현실적인 고민이 제기되었습니다. 🤔