2025년 12월 27일 토요일 아침, 노정석·김성현·최승준이 2025년 AI 한 해를 돌아보고 2026년을 전망합니다. DeepSeek 이후 MoE와 RLVR(에이전트 포스트트레이닝)이 어떻게 주류가 되었는지, 그리고 중국발 오픈 프런티어 모델들이 생태계를 이끈 흐름을 짚습니다. 제한된 연산력 속 ‘레시피’와 RL 인프라의 진화, 데이터의 중요성까지 현실적인 관점에서 정리합니다. 내년에는 스케일업, 지속 학습, self-play, 더 자율적인 에이전트가 어떤 변화를 가져올지 함께 상상해 봅니다.
00:00:00 오프닝: 2025 회고와 2026 전망
00:00:29 DeepSeek-R1 이후: RLVR·에이전트 포스트트레이닝
00:01:20 2025 변화 #1: 중국발 오픈 프런티어 모델 붐과 주도권
00:03:47 DeepSeek이 쏘아올린 작은 공: 모두가 프론티어를 노린다
00:04:34 MoE 그래프 해설: dense vs MoE, 연산 배수
00:06:14 sparsity와 compute multiplier: 왜 MoE가 유리한가
00:07:48 MoE 대세와 DeepSeek 레시피의 확산
00:09:01 MoE의 원리: 희소성·모듈화·라우팅 관점
00:12:01 2025 변화 #2: RLVR 공개와 추론 모델의 확산
00:15:07 RLVR로 에이전트를 학습시키는 방식: 도구 사용·최종 결과 평가
00:18:22 2025년 RL 인프라의 급성장과 안정화 과제
00:21:10 atomic skill vs 조합 능력: RL이 해주는 일에 대한 새로운 이해
00:28:01 “진정한 RL” 논쟁과 LLM RL의 의미
00:31:11 논문 밖 레시피: 데이터·인프라·암묵지 경쟁
00:34:17 프런티어의 기준: 모델 크기보다 학습 방법·데이터
00:40:06 2026 전망 ① 스케일업: 더 큰 pre-training과 active 파라미터
00:44:40 병목은 데이터: 99%→99.9%로 가는 롱테일 문제
00:46:03 중국 팟캐스트로 보는 프런티어 담론
00:48:05 2026 전망 ② 더 자율적인 에이전트와 인터페이스 변화
00:50:42 2026 전망 ③ continual learning: 모델이 ‘무엇을’ 배울지 스스로 찾기
00:53:10 self-play의 난점과 ‘흥미로운 문제’ 생성의 어려움
00:55:42 문제는 내적 동기·인간 정렬로 수렴된다
00:58:21 투자·버블·FOMO: 2026에 필요한 질적 도약 논리
01:02:20 AI 전쟁 비유: Manhattan Project·Apollo Project
01:04:07 개인의 태도: 불확실성 속에서 즐기기와 unlearning
01:06:57 정리: 2025는 MoE·RL, 2026은 스케일·새 패러다임
01:08:24 엔딩: 새해 인사