유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

Building a fully local "deep researcher" with DeepSeek-R1

LangChain

2025. 1. 22.

0

#ai
  • DeepSeek-R1: 오픈소스 추론 모델 출시 🎉
  • RL 기반 학습 전략: 체인 오브 스토리(Chain of Thought) 활용 🧠
  • 다단계 학습 과정: 미세 조정, 강화 학습, 추가 미세 조정의 3단계 ⚙️
  • 144,000개의 수학 및 코딩 문제를 활용한 강화 학습 🔢
  • 고품질 추론 결과 필터링 및 재학습: 일반적인 능력 향상 ⬆️
  • 다양한 보상 함수 활용: 추론 능력과 유용성, 무해성 모두 고려 💯

Recommanded Videos