데브허브 | DEVHUB | 내 입맛대로 가르치는 GPT?! | 12 Days of OpenAI: Day 2
⏰ Timestamp
00:00 OpenAI의 최신 모델 맞춤화 프로그램 미리보기
01:30 OpenAI의 모델 맞춤화 프로그램 소개
02:22 Supervised Fine-Tuning과 Reinforcement Fine-Tuning의 차이점
03:35 OpenAI의 모델 맞춤화 플랫폼에서 강화 학습 지원
03:48 과학 연구에서의 응용
04:13 희귀 유전 질환 연구
06:25 Reinforcement Fine-Tuning의 미리보기
07:16 OpenAI 개발 플랫폼에서 새 모델 생성
07:56 Training(훈련) 예시
10:16 grader의 개념
11:50 Fine-Tuning 시작
12:42 Fine-Tuning 결과
13:30 모델 응답 평가
17:39 Reinforcement Fine-Tuning 연구 프로그램
20:00 크리스마스 테마 농담
============================================================
📝 Summary
💡 RFT의 핵심: 강화 학습 미세 조정(RFT)은 OpenAI의 최신 기술로, o1 모델을 사용자가 자신의 데이터 세트에 맞게 미세 조정하도록 지원함.
🔬 적용 가능성: 희귀 질병 연구, 과학 연구 등에서 활용 가능하며, 데이터 기반으로 모델이 고유한 추론을 학습하도록 함.
🚀 작동 방식과 결과: JSONL 데이터 세트를 기반으로 학습하며, 평가자 스키마와 검증 점수로 성능을 평가하여 정확도를 지속적으로 향상시킴.
============================================================
📽️ 원본 영상 : • Reinforcement Fine-Tuning—12 Days of OpenA...