AI Engineering #4 Reasoning models
- 모델이 수학 문제를 풀 때 직접적인 답변을 선호하며, 문법적으로 옳더라도 우회적인 답변은 선호하지 않음. ❓
- 대규모 언어 모델은 토큰 예측에 기반하므로, 수학적 추론 능력을 향상시키기 위해 수학 컨텍스트를 더 많이 학습시키는 것이 중요. ➕
- 미세 조정(Fine-tuning)을 통해 모델이 질문-답변 형식을 이해하고 수학 문제에 더 적절하게 응답하도록 훈련 가능. ⚙️
- 연쇄적 사고(Chain of Thought) 방식을 통해 모델이 단계별로 문제를 해결하도록 훈련하면 수학적 추론 능력이 향상됨. 💡
- 강화 학습과 인간 피드백(Reinforcement Learning with Human Feedback, RLHF)을 통해 모델 응답의 품질을 평가하고 순위를 매겨 모델을 개선할 수 있음. 👍
- 인간 피드백은 모델 응답에 대한 정확한 점수를 매기기 어렵기 때문에, 응답 순위를 매기는 방식으로 활용하는 것이 효과적임. 🧑🏫