LLM의 근본적 한계: LLM은 토큰 확률에 기반하여 응답을 생성하며, 실제 '이해'나 '추론' 능력 없이 문법적으로 올바른 여러 답변 중 어떤 것이 더 나은지 판단하기 어렵습니다. 🧠
기본 모델 및 미세 조정: 초기 LLM은 방대한 텍스트로 문장 구성 능력을 학습하고(기본 모델), 이후 질문-답변 형식의 데이터(특히 수학 문제)로 미세 조정하여 특정 유형의 질문에 대한 응답 품질을 개선합니다. 📚
사고의 연쇄 (Chain of Thought): 모델이 수학적 추론 능력을 갖추도록 돕기 위해, 문제 해결 과정을 단계별로 설명하는 '사고의 연쇄' 형식의 데이터를 학습시킵니다. 이는 모델이 수학의 '언어'와 '구조'를 이해하는 데 필수적입니다. 🔗
강화 학습과 인간 피드백 (RLHF): 모델이 단순히 그럴듯한 답변이 아닌 '정확한' 답변을 선호하도록 만들기 위해, 모델이 생성한 여러 답변을 인간이 직접 '순위' 매기는 방식으로 피드백을 제공합니다. 이는 모델의 추론 능력을 실질적으로 향상시키는 핵심 단계입니다. 🧑🏫
인간 평가의 중요성: 자동화된 스크립트나 AI 에이전트 대신, 인간이 직접 답변의 품질을 평가하고 순위를 매기는 것이 현재로서는 가장 효과적인 방법입니다. 이는 인간의 직관적인 판단 능력이 모델 학습에 필수적임을 보여줍니다. 👍