- 모델 선택은 학습 구조에 따라 프리트레인드(기초 지식), 슈퍼바이즈 파인튜닝(특수 목적), DPO/RLHF(편향 학습), 역할 최적화(특정 분야) 모델 중 적절한 것을 골라야 합니다. 🧠
- 프리트레인드 모델은 일반 상식이 풍부하지만 편향이 없어 전문성이 부족하며, 지식의 한계에 도달하면 외부 툴/함수 연결 능력이 중요해집니다. 📚
- 모델 활용 시, 고품질의 복잡한 질의에는 오픈AI 같은 고비용 모델을, 데이터 임포트 등 간단한 작업에는 저비용 모델을 활용하는 전략이 효율적입니다. 💰
- 개인 개발자는 수억 원이 필요한 풀 파인튜닝 대신, 대화 내용을 학습시키는 경량 튜닝(예: Q-LoRA)에 집중해야 하며, 이는 현실적인 실험 한계입니다. 💡
- 경량 튜닝을 위해서는 사실 기반의 지식을 '질문-답변' 쌍(컴플리션)으로 변환하는 데이터 가공 작업이 필수적이며, 이 과정은 상당한 노력을 요구합니다. 🔄
- 인스트럭션 얼라인먼트 튜닝은 모델의 의도를 정렬하는 기법으로, 하나의 답변에 여러 질문을 연결하여 모델이 다양한 질의에 유연하게 응답하도록 학습시킵니다. 🗣️
- 선호도 학습 기법으로는 사람이 직접 좋은/나쁜 문답을 지도하는 RLHF, 데이터셋의 승패 쌍으로 선호도를 튜닝하는 DPO, 그리고 AI가 스스로 데이터셋을 생성하여 학습하는 최신 방식이 있습니다. 🏆