- Autoleg 평가 데이터 생성은 Autoleg 사용의 가장 중요한 단계이며, 데이터 정확도 향상과 모델 최적화에 필수적입니다. 🗝️
- PDF, Excel, Word 등 다양한 문서 형식을 지원하는 Llama Index를 활용하여 빠르고 효율적인 데이터 파싱 및 텍스트 추출이 가능합니다. 🗄️
- Llama Index의 Token Text Splitter를 통해 텍스트를 적절한 크기의 chunk으로 나눕니다. ✂️
- 질문응답 생성은 corpus에서 텍스트를 추출하여 LM으로 질문을 생성하고 답변을 얻는 과정을 반복합니다. ❓➕🧠
- 질문 생성 품질 향상을 위해 명확하고 정확한 prompt를 작성하는 것이 중요합니다. 📝





