한
한글과컴퓨터
November 10, 20252회
문서 청크 지식 생성을 통한 생성형 검색 시스템의 정확도 향상 방법

간단 소개
한컴의 청크지식생성모델은 LLM 없이 문서를 청크 단위로 분석, 키워드/제목/질문을 생성하여 생성형 검색 시스템의 어휘 불일치 문제를 해결하고 검색 정확도와 효율성을 높이는 경량형 RAG 모델이다.
AI Summary
청크지식생성모델 개발 배경 및 구조
- 생성형 검색 시스템의 고질적인 '어휘 불일치(Lexical Mismatch)' 문제 해결을 목표로 함.
- 초거대 언어 모델(LLM)의 높은 비용과 비효율성을 극복하기 위해 T5 기반 멀티태스크 구조를 채택.
- 문서를 '청크' 단위로 분할하여 키워드, 제목, 후보 질문을 동시에 생성하는 '단일 인코딩, 병렬 생성' 방식.
- 키워드 추출은 시퀀스 태깅, 제목 및 후보 질문 생성은 독립 디코더 활용. 모델 성능 및 효율성
- Qdrant 벡터 검색 환경에서 Top@1 정확도 84.26%, 평균 91.39%의 높은 검색 성능 기록.
- GPU 메모리 사용률 6~11%로 매우 낮아 실시간 응답 가능한 경량형 모델임을 입증.
- 제목 생성 92.0%, 후보 질문 90.0%, 키워드 추출 93.6%의 높은 정합성. 연구 의의 및 향후 방향
- 대규모 LLM 없이도 검색 정확도와 효율성을 동시에 높이는 현실적인 RAG 시스템 설계 방향 제시.
- 향후 키워드 추출과 메타데이터 필터링을 결합하여 검색 정밀도 강화 예정.
Next Feeds

불편함에서 시작된 효율화: QA 리포트 자동화하기
29CM QE팀이 비효율적인 QA 리포트 작성을 개선하고자 Slack Bot을 개발, Jira/Testrail API 연동 및 문제 해결을 통해 업무 효율성과 정확성을 높인 경험을 공유합니다.
QA 리포트 자동화Slack BotJira APITestrail API업무 효율성
2025. 11. 9.
무신사

IMS Mobility의 Amazon Connect를 활용한 AI Agent 기반 콜센터 (AICC) 구현 여정
IMS 모빌리티가 Amazon Connect와 Bedrock을 활용해 AI 컨택센터를 구축, 콜센터 운영 효율을 극대화하고 비용을 절감한 여정.
AI 컨택센터Amazon ConnectAmazon Bedrock모빌리티자동화
2025. 11. 8.
AWS

Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기
펫프렌즈가 MariaDB Trigger 한계를 극복하고 실시간 이벤트 데이터 수집을 위해 Kafka-S3 파이프라인을 직접 구축한 과정과 설계, 운영 노하우를 공유합니다.
KafkaS3데이터 파이프라인CDC실시간 데이터
2025. 11. 7.
펫프렌즈

토스에서 가장 안 좋은 경험 만들기
토스에서 광고를 통해 비즈니스 목표와 사용자 경험의 교집합을 찾아내어 큰 성과를 달성한 과정을 설명합니다.
토스광고사용자 경험비즈니스교집합
2025. 11. 7.
토스

코드 품질 개선 기법 22편: To equal, or not to equal
Java/Kotlin에서 equals 오버라이딩 시 발생할 수 있는 문제점과 올바른 동일성/등가성 정의 방법을 설명합니다.
equalshashCode동일성등가성코드 품질
2025. 11. 7.
LY Corp

여기어때 검색 광고: 랭킹 부스팅 구축기
여기어때가 검색 광고 랭킹 부스팅 기능을 구축하며 노출 수 보장에서 순위 상승 보장 방식으로 전환하고, Elasticsearch를 활용한 아키텍처와 A/B 테스트를 통해 성공적으로 도입한 과정을 설명합니다.
검색 광고랭킹 부스팅ElasticsearchA/B 테스트Delta Score
2025. 11. 7.
여기어때