당
당근
December 5, 20252회
Mapping Karrot’s Data: How We Built Column-Level Lineage

간단 소개
당근은 SQL 파싱을 통해 BigQuery의 컬럼 레벨 데이터 리니지를 구축하여 데이터 가시성과 신뢰성을 높였다.
AI Summary
데이터 가시성 문제 및 해결
- 당근은 데이터 흐름의 가시성 부족으로 연쇄 장애, 스키마 변경 영향 분석 어려움 등 문제 직면.
- 기존 테이블 레벨 리니지는 세부적인 영향 분석(PII 전파, 특정 컬럼 변경 영향)에 한계.
- 컬럼 레벨 데이터 리니지 구축을 통해 세밀한 영향 분석, PII 추적, 빠른 원인 분석 가능.
SQL 파싱 기반 리니지 구축
- BigQuery INFORMATION_SCHEMA.JOBS의 쿼리 로그를 입력으로 활용하는 SQL 파싱 방식 채택.
- 기술 스택: sqlglot (SQL 파싱), Spark (병렬 처리), Airflow (스케줄링), BigQuery (데이터 저장).
- CTE, 서브쿼리, 별칭 등 복잡한 SQL 패턴 처리 로직 개발.
- 데이터 모델은 원시 테이블과 목적별 뷰로 분리하여 다양한 활용 사례 지원.
내부 활용 및 성과
- MCP 서버를 통해 LLM이 리니지 정보를 직접 질의하도록 통합, 영향 분석 및 문제 추적 자동화.
- 매일 약 15,000개 테이블과 800,000개 컬럼 레벨 의존성 자동 추출 및 업데이트.
- 데이터 운영의 신뢰성 향상 및 개발 시간 단축에 기여.
- 향후 실시간 업데이트 및 시각화 도구 개발 예정.
Next Feeds

동적 사용자 분할을 활용한 새로운 A/B 테스트 시스템을 소개합니다
LINE+에서 개발한 동적 사용자 분할 기반의 고도화된 A/B 테스트 시스템과 그 아키텍처, 활용 사례를 소개합니다.
A/B 테스트동적 사용자 분할타겟팅 시스템개인화 테스트사용자 세그먼트
2025. 12. 5.
LY Corp

셀트리온제약의 의약품 공급망 관리 강화를 위한 멀티 에이전트 시스템 구축 여정
셀트리온제약이 AWS Bedrock 기반 멀티 에이전트 AI 시스템을 구축하여 의약품 공급망 관리 S&OP 회의의 의사결정 속도와 정보 정확도를 개선한 사례.
셀트리온제약멀티 에이전트공급망 관리S&OPAWS Bedrock
2025. 12. 5.
AWS

2026년 AI 트렌드: ‘도구’를 넘어 ‘업무 주체’로 진화하는 Agentic AI
2026년, AI는 단순 도구를 넘어 자율적 업무 주체인 Agentic AI로 진화하며, 문서 기반 워크플로우를 혁신하고 있습니다.
Agentic AI멀티 에이전트 시스템문서 자산화AI 트렌드워크플로우 자동화
2025. 12. 5.
한글과컴퓨터

LLM이지만 PDF는 읽고 싶어: 복잡한 PDF를 LLM이 이해하는 방법
Naver가 개발한 LLM 친화적 PDF 파서 PaLADIN은 복잡한 PDF 문서의 표, 차트, 숫자를 LLM이 정확히 이해하도록 돕는다.
LLMPDF ParserPaLADINNAVER ENGINEERING DAY문서 처리
2025. 12. 4.
Naver d2

if(kakao)25, 카카오뱅크가 전하는 기술 이야기
카카오뱅크가 if(kakao)25에서 AI 기반 프롬프트 공격 방어, 개발 생산성 도구, 데이터센터 관리 시스템 등 다양한 기술 혁신 사례를 공유하며 금융 기술의 미래를 제시했다.
if(kakao)25카카오뱅크AI기술 컨퍼런스개발 생산성
2025. 12. 4.
카카오뱅크

JSON 데이터베이스로서의 PostgreSQL: 고급 패턴 및 모범 사례
PostgreSQL의 JSONB 데이터 타입과 고급 기능을 활용하여 유연한 데이터 모델링, 효율적인 쿼리 및 검색을 구현하고, AWS 관리형 서비스로 성능을 최적화하는 방법 제시.
PostgreSQLJSONBGIN 인덱스AWS데이터 모델링
2025. 12. 4.
AWS