Iceberg Operation Journey: Takeaways for DB & Server Logs

간단 소개

Iceberg 테이블에 DB 로그와 서버 로그를 효율적으로 관리하기 위한 운영 전략, 파티셔닝, 최적화 방법, 모니터링에 대한 여정을 공유합니다.

AI Summary

로그 유형 및 수집 방법
- DB 로그는 Apache Flink를 사용하여 MySQL 테이블의 변경 사항을 Iceberg 테이블로 동기화합니다. UPSERT 모드를 사용하고, Primary Key 기반의 버킷 변환 파티셔닝을 적용하여 쿼리 성능을 최적화합니다.
- 서버 로그는 Apache Kafka를 통해 수집되며, Flink를 사용하여 ORC 형식으로 저장됩니다. APPEND 모드를 사용하여 Iceberg에 로드하는 것을 고려 중이며, 시간별 파티셔닝 및 최적화 기능을 통해 작은 파일 문제를 해결하고자 합니다.
압축, 파티셔닝 및 최적화 전략
- Iceberg의 기본 파일 형식은 Parquet이며, zstd 압축 코덱을 사용합니다. 다양한 압축 수준을 테스트한 결과, CPU 사용량은 증가하지만 전체 성능에 미치는 영향은 미미했습니다. 파일 크기 감소 효과는 Parquet 형식과 zstd 코덱 사용에서 비롯됩니다.
- DB 로그는 UPSERT 모드, 버킷 변환 파티셔닝을 사용하고, 서버 로그는 APPEND 모드, identity 변환 파티셔닝을 사용합니다. Compaction, Snapshot Expiration, Delete Orphan Files 등의 최적화 기능을 활용하여 데이터 관리 효율성을 높입니다.
모니터링
- Iceberg 테이블의 상태를 지속적으로 모니터링하여 작은 파일 관리, 파티션 설정, 최적화 작업 실행 여부를 확인합니다. Trino의 $files 테이블 또는 Spark SQL의 tablename.files 메타데이터 테이블을 사용하여 파일 상태를 모니터링하고, Prometheus, Grafana, TSCoke를 사용하여 시각화합니다.