한
한글과컴퓨터
June 18, 20251회
한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (1)

간단 소개
Python을 사용하여 HWPX 파일 포맷을 파싱하고 문서 데이터를 추출하는 방법을 설명합니다. 핵심은 XML 구조 분석과 데이터 모델링입니다.
AI Summary
- HWPX 포맷 개요
- HWPX 문서 포맷의 내부 구조를 이해하고, Python을 사용하여 문서의 일부 데이터를 추출하여 Document 객체로 구조화하는 과정을 설명합니다.
- ZIP 파일 구조를 가진 XML 기반 포맷인 HWPX 파일의 압축 해제 및 XML 문서 분석 방법을 제시합니다.
- 데이터 추출 및 모델 구조
- HWPX 파일에서 메타정보, 커서 위치, 폰트 정보, 바이너리 데이터 목록 등을 추출하는 방법을 상세히 설명합니다.
metadata.xml
,settings.xml
등 여러 파일에 분산된 정보를 효율적으로 관리하기 위해 Data Model을 정의합니다.
- 핵심 파일 분석
Contents/header.xml
파일을 분석하여 문서의 전체 구역 수, 시작 번호, 폰트 정보 등을 추출합니다.settings.xml
파일에서 CaretPosition 요소를 추출하여 커서 위치 정보를 파악합니다.Contents/content.hpf
파일에서 manifest 요소를 분석하여 문서에 포함된 바이너리 데이터 목록을 얻습니다.
Next Feeds

웹빌더 시스템 Part 1: GrapesJS와 Next.js로 만드는 웹빌더 개발기
GrapesJS와 Next.js를 이용한 웹빌더 개발 과정, 주요 기능, 커스터마이징, 배포 및 운영 전략을 소개합니다.
GrapesJSNext.js웹빌더커스터마이징S3
2025. 6. 18.
여기어때

개발 생산성 200% 높이는 커뮤니케이션 전략 : 코드 밖에서도 성공하는 DevOps
개발 생산성을 200% 향상시키는 커뮤니케이션 전략을 제시하고, 실제 프로젝트 적용 사례와 피해야 할 실수를 통해 실질적인 도움을 제공합니다.
커뮤니케이션개발 생산성협업프론트엔드DevOps
2025. 6. 18.
인포그랩

K8s Tips & Tricks – 실전 쿠버네티스 핵심 꿀팁
Kubernetes 운영 시 유용한 팁들을 소개합니다. Namespace 설정, YAML 생성, 컨테이너 관리, 모니터링 등 실전 꿀팁을 통해 효율성을 높이세요.
KuberneteskubectlYAML컨테이너Bitnami
2025. 6. 17.
한글과컴퓨터

알리는사람들의 Amazon Data Firehose로 Amazon DynamoDB를 Amazon S3 tables로 실시간 복제하기
알리는사람들은 Amazon Data Firehose를 활용해 DynamoDB 데이터를 S3 Tables로 실시간 복제하고 Athena로 분석하는 파이프라인을 구축했습니다.
Amazon Data FirehoseAmazon DynamoDBAmazon S3 TablesApache IcebergAmazon Athena
2025. 6. 17.
AWS

Amazon RDS for PostgreSQL, Amazon Aurora PostgreSQL, Babelfish for Aurora PostgreSQL에서의 동적 데이터 마스킹
Amazon RDS for PostgreSQL, Aurora PostgreSQL, Babelfish에서 동적 데이터 마스킹을 구현하고 한계점을 분석합니다.
데이터 마스킹PostgreSQLAmazon RDSAuroraBabelfish
2025. 6. 17.
AWS

서비스 조직에서 Kafka를 사용할 때 알아 두어야 할 것들 (4)
네이버 서비스 조직에서 Kafka 사용 시 프로듀서 최적화 및 압축 기능 활용법, Kafka 자료구조 등을 다룬 NAVER ENGINEERING DAY 발표 내용 요약.
Kafka프로듀서최적화압축NAVER ENGINEERING DAY
2025. 6. 16.
Naver d2