한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (1)

간단 소개

Python을 사용하여 HWPX 파일 포맷을 파싱하고 문서 데이터를 추출하는 방법을 설명합니다. 핵심은 XML 구조 분석과 데이터 모델링입니다.

AI Summary

HWPX 포맷 개요
- HWPX 문서 포맷의 내부 구조를 이해하고, Python을 사용하여 문서의 일부 데이터를 추출하여 Document 객체로 구조화하는 과정을 설명합니다.
- ZIP 파일 구조를 가진 XML 기반 포맷인 HWPX 파일의 압축 해제 및 XML 문서 분석 방법을 제시합니다.
데이터 추출 및 모델 구조
- HWPX 파일에서 메타정보, 커서 위치, 폰트 정보, 바이너리 데이터 목록 등을 추출하는 방법을 상세히 설명합니다.
- metadata.xml, settings.xml 등 여러 파일에 분산된 정보를 효율적으로 관리하기 위해 Data Model을 정의합니다.
핵심 파일 분석
- Contents/header.xml 파일을 분석하여 문서의 전체 구역 수, 시작 번호, 폰트 정보 등을 추출합니다.
- settings.xml 파일에서 CaretPosition 요소를 추출하여 커서 위치 정보를 파악합니다.
- Contents/content.hpf 파일에서 manifest 요소를 분석하여 문서에 포함된 바이너리 데이터 목록을 얻습니다.