한
한글과컴퓨터
September 29, 20251회
한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

간단 소개
Python을 사용하여 HWP 파일의 본문을 파싱하고, 텍스트, 글자 모양, 문단 모양을 추출하는 방법을 설명합니다.
AI Summary
- HWP 파일 본문 파싱
- Python을 사용하여 HWP 파일의 본문 데이터를 추출하는 방법 설명
- Section 스트림을 zlib으로 압축 해제 후 문단 단위 레코드를 읽는 과정 제시
- 텍스트, 제어 문자, 글자 모양(CharShape), 문단 모양(ParaShape) 파싱 절차 상세 설명
- 본문 데이터 구조 및 파싱 과정
- HWPTAG_PARA_TEXT 레코드에서 실제 문단 텍스트 추출, 제어 문자 처리 방법 설명
- HWPTAG_CTRL_HEADER 레코드를 통해 '구역 정의'와 '단 정의' 같은 확장 컨트롤 데이터 영역 확인
- 글자 모양과 문단 모양을 파싱하여 폰트, 크기, 색상, 정렬 등 서식 정보 획득
- 샘플 파일 분석 및 파서 구조
- 파서가 HWP 파일을 Document, SectionList, ParaList, CtrlList, ShapeManager 계층 구조로 해석하는 방식 설명
- 샘플 파일 분석을 통해 파싱된 데이터가 실제 HWP 파일의 서식과 일치함을 검증
- 다음 단계로 표, 그림 등 복잡한 컨트롤 객체 파싱 방법 예고
Next Feeds

레퍼런스 없는 광고센터 UX, 어떻게 풀었을까?
여기어때 광고센터 구축 과정을 통해 UX 디자인의 본질은 데이터뿐 아니라 사용자와 그들의 맥락을 이해하는 것임을 강조한다.
광고센터UX 디자인유저 저니IDI 인터뷰업무 루틴
2025. 9. 26.
여기어때

PD1 AI 해커톤, 그 뜨거웠던 열기 속으로!
PD1 해커톤 2025는 LINE 앱에 적용 가능한 AI 기술 발굴을 위한 행사로, 다양한 아이디어와 협업을 통해 LINE 앱의 미래를 탐색했다.
PD1 해커톤AILINE 앱VoIP자동화
2025. 9. 26.
LY Corp

여기어때의 기술기획팀
여기어때 기술기획팀은 기술 자체보다 사람과 조직 역량에 집중하여 기술 도입 및 활용 환경을 조성하고, 미래를 준비합니다.
기술기획조직 역량기술 전략로드맵개발 문화
2025. 9. 26.
여기어때
Amazon Bedrock으로 해보는 Nova 모델 지식 증류, 배포, 평가
Amazon Bedrock을 이용한 지식 증류를 통해 LLM의 성능을 개선하고, LLM as a Judge로 모델 성능을 평가하는 방법을 제시합니다.
Amazon Bedrock지식 증류LLM모델 커스터마이제이션LLM as a Judge
2025. 9. 26.
AWS

AI 서버 모니터링 자동화: 반복적인 업무를 줄이고, 놓치던 인사이트를 얻다.
Gemini Pro를 활용하여 AI 서버 모니터링을 자동화하고, 반복 업무 감소 및 인사이트 확보를 통해 효율성을 개선한 사례입니다.
AI모니터링자동화GeminiDatadog
2025. 9. 25.
요기요

쿠버네티스 파드에 Host Network 도입기
쿠버네티스 Host Network 설정을 DaemonSet과 Job 파드에 적용하여 IP 절약 및 파드 실행 속도 개선한 사례 분석.
쿠버네티스Host NetworkDaemonSetJobIP 주소
2025. 9. 25.
당근