← 返回
未分类

Hwp Extract Pipeline

HWP/HWPX/PDF extraction pipeline: attempt hwp-reader, then pyhwp, then OCR, with safe fallbacks. Use when agent needs reliable text extraction from Korean HW...
heoboong
未分类 clawhub v1.0.0 100000 Key: 无需
★ 0
Stars
📥 438
下载
💾 0
安装

概述

hwp-extract-pipeline

간단한 HWP/HWPX/PDF 추출 파이프라인 스킬입니다. 핵심 목표는 로컬에 저장된 공고문(한글 파일)을 안정적으로 텍스트로 변환해 JSON 형식으로 반환하는 것입니다.

간단 사용법

  • 실행 스크립트: scripts/extract_hwp.py
  • 입력: 로컬 파일 경로(예: /home/vorox/.openclaw/agents/nalda-mail-opt/data//getImageFile.do)
  • 출력: JSON 출력(표준출력) 및 데이터 폴더에 _extracted.json으로 저장

우선순위(폴백 방식)

  1. hwp-reader 호출 (외부 skill 호출 가능시)
  2. pyhwp(venv) 기반 추출
  3. 시스템 OCR (poppler + tesseract) — 시스템 설치 필요할 수 있음
  4. strings 기반 폴백

참고 문서

  • scripts/README.md (간단 사용 예시 및 통합 방법)

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-03 07:45 安全 安全

安全检测

暂无安全检测报告