概述

Document Skills

Dependencies

Run scripts/install_deps.py --check to verify installed packages, or scripts/install_deps.py to install all.

Core dependencies:

pip install pymupdf python-docx openpyxl python-pptx beautifulsoup4 mammoth chardet striprtf

Core Operations

1. Extract Text

Use scripts/extract_text.py to read content from any supported format.

python scripts/extract_text.py <file> [--sheet NAME] [--pages RANGE] [-o output.txt]

Examples:

python scripts/extract_text.py report.pdf --pages 1-5
python scripts/extract_text.py data.xlsx --sheet "Q1 Sales"
python scripts/extract_text.py slides.pptx -o content.txt

For large files, extract to a temp file then read selectively to avoid context overflow.

2. Convert Formats

Use scripts/convert_format.py to convert between formats.

python scripts/convert_format.py <input> --to <format> [-o output]

Supported conversions:

Source	Targets
--------	---------
PDF	txt, md
DOCX	txt, md, html
XLSX	csv, json, txt
PPTX	txt, md
HTML	txt
CSV	json, xlsx
JSON	csv
TXT	pdf, docx

3. Search Documents

Use scripts/search_doc.py to find text patterns (supports regex).

python scripts/search_doc.py <file> <pattern> [-i] [-C N]

Flags: -i case-insensitive, -C N show N lines of context.

4. Summarize Documents

For summarization, combine extraction with Claude's analysis:

Extract text using scripts/extract_text.py
For large documents, extract section by section (e.g., page ranges for PDF)
Apply Claude's summarization capabilities to the extracted content

5. Compare Documents

For document comparison:

Extract text from both documents
Use diff tools or Claude to identify differences
For XLSX: extract both sheets and compare cell-by-cell

Workflow Decision Tree

User request involves a document?
├── Read/extract content?  → extract_text.py
├── Convert format?        → convert_format.py
├── Search for text?       → search_doc.py
├── Summarize?             → extract_text.py + Claude analysis
├── Compare documents?     → extract both + diff/Claude analysis
└── Create new document?   → convert_format.py (txt -> target format)

Handling Large Documents

PDF: Use --pages to extract in chunks (e.g., 1-10, 11-20)
XLSX: Use --sheet to process one sheet at a time
General: Extract to file with -o, then read portions as needed

Error Handling

Missing library errors: Run scripts/install_deps.py to install
Encoding issues: Try --encoding gbk or --encoding gb18030 for Chinese documents
Corrupted files: Try alternative libraries (e.g., PyPDF2 vs pymupdf for PDF)

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-05-25 18:14 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)