概述

OpenDataLoader PDF Skill

Quick Install

# Basic (CPU, ~20 pages/sec)
pip install -U opendataloader-pdf

# Hybrid mode (AI-enhanced, for complex docs, ~2 pages/sec)
pip install -U "opendataloader-pdf[hybrid]"

# LangChain integration
pip install langchain-opendataloader-pdf

Requirements: Java 11+ (for hybrid mode), Python 3.10+

Core Usage Patterns

1. Parse PDF → Markdown (best for RAG chunking)

from opendataloader_pdf import convert

convert(
    input_path=["file1.pdf", "folder/"],
    output_dir="output/",
    format="markdown"  # clean text, LLM-ready
)

2. Parse PDF → JSON (with bounding boxes for citations)

convert(
    input_path=["report.pdf"],
    output_dir="output/",
    format="json",           # structured data + coordinates
    image_output="embedded"  # "off" | "embedded" | "external"
)

3. LangChain + RAG Pipeline

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

loader = OpenDataLoaderPDFLoader(file_path="document.pdf", format="text")
docs = loader.load()

splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunks = splitter.split_documents(docs)
# → embed → vector store → RAG

CLI Commands

# Basic: single file or folder
opendataloader-pdf file1.pdf file2.pdf folder/

# Complex tables / nested structure (hybrid mode)
opendataloader-pdf --hybrid docling-fast file1.pdf

# Start hybrid backend first, then:
opendataloader-pdf-hybrid --port 5002
# (in another terminal)
opendataloader-pdf --hybrid docling-fast file1.pdf

# OCR for scanned PDFs
opendataloader-pdf-hybrid --port 5002 --force-ocr file1.pdf

# Math formula extraction (LaTeX)
opendataloader-pdf-hybrid --enrich-formula
opendataloader-pdf --hybrid docling-fast --hybrid-mode full file1.pdf

# Chart/image AI description
opendataloader-pdf-hybrid --enrich-picture-description
opendataloader-pdf --hybrid docling-fast --hybrid-mode full file1.pdf

# Security: sanitize prompt injection
opendataloader-pdf file1.pdf --sanitize

Output Format Selection Guide

Document Type	Recommended Format	Mode
--------------	-------------------	------
Standard digital PDF	`markdown`	Basic
Complex/nested tables	`json`	Hybrid
Scanned PDFs	any + `--force-ocr`	Hybrid
Math formulas	`markdown` + `--enrich-formula`	Hybrid
Charts needing description	`markdown` + `--enrich-picture-description`	Hybrid
Medical reports (cite-able)	`json`	Hybrid
RAG knowledge base	`markdown`	Basic or Hybrid

Key Reference Files

API Reference — Full Python API, all parameters
CLI Reference — All CLI flags and hybrid mode
Examples — RAG pipeline, table extraction, batch processing

Benchmark Results (v2.0)

Metric	Score
--------	-------
Overall Accuracy	0.90
Reading Order	0.94
Table Accuracy	0.93
Heading Accuracy	0.83

License: Apache 2.0 | GitHub: opendataloader-project/opendataloader-pdf

版本历史

共 1 个版本

v1.0.0 当前

2026-05-07 16:06 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

OpenDataLoader PDF

概述

OpenDataLoader PDF Skill

Quick Install

Core Usage Patterns

1. Parse PDF → Markdown (best for RAG chunking)

2. Parse PDF → JSON (with bounding boxes for citations)

3. LangChain + RAG Pipeline

CLI Commands

Output Format Selection Guide

Key Reference Files

Benchmark Results (v2.0)

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Excel / XLSX

Gog

Word / DOCX