← 返回
未分类

markitdown

Use when needing to convert files (PDF, DOCX, PPTX, XLSX, HTML, images, audio, EPUB, ZIP, YouTube URLs) to Markdown for LLM consumption or text analysis. Use when user mentions "markitdown", "convert to markdown", "extract text from document", or needs to read binary/office file contents.
适用于需要将各类文件(PDF、DOCX、PPTX、XLSX、网页、图片、音频、电子书、压缩包、油管链接)转换为Markdown格式,以供大语言模型调用或文本分析的场景。当用户提及「markitdown」「转为Markdown」「从文档提取文字」,或是需要读取二进制文件、办公文件内容时,均可使用该功能。
昏暗槐花
未分类 community v1.0.0 1 版本 99579.8 Key: 无需
★ 2
Stars
📥 197
下载
💾 21
安装
1
版本
#latest

概述

markitdown

Overview

Microsoft 的 MarkItDown 工具,将 PDF/Word/PowerPoint/Excel/HTML/图片/音频/EPUB/ZIP/YouTube 等格式转换为 Markdown。输出保留标题、列表、表格、链接等结构,适合 LLM 消费。

When to Use

  • 需要读取二进制文件内容(PDF、DOCX、PPTX、XLSX)
  • 需要提取文档文本供 LLM 分析
  • 需要将非文本格式转为 Markdown
  • 需要批量处理 ZIP 内的多个文件

Quick Reference

运行命令

# 基本用法(输出到 stdout)
uvx --from "markitdown[all]" markitdown <文件路径>

# 输出到文件
uvx --from "markitdown[all]" markitdown input.pdf -o output.md

# 管道输入
cat input.pdf | uvx --from "markitdown[all]" markitdown

# 从 stdin 读取时指定文件类型
uvx --from "markitdown[all]" markitdown -x pdf < input.bin

CLI Flags

Flag说明
------------
-o OUTPUT输出文件路径(默认 stdout)
-x EXTENSION文件扩展名提示(stdin 时有用,如 -x pdf
-m MIME_TYPEMIME 类型提示
-c CHARSET字符编码提示(如 UTF-8)
-d使用 Azure Document Intelligence(需配合 -e
-e ENDPOINTDocument Intelligence 端点 URL
-p启用第三方插件
--list-plugins列出已安装插件
--keep-data-uris保留 base64 图片(默认截断)
-v, --version显示版本号

支持的文件格式

格式扩展名说明
--------------------
PDF.pdf文本提取(需 [pdf][all]
Word.docx[docx][all]
PowerPoint.pptx[pptx][all]
Excel.xlsx[xlsx][all]
旧版 Excel.xls[xls][all]
HTML.html, .htm内置支持
图片.jpg, .pngEXIF 元数据 + OCR
音频.wav, .mp3EXIF + 语音转文字(需 [audio-transcription]
Outlook.msg[outlook][all]
EPUB.epub内置支持
ZIP.zip遍历内容逐个转换
YouTubeURL[youtube-transcription]
CSV/JSON/XML各自扩展名文本格式,内置支持

选择性安装(减少依赖)

# 只安装特定格式的依赖
uvx --from "markitdown[pdf,docx,pptx]" markitdown input.pdf

# 完整安装
uvx --from "markitdown[all]" markitdown input.pdf

Common Mistakes

  • 忘记 [all]uvx markitdown 不带 extras 会缺少格式依赖,PDF/DOCX/PPTX 等无法处理
  • uvx markitdown[all] 而非 --from:正确语法是 uvx --from "markitdown[all]" markitdown
  • 音频转文字缺 ffmpeg:音频功能需要系统安装 ffmpeg
  • PDF 图片内容丢失:markitdown 提取文本,不保证图片内容;需 OCR 可用 markitdown-ocr 插件 + LLM client

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-04-22 19:55 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 672 📥 324,995
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,373 📥 319,764
ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,072 📥 805,496