← 返回
未分类

pdf-to-speech

将 PDF / DOCX / TXT 文档按章节转换为语音音频文件,使用微软 Edge TTS 在线语音合成(免费、无需 API Key)。适用于以下场景:(1) 用户要求"把文档转成语音""把PDF变成有声书""做成音频",(2) 用户想"听书""开车时听",(3) 用户提供 PDF/DOCX/TXT 文件并要求输出 MP3 音频。支持自动检测章节标题、分章输出、多种语音(女声/男声)、语速/音量/音调调节。
将 PDF / DOCX / TXT 文档按章节转换为语音音频文件,使用微软 Edge TTS 在线语音合成(免费、无需 API Key)。适用于以下场景:(1) 用户要求"把文档转成语音""把PDF变成有声书""做成音频",(2) 用户想"听书""开车时听",(3) 用户提供 PDF/DOCX/TXT 文件并要求输出 MP3 音频。支持自动检测章节标题、分章输出、多种语音(女声/男声)、语速/音量/音调调节。
user_cac68f26
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 73
下载
💾 0
安装
1
版本
#latest

概述

PDF/DOCX/TXT 转语音

核心工作流

将文档转为章节语音音频的完整流程:提取文本 → 检测章节 → 合成语音 → 输出MP3

# 一句话调用(自动提取+分章+合成+输出)
import asyncio
from scripts.pdf_to_speech import process_book

result = asyncio.run(process_book(
    input_path="精益医院.pdf",
    output_dir="./audio",                # 音频输出目录
    voice="zh-CN-XiaoxiaoNeural",        # 女声(推荐听书场景)
    rate="0%",                           # 语速调节
    per_chapter=True,                    # 按章节分文件输出
))

环境要求

pip install edge-tts pypdf2 python-docx pdfplumber

详细步骤

第一步:提取文本

from scripts.pdf_to_speech import extract_text

# 自动识别文件类型(.pdf / .docx / .txt)
text = extract_text("精益医院.pdf")
  • PDF 优先使用 pdfplumber(提取质量更好),回退到 PyPDF2
  • DOCX 使用 python-docx 提取
  • 长文本会自动分段合成,无需手动分割

第二步:检测章节

from scripts.pdf_to_speech import detect_chapters, split_into_chapters

# 自动检测章节标题(支持中英文多种格式)
chapters = detect_chapters(text)

# 按章节切分内容
chapter_contents = split_into_chapters(text, chapters)

支持的章节标题格式:

  • 第一章 引言第1章 概述第1节 内容
  • Chapter 1: xxxPart 1. xxx
  • 1. 1、1) 等行列标题

注意: 某些文档的章节格式可能不规范(如标题分两行、编号缺失等)。此时可手动传入自定义正则:

# 自定义章节检测模式
import re
custom_patterns = [
    r"第[一二三四五六七八九十百零]+章",  # 仅匹配"第X章"格式
]
chapters = detect_chapters(text, patterns=custom_patterns)

第三步:合成语音

from scripts.pdf_to_speech import synth_text_to_speech

# 单段文本合成
result = await synth_text_to_speech(
    text="要朗读的文本内容",
    output_path="chapter1.mp3",
    voice="zh-CN-XiaoxiaoNeural",  # 女声
    rate="0%",                      # 语速(+10%加快,-10%减慢)
    volume="0%",                    # 音量
    pitch="0Hz",                    # 音调
    chunk_size=2500                 # 每段最大字符数
)

自动分段机制: 超长文本(>2500字符)会自动按段落切分为多个合成段,合成完成后二进制拼接为单一 MP3 文件(无需 ffmpeg)。

第四步:完整处理(一键全流程)

import asyncio
from scripts.pdf_to_speech import process_book

async def main():
    result = await process_book(
        input_path="精益医院.pdf",
        output_dir="./audio",
        voice="zh-CN-XiaoxiaoNeural",   # 女声
        rate="0%",
        per_chapter=True,               # 分章输出
        chunk_size=2500,
        naming="auto"                   # 自动从章节标题命名
    )
    
    # result = {"chapters": [(title, mp3_path), ...], "total_size": int}
    for title, mp3 in result["chapters"]:
        print(f"  ✓ {title} -> {mp3}")

asyncio.run(main())

语音选择

参见 references/voices.md 获取完整语音列表。

推荐配置:

  • 听书/小说: zh-CN-XiaoxiaoNeural(女声温柔自然,首选
  • 汇报材料/公文: zh-CN-YunxiNeural(男声沉稳专业)
  • 新闻/公告: zh-CN-YunyangNeural(男声浑厚有力)
  • 教学/培训: zh-CN-XiaoyiNeural(女声热情清晰)

CLI 命令行用法

也可直接在终端使用脚本,适合不需要 Python 代码的场景:

# 基本用法(默认女声)
python pdf_to_speech.py 精益医院.pdf --output-dir ./audio

# 指定男声 + 减慢语速
python pdf_to_speech.py 报告.docx -v zh-CN-YunxiNeural -r -10% -o ./audio

# 整篇合成一个文件(不分章)
python pdf_to_speech.py 文章.txt --no-chapter -o ./audio

实际案例:《精益医院》全书12章合成

以下是处理 1.4MB PDF/DOCX、165,382 字符、12章全书时的参数:

result = asyncio.run(process_book(
    input_path="精益医院_世界最佳医院管理实践_GLMOCR版.docx",
    output_dir="./ebook_output/audio",
    voice="zh-CN-XiaoxiaoNeural",    # 女声
    chunk_size=2500,                 # 每段2500字符
))
# 输出:12章 MP3,总计约 172MB

已知问题与处理建议

问题建议
------------
章节标题格式不规范(分两行/无编号)手动传入 chapter_patterns 自定义正则匹配
合成超时(沙箱600s限制)使用子进程运行脚本,或用 python pdf_to_speech.py CLI 模式
PDF 扫描版(图片格式)需先使用 OCR 工具提取文本(如 GLM-OCR),本技能不包含 OCR
文本中包含特殊字符影响合成脚本已自动过滤 `\\/:*?"<>` 等非法文件名字符
文件过大超长按章节分文件合成,每章节自动分段2500字符

完整流程示意图

输入文件(.pdf/.docx/.txt)
    │
    ▼
提取文本(自动识别格式)
    │
    ▼
检测章节标题(正则匹配中英文格式)
    │
    ▼
逐章合成(长文本自动分段→Edge TTS→二进制拼接)
    │
    ▼
输出 MP3 文件(每章一个独立文件)

资源说明

scripts/

  • pdf_to_speech.py — 核心脚本,包含全部功能(文本提取、章节检测、语音合成、CLI入口)

references/

  • voices.md — Edge TTS 语音列表及参数说明

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-11 12:54 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

life-service

防久坐提醒

user_cac68f26
防久坐健康提醒工具。定时弹出简洁美观的桌面提醒窗口,鼓励用户起身活动。当用户说"久坐提醒""防久坐""坐太久了""设置提醒""健康提醒""定时提醒我活动"等意图时触发。支持自定义间隔时间、稍后提醒、配置自动保存。
★ 0 📥 101
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 331 📥 94,063
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 218 📥 47,927