一个完整的钢琴谱PDF处理流程,用于删除红色(右手)和蓝色(左手)数字简谱,同时保留黑色的指法标注。
本技能提供完整的钢琴谱PDF处理工作流:
skill/
├── SKILL.md # 本文档
└── scripts/ # 脚本目录
├── 1_split_pdf.py # 步骤1: 拆分PDF
├── 2_pdf_to_images.py # 步骤2: PDF转图片
├── 3_remove_color_notes.py # 步骤3: 去除红蓝简谱
├── 4_images_to_pdf.py # 步骤4: 图片转PDF
├── 5_merge_pdfs.py # 步骤5: 合并PDF
└── process_sheet_music.py # 主脚本: 运行完整流程
安装所需的Python包:
pip install pypdf pdf2image pillow scipy numpy
同时安装poppler(pdf2image需要):
# macOS
brew install poppler
# Ubuntu/Debian
apt-get install poppler-utils
python3 skill/scripts/process_sheet_music.py 输入.pdf 输出.pdf
python3 skill/scripts/1_split_pdf.py 输入.pdf ./pdf-pages/
python3 skill/scripts/2_pdf_to_images.py ./pdf-pages/ ./pdf-images/
python3 skill/scripts/3_remove_color_notes.py ./pdf-images/ ./pdf-processed-images/
python3 skill/scripts/4_images_to_pdf.py ./pdf-processed-images/ ./pdf-processed-pdfs/
python3 skill/scripts/5_merge_pdfs.py ./pdf-processed-pdfs/ 最终输出.pdf
去除过程使用两阶段方法:
输入PDF
↓
[拆分] → 单页PDF
↓
[转换] → PNG图片
↓
[去除颜色] → 处理后的图片(无红蓝简谱)
↓
[转换] → 单页PDF
↓
[合并] → 最终PDF
处理过程中会创建以下目录:
pdf-pages/ - 拆分后的PDF页面pdf-images/ - 转换后的PNG图片pdf-processed-images/ - 去除红蓝简谱后的图片pdf-processed-pdfs/ - 单页处理后的PDF{原文件名}_黑白版本.pdf 或指定名称 - 最终合并的PDF共 1 个版本