批量识别文档。
此技能需要翔云 OCR 服务,使用前必须先配置凭证!
主动询问用户:
> "使用此技能需要翔云 netocr_key 和 netocr_secret,请提供这两个凭证。\
> 获取方式:翔云个人中心"
然后运行:
python scripts/recognize_doc.py --config
告诉用户:
> "请先运行以下命令配置翔云凭证:"
> ```bash
> python ~/.openclaw/skills/invoice-ocr/scripts/recognize_doc.py --config
> ```
| 支持语言 | 代码 |
|---|---|
| :------- | :------- |
| 简体中文(印刷) | 0 |
| 简体中文(印刷+手写) | 3 |
| 繁体中文(印刷) | 1 |
| 繁体中文(印刷+手写) | 4 |
| 英文 | 2 |
| 阿拉伯 | 5 |
| 乌尔都 | 6 |
| 格鲁吉亚 | 7 |
| 西里尔文 | 8 |
| 法文 | 9 |
| 西班牙文 | 10 |
| 日文 | 11 |
| 韩文 | 12 |
| 葡萄牙文 | 13 |
| 越南 | 14 |
| 孟加拉 | 15 |
| 格式 | 扩展名 |
|---|---|
| ------ | -------- |
| OFD | .ofd |
| 图片 | .jpg, .jpeg, .png, .bmp , .tif, .tiff, .webp |
# 识别文件夹中的所有文档
python scripts/recognize_doc.py /path/to/doc
# 识别单文档
python scripts/recognize_doc.py /path/to/doc/123.png
# 设置翔云凭证
python scripts/recognize_doc.py --config
# 查看当前配置
python scripts/recognize_doc.py --list-config
详细 API 说明见 翔云 OCR API 参考
文档文件 → OCR识别 → 返回结果(输出原文不必翻译)
↓ ↓
PDF/图片 md结构
共 3 个版本