← 返回
未分类 Key

发票票据识别虾

发票票据识别虾 — 自动识别发票/票据图片,提取关键字段(金额、日期、商家、税号等),支持批量处理、费用分类、税务验真,并可写入飞书多维表格或导出 Excel。 当以下情况时使用此 Skill: (1) 用户上传发票图片(JPG/PNG/PDF),要求识别或录入 (2) 需要批量处理多张发票,生成汇总表 (3)...
发票票据识别:自动从图片或PDF中提取金额、日期、商家、税号等关键字段,支持批量处理、费用分类、税务验真,可写入飞书多维表格或导出Excel。适用:上传发票图片、批量汇总等场景。
tujinsama tujinsama 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 431
下载
💾 0
安装
1
版本
#latest

概述

发票票据识别虾

工作流程

[发票图片/PDF] → [图像预处理] → [OCR识别] → [字段提取] → [数据校验] → [入库/填表]

步骤

1. 接收输入

  • 用户发送发票图片(飞书消息中的图片/文件)→ 用 feishu_im_bot_image 下载到本地
  • 批量场景:用户提供文件夹路径或多张图片

2. OCR 识别

调用 scripts/extract-invoice.py 进行识别:

# 单张
python3 scripts/extract-invoice.py extract --file <图片路径>

# 批量
python3 scripts/extract-invoice.py batch --dir <目录> --output results.xlsx

OCR 优先级

  1. 百度发票识别 API(BAIDU_OCR_API_KEY + BAIDU_OCR_SECRET_KEY
  2. 阿里发票识别 API(ALIYUN_OCR_ACCESS_KEY
  3. 降级:使用 AI 视觉能力直接分析图片(无需 API key,准确率略低)

> 若无 OCR API,直接将图片发给 AI 模型,用视觉能力提取字段,并说明"使用 AI 视觉识别,建议人工复核金额"。

3. 提取标准字段

字段说明
------------
invoice_type发票类型(增值税专票/普票/电子发票/机票/火车票/餐饮/住宿/出租车)
invoice_code发票代码(10或12位)
invoice_number发票号码(8位)
invoice_date开票日期(YYYY-MM-DD)
seller_name销售方名称
buyer_name购买方名称
amount不含税金额
tax_rate税率
tax_amount税额
total_amount价税合计
expense_category费用分类(见 references/expense-categories.md)
confidence识别置信度(high/medium/low)

4. 数据校验

  • 金额校验:amount + tax_amount ≈ total_amount(误差 < 0.01)
  • 日期合理性:开票日期不能是未来日期
  • 发票代码格式:10位或12位纯数字
  • 重复发票检测:同一 invoice_code + invoice_number 组合视为重复

5. 费用分类

参考 references/expense-categories.md 自动分类。

6. 输出

根据用户需求选择输出方式:

飞书多维表格(推荐):

  • 参考 feishu-bitable skill,将结果写入多维表格
  • 字段映射见上方标准字段表

Excel 导出

python3 scripts/extract-invoice.py batch --dir ./invoices --output results.xlsx

直接回复:单张发票直接在对话中展示提取结果

税务验真(可选)

仅对增值税专票/普票有效:

python3 scripts/extract-invoice.py verify \
  --code <发票代码> \
  --number <发票号码> \
  --date <开票日期> \
  --amount <金额>

结果:真实 / 虚假 / 已作废 / 已冲红

> 税务验真 API 有每日免费额度,批量验真时注意控制频率。

注意事项

  • 图片模糊时,提示用户重新拍摄(建议 300DPI 以上)
  • 金额 > 1000 元时,建议提示用户人工复核
  • 不支持手写收据和外文发票
  • 批量处理时,自动去重(相同发票代码+号码只录入一次)

参考文件

  • references/invoice-types.md — 各类发票版面特征
  • references/field-extraction.md — 字段提取规则
  • references/expense-categories.md — 费用分类规则
  • references/tax-verification.md — 税务验真接口说明

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 06:05 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

AdMapix

fly0pants
AdMapix 原始数据层,提供广告创意、应用、排名、下载/收入及市场元数据。返回 AdMapix API 的结构化 JSON;调用方...
★ 297 📥 141,189
data-analysis

Tavily 搜索

jacky1n7
通过 Tavily API 进行网页搜索(Brave 替代方案)。当用户要求搜索网页、查找来源或链接,且 Brave 网页搜索不可用时使用。
★ 273 📥 100,493
data-analysis

Data Analysis

ivangdavila
{"answer":"数据分析与可视化。查询数据库、生成报告、自动化电子表格,将原始数据转化为清晰可行的见解。适用于:(1) 您……"}
★ 211 📥 68,938