← 返回
未分类

对话采集数据

对话式数据采集工具,通过聊天方式收集图片和文本信息,自动整理为JSON并导出带照片的Excel;当用户需要物业查验、现场巡检、品质检查或资产盘点时使用
对话式数据采集工具,通过聊天方式收集图片和文本信息,自动整理为JSON并导出带照片的Excel;当用户需要物业查验、现场巡检、品质检查或资产盘点时使用
user_9969aeae
未分类 community v1.0.2 3 版本 100000 Key: 无需
★ 0
Stars
📥 91
下载
💾 0
安装
3
版本
#latest

概述

对话式数据采集助手

技能简介

一句话: 告别繁琐填表,聊着天就把数据采了!数据永久保存为Excel,支持长期追踪、趋势报告、图片嵌入。

核心能力:

  • 对话式采集:像聊天一样发图片+文字,自动识别并整理
  • 智能归纳字段:从用户描述中自动归纳采集项,无需预先定义
  • 识别后确认:AI识别后必须经用户确认才记录
  • 自定义采集项:不同场景记不同内容,Excel列头自动跟随
  • 照片压缩+嵌入:支持多张照片,Excel内清晰显示
  • 生成即校验:自动校验数据完整性

适用场景: 物业查验、展会采集、设备巡检、资产盘点、现场记录……任何需要边走边记的场景。


触发关键词

  • 数据采集、现场采集、巡检记录、导出Excel

首次使用引导

展示时机:每次新采集任务开始时展示简短引导,后续根据对话判断用户是否需要更多帮助。

简短引导(每次新任务开头)

> 📋 对话式数据采集——聊天就能记,说完了出表格!

> 1. 告诉我采集什么

> 2. 我建议要记的信息,你确认

> 3. 一条一条说,有照片发照片

> 4. 说"出个表格"拿Excel

详细引导(用户首次使用 / 主动询问时)

如果用户是第一次用,或者说了"怎么用"、"这是什么",则补充:

> 详细说明:

> - 不用填表,像聊天一样说就行

> - 我会从你说的话里自动归纳要记哪些信息

> - 有照片直接发,没照片也行

> - 发错了随时改,说"第X条改成XXX"

> - 想加/减采集项随时说

> - 说"出个表格"我给你生成带照片的Excel

判断逻辑

  • 用户消息简短直接(如"3号楼入户查验")→ 只展示简短引导,直接进入采集
  • 用户消息含疑问(如"这怎么用"、"我能记什么")→ 展示详细引导
  • 同一任务第2条及以后 → 不再展示引导

量化验证

  • 243条真实数据验证,8栋楼全覆盖
  • WPS/Excel/预览器全兼容
  • 确认机制确保数据准确

核心能力

1. 智能归纳字段(核心差异化)

用户可能不知道要采集哪些信息,AI从用户描述中自动归纳。

流程:

  1. 用户说"开始采集"+ 描述第一条 → AI从描述中归纳要记哪些信息
  2. AI建议采集项列表,用大白话说"我建议每条记录包括:XXX、XXX……你觉得行吗?"
  3. 用户确认或调整 → 后续按确认的采集项来
  4. 之前已经说的例子,按确认后的格式整理确认

示例:

用户:开始采集,这是2026智能家居展。展位A12,智联科技,AI门锁S200,1280元
Agent:我建议每条记录包括:展位号、公司名称、主打产品、产品特点、报价、联系人、照片
       你看这些够不够?要加要减都行
用户:加个产品特点就行
Agent:好,就按这些来记。刚才那条我整理一下——
       展位号:A12
       公司名称:智联科技
       主打产品:AI门锁S200
       报价:1280元
       没问题吧?我记上了

预设模板:如果项目名匹配预设场景(物业查验、设备保养、展会信息等),直接推荐模板,用户可以调整。详见 references/采集模板库.md

2. 识别确认机制

流程: 用户发送图片+说明 -> AI识别内容 -> 展示整理结果 -> 用户确认 -> 记录

关键规则:

  • 禁止跳过确认直接记录
  • 用户说"确认"/"对"/"OK"/"没问题"才记
  • 多条待确认时一起展示,统一确认

3. 照片处理

  • 非必填:现场没照片也能记录
  • 多张支持:同一条记录可以有多张照片,Excel中横向排列
  • 自动压缩:600px宽/80%质量,Excel内5cm宽显示
  • 隔离存储:每个项目的照片独立目录

4. 编号规则

自动编号,前缀-序号格式(如1-001、Z-001),全局唯一。

5. 问题类型(仅物业场景适用)

类型适用范围
----------------
给排水水管、水龙头、下水等
插座、开关、灯具等
门窗门、窗、锁具等
墙面墙面、涂料、瓷砖等
设施家电、厨卫设施等
公区走廊、电梯等

其他场景由AI根据用户描述自动归纳分类,不需要枚举。


使用流程

步骤1:开始采集 + 归纳字段

用户:开始采集,这是3号楼入户查验
Agent:我建议每条记录包括:楼层、房号、问题类型、问题描述、照片、备注
       你看行不行?要加要减都可以

用户:开始采集,这是2026智能家居展。展位A12,智联科技,AI门锁S200,1280元
Agent:我建议每条记录包括:展位号、公司名称、主打产品、产品特点、报价、联系人、照片
       你看这些够不够?

步骤2:采集记录

用户:2层07号房厨房下水管道渗水 [照片]
Agent:整理一下——
       楼层:2层
       房号:07号房
       问题类型:给排水
       问题描述:厨房下水管道渗水
       没问题吧?我记上了
用户:确认

用户:展位B05,绿源环境,新风净化一体机X1,3680元
Agent:整理一下——
       展位号:B05
       公司名称:绿源环境
       主打产品:新风净化一体机X1
       报价:3680元/台
       没问题吧?我记上了

步骤3:修改/删除记录

用户:第1条的问题描述改成"厨房主下水管道接口渗水"
Agent:好,改完了。没问题吧?
用户:确认

用户:删掉第3条
Agent:确认删掉第3条?
用户:确认

步骤4:导出表格

用户:出个表格 / 导出Excel
Agent:正在生成...
✅ 表格已生成,共12条记录,嵌入图片15张。

沟通规范(重要!)

对用户说话时,禁止使用技术术语。 用户不需要知道我们用什么格式存数据。

禁止说改为说
----------------
入库/写入记下来/记上了
字段要记的信息/每条记录包括
JSON不提
Schema不提
校验检查一下
导出Excel出个表格
确认入库没问题吧?我记上了
display_id编号
photos数组照片

数据架构(内部实现,不对用户暴露)

数据存储

所有数据存为JSON文件,每个项目独立目录。

⚠️ Excel生成强制规则

必须且只能通过调用 scripts/generate_excel.py 生成Excel,禁止AI自行编写任何Excel生成逻辑。

正确做法:

python3 scripts/generate_excel.py ./采集数据/{项目名}/{项目名}数据.json --output ./采集数据/{项目名} --photo-dir ./采集数据/{项目名}

禁止做法:

  • ❌ 自己写openpyxl代码生成Excel
  • ❌ 自己写图片拼接/嵌入逻辑
  • ❌ 自己定义列头、行高、样式

原因:脚本已处理字段映射、多照片拼接、行高计算、样式排版、校验报告等,自己写会漏掉这些逻辑导致Excel内容空/排版乱/行高错误。

Schema驱动

每个项目有 schema.json 定义采集项。Excel列头从schema自动读取,不需要硬编码。

⚠️ 自定义Schema必填项(踩坑总结):

  • 每个字段必须display_name(中文列头名),否则Excel列头显示英文字段名
  • 照片字段必须"type": "image",否则脚本无法识别为图片列、不会嵌入照片
  • 照片字段用 photo(字符串),脚本自动兼容 photos(数组)回退处理
  • 内部系统字段(id/display_id/trace_id)脚本会自动跳过,无需特殊处理

正确示例:

{
  "fields": {
    "location": {"type": "string", "required": true, "display_name": "位置"},
    "type": {"type": "string", "required": true, "display_name": "问题类型"},
    "photo": {"type": "image", "required": false, "display_name": "照片"},
    "remark": {"type": "string", "required": false, "display_name": "备注"}
  }
}

错误示例(会导致列头英文/照片不嵌入):

{
  "fields": {
    "location": {"type": "string", "required": true},
    "photo": {"type": "string", "required": false}
  }
}

Excel生成报错处理

遇到报错时,禁止绕过脚本自己写代码! 按以下流程排查:

  1. 读错误信息,定位原因(常见:schema缺display_name、照片字段type不是image、照片路径是数组)
  2. 修数据或schema,重跑脚本
  3. 仍失败→反馈用户,不自己写openpyxl

编号体系(内部)

ID类型用途格式示例
--------------------------
display_id展示/沟通{前缀}-{3位序号}1-001
trace_id回溯{时间戳}{秒序号}{字段序}{内容序}0428181818001001

详细示例见 references/agent-guide.md


交付规则

1. 改前全量校验: 修改数据前校验所有现有数据

2. 改后逐项验证: 每条记录写入后立即验证

3. 交付前自查: 记录已确认、Schema通过、照片匹配


资源索引


文件结构

dialogue-data-collection/
├── SKILL.md
├── references/
│   ├── 采集模板库.md
│   ├── 字段类型规范.md
│   ├── Excel排版规范.md
│   ├── schema规范.md
│   └── agent-guide.md
└── scripts/
    ├── generate_excel.py
    ├── image_processor.py
    └── 数据管理器.py

采集数据/                    # 运行时自动创建
└── {项目名}/
    ├── {项目名}数据.json
    ├── {项目名}照片/
    └── schema.json

核心原则

  1. 字段从用户描述中来:不要先问"你要记哪些字段",而是从用户说的内容里归纳
  2. 确认必执行:识别后必须展示确认,不能跳过
  3. 照片非必填:没有照片也要能记录
  4. 去术语化:对用户说话用大白话,技术实现是内部的事
  5. 必须用脚本生成Excel:调用 scripts/generate_excel.py,禁止自行编写生成逻辑
  6. 生成即校验:每次生成产出物时必须同步运行校验

注意事项

  1. 任何时候都不能跳过用户确认直接记录
  2. 不同项目的照片不能混用同一目录
  3. 列头由用户自定义的采集项决定,不硬编码
  4. 物业场景的位置格式:X层X号房,禁止模糊表述
  5. 物业场景的问题类型不允许"其他",归入最接近的类型;其他场景由AI归纳

版本历史

共 3 个版本

  • v1.0.2 Initial release 当前
    2026-06-01 16:24 安全 安全
  • v1.0.1 Initial release
    2026-05-12 21:04 安全 安全
  • v1.0.0 Initial release
    2026-05-12 20:18 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

business-ops

Stripe

byungkyu
Stripe API 集成,支持托管 OAuth,实现对客户、订阅、发票、产品、价格和支付的可写金融集成。
★ 27 📥 26,129
business-ops

Trello

steipete
使用 Trello REST API 管理看板、列表和卡片
★ 162 📥 41,351
business-ops

Calendar

ndcccccc
日历管理与日程安排。创建事件、管理会议,并实现多日历平台同步。
★ 7 📥 23,256