智谱AI(ZhipuAI)发布最新GLM-OCR技术报告,详细披露了这款

智能工具派 2026-03-18 20:21:52

智谱 AI(Zhipu AI)发布最新 GLM-OCR 技术报告,详细披露了这款仅有 0.9B 参数 的轻量级模型如何实现超越大模型的文档理解能力。它本质上是一个专为真实场景设计的结构化信息提取工具,能低成本、高效率地处理复杂表格、印章及多语言文档。 💎 关键点 1️⃣ “小而美”的极致性能 仅 0.9B 参数(0.4B 视觉 + 0.5B 语言),在表格识别、印章和票据提取等多个指标上超越了 Gemini-3 Pro 和 GPT-5 等千亿级闭源模型。 2️⃣ 引入“先拆后读”的版面分析 针对小模型易幻觉的问题,采用两阶段流水线:先进行版面检测(PP-DocLayout-V3)将复杂页面拆解,再由核心模型并行识别,极大提升了长文档的稳定性。 3️⃣ 首创多 Token 预测(MTP)机制 打破逐个字生成的低效,一次预测多个 Token。这不仅让推理速度提升,还增强了 Markdown 语法和表格标签的结构连贯性。 4️⃣ 极致的落地成本与部署 支持边缘端部署(如手机/嵌入式),且云端 API 价格极低(1元可处理约2000张A4图),成本仅为传统方案的 1/10。 🚀 小结 文档处理正从“纯文字识别”转向“端到端结构化理解”。未来企业不再需要复杂的后处理规则,模型直接输出可用的 JSON 或 Markdown 将成为标配。

0 阅读:0
智能工具派

智能工具派

感谢大家的关注