AI Infra:POINTS-Reader,腾讯开源的文档解析和OCR工具
“用一个语言模型,看图说话,直接吐出结构化文本,靠自打自喂进化。”
一、定义
端到端视觉-语言OCR:
输入一张文档图 → 输出 Markdown + HTML 表格,中间无OCR、无版式分析、无规则引擎。
二、架构极简主义
组件 | 选择 | 原因 |
---|---|---|
视觉编码器 | NaViT (600M) | 不是ViT-Base,是“适合批处理的视觉Tokenizer” —— 平衡分辨率与推理速度 |
语言模型 | Qwen2.5-3B-Instruct | 不用7B,省显存;用Instruct版,天生懂指令 |
输入格式 | 图片 + 固定Prompt | “请提取为Markdown和HTML” —— 指令即任务 |
输出格式 | 纯文本字符串 | 无结构化解析器,全靠LLM生成结构 |
→ 一切结构化,都是语言模型“猜”出来的。
三、核心创新:自演化训练(Self-Evolution)
- 第一阶段:用合成文档(AI生成PDF→截图+文本对)教它基本能力
- 第二阶段:让模型自己给真实文档打标签 → 挑高质量生成结果 → 用这些“自产数据”再训练自己
→ 像人自学:先看教材,再自己做题,对答案,错的重来
无需人工标注真实数据 → 可无限扩展
模型越强,数据越准 → 正反馈闭环
四、性能真相
指标 | 值 | 意义 |
---|---|---|
Edit Distance | 英文0.133,中文0.212 | 比多数OCR+规则系统低(越低越好) |
TEDS | 较高 | 表格识别优于传统Pipeline |
读序错误 | 低 | 懂“从左到右、从上到下”——视觉+文本协同推理 |
→ 不是最强,但最平衡:不输专业OCR,省掉5个模块。
五、适用场景
- 电子书/pdf扫描件(印刷体、版面标准)
- 财报、合同、发票(固定格式、无手写)
- 学术论文(含公式,它能吃 LaTeX)
→ 不适配:手写笔记、老档案、杂乱照片、多语言混排。
总结
POINTS-Reader 不是OCR的升级,而是用LLM重构了OCR的定义:不是“识别文字”,而是“理解文档”。
它把十年的OCR技术栈,压缩成一个会看图的对话模型,靠自动生成数据成长,靠指令驱动一切。
它不完美,但它证明了一件事:你不需要复杂的系统,你只需要一个足够强的模型,和一个会“喂自己”的训练法。
https://github.com/Tencent/POINTS-Reader
标签:ai