AI Infra:POINTS-Reader,腾讯开源的文档解析和OCR工具
“用一个语言模型,看图说话,直接吐出结构化文本,靠自打自喂进化。”一、定义端到端视觉-语言OCR:输入一张文档图 → 输出 Markdown + HTML 表格,中间无OCR、无版式分析、无规则引擎。二、架构极简主义组件选择原因视觉编码器NaViT (600M)不是ViT-Base,是“适合批处理的视觉Tokenizer” —— 平衡分辨率与推理速度语言模型Qwen2.5-3B-Instruct不用7B,省显存;用Instruct版,天生懂指令输入格式图片 + 固定Prompt“请提取为Markdown和HTML” —— 指令即任务输出格式纯文本字符串无结构化解析器,全靠LLM生成结构→...