https://huggingface.co/echo840/MonkeyOCR

MonkeyOCR 是一个通过「结构 – 识别 – 逻辑」三级解耦的高效文档解析框架,依托新数据集 MonkeyDoc 和轻量模型,在多语言、多类型文档任务上展现出了超越现有方法的性能与效率。

一、核心贡献:SRR 三元组范式

SRR = Structure (布局检测) + Recognition (内容识别) + Relation (关系预测)
  • Structure detection:YOLO-based 检测文档中 blocks(text, table, formula, image)及其位置。
  • Content recognition:不同 block 类型使用专用识别模块 + type prompt。
  • Relation prediction / reading order:输出逻辑顺序(如 JSON / Markdown)。

设计优势:分解任务降低误差传递,结合 pipeline 的可调优性与端到端的简洁性。


二、数据集:MonkeyDoc

  • 总量:约 3.9M 个 block 级实例
  • 类型覆盖:教科书、论文、财报、手写笔记、多栏排版、中英文混合等十类以上
  • 标注方式:公开数据聚合 + 合成生成(弥补中文缺项)+ 自动 + 人工校正
  • 目标:支持结构/内容/阅读关系三类子任务并统一 label schema

三、实验结果:3B 模型 vs SOTA

任务对比模型MonkeyOCR 提升(百分比)
表格识别(表格转录)MinerU+8.6%
公式识别-+15.0%
多页处理速度MinerU (~0.65ps)0.84 pages/sec

在 OmniDocBench 上全面优于 LLMs + VLMs(如 72B Qwen2.5)


四、训练与硬件

  • 优化器:AdamW
  • 学习率:2e-5
  • batch size:64
  • 训练时长:~53h(32 × A800)
  • 部署友好:3090 GPU 可运行(显存要求适中)

五、亮点

  1. 减少错误累积,分阶段控制质量;
  2. 中文语料补齐(公式/表格稀缺场景);
  3. 推理效率高(吞吐快);
  4. 小模大能,小体量超过部分大模型;
  5. 结构 + 内容 + 关系三位一体解析。

六、MonkeyOCR-pro-1.2B 模型

MonkeyOCR-pro-1.2B 是 MonkeyOCR 系列中一个 轻量/加速 的变体(leaner & faster version),对硬件要求极低。

相比 MonkeyOCR-3B,它在中文文档上 提升约 7.4% 的准确率。与 3B 版本相比,速度提升约 36%,但性能有小幅下降(大致 ~1.6% 的 drop)

https://huggingface.co/echo840/MonkeyOCR-pro-1.2B

标签:ai

你的评论