MonkeyOCR：基于结构 - 识别 - 关系三元组范式的文档解析模型

https://huggingface.co/echo840/MonkeyOCR

MonkeyOCR 是一个通过「结构 – 识别 – 逻辑」三级解耦的高效文档解析框架，依托新数据集 MonkeyDoc 和轻量模型，在多语言、多类型文档任务上展现出了超越现有方法的性能与效率。

SRR = Structure (布局检测) + Recognition (内容识别) + Relation (关系预测)

Structure detection：YOLO-based 检测文档中 blocks（text, table, formula, image）及其位置。
Content recognition：不同 block 类型使用专用识别模块 + type prompt。
Relation prediction / reading order：输出逻辑顺序（如 JSON / Markdown）。

设计优势：分解任务降低误差传递，结合 pipeline 的可调优性与端到端的简洁性。

在 OmniDocBench 上全面优于 LLMs + VLMs（如 72B Qwen2.5）

MonkeyOCR-pro-1.2B 是 MonkeyOCR 系列中一个轻量／加速的变体（leaner & faster version），对硬件要求极低。

相比 MonkeyOCR-3B，它在中文文档上提升约 7.4% 的准确率。与 3B 版本相比，速度提升约 36%，但性能有小幅下降（大致 ~1.6% 的 drop）

https://huggingface.co/echo840/MonkeyOCR-pro-1.2B

标签：ai