AI Infra：Allenai updating olmOCR，基座是 Qwen2.5-VL

https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

olmOCR-2-7B-1025-FP8

这是 olmOCR-2-7B-1025 的 FP8 量化版本

基于 Qwen/Qwen2.5-VL-7B-Instruct，并在专用 OCR 数据集上做 SFT，再用 RL（GRPO）继续微调以提升数学公式、表格等“棘手 OCR 场景”的性能。

参数规模：页面标注 约 8B 参数，并提供 bfloat16 与 FP8（F8_E4M3）等张量/量化文件格式。用一个叫 olmOCR-mix-1025 的 SFT 数据集做指令微调（针对文档 OCR 场景），再用 GRPO RL 强化训练专门提升数学、表格等难例表现。

使用说明

输入要求：模型期望输入为单页文档图像，且最长边渲染到 1288 像素（olmOCR toolkit 会负责渲染/预处理/重试/旋转等）
提示与元数据：模型的 prompt 应包含由工具提取的页面元数据（文本块、位置等）。推荐使用 olmOCR toolkit 来自动构建这些 prompt，否则需要手动复制 toolkit 中的 prompt 构建逻辑

标签：infra, ai