https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

olmOCR-2-7B-1025-FP8

这是 olmOCR-2-7B-1025 的 FP8 量化版本

  • 基于 Qwen/Qwen2.5-VL-7B-Instruct,并在专用 OCR 数据集上做 SFT,再用 RL(GRPO)继续微调以提升数学公式、表格等“棘手 OCR 场景”的性能。

参数规模:页面标注 约 8B 参数,并提供 bfloat16 与 FP8(F8_E4M3)等张量/量化文件格式。用一个叫 olmOCR-mix-1025 的 SFT 数据集做指令微调(针对文档 OCR 场景),再用 GRPO RL 强化训练专门提升数学、表格等难例表现。

使用说明

  • 输入要求:模型期望输入为单页文档图像,且最长边渲染到 1288 像素(olmOCR toolkit 会负责渲染/预处理/重试/旋转等)
  • 提示与元数据:模型的 prompt 应包含由工具提取的页面元数据(文本块、位置等)。推荐使用 olmOCR toolkit 来自动构建这些 prompt,否则需要手动复制 toolkit 中的 prompt 构建逻辑

标签:infra, ai

你的评论