AI Infra:Allenai updating olmOCR,基座是 Qwen2.5-VL
https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8olmOCR-2-7B-1025-FP8这是 olmOCR-2-7B-1025 的 FP8 量化版本基于 Qwen/Qwen2.5-VL-7B-Instruct,并在专用 OCR 数据集上做 SFT,再用 RL(GRPO)继续微调以提升数学公式、表格等“棘手 OCR 场景”的性能。参数规模:页面标注 约 8B 参数,并提供 bfloat16 与 FP8(F8_E4M3)等张量/量化文件格式。用一个叫 olmOCR-mix-1025 的 SFT 数据集做指令微调(针对文档 OCR 场景),...