一款开源高效文档转换工具，专注将PDF及多种格式文档精准转为纯文本，同时保持自然的阅读顺序

一款开源高效文档转换工具，专注将PDF及多种格式文档精准转为纯文本，同时保持自然的阅读顺序。支持表格、公式、手写内容等复杂元素，适用范围广泛。

该版本基于大量精选学术论文、技术文档等高质量数据训练，结合合成数据与强化学习中的单元测试奖励机制，显著降低了“幻觉”错误，提升了识别准确率。

当前模型在多语言视觉语言模型基础上微调，主要优化英文文档，其他语言也具备一定兼容性。用户不仅可在线体验，还能在自有GPU上部署完整工具包，实现高效、可扩展的批量文档处理，成本低廉。

此工具为科研、教育及档案数字化提供了强大支持，推动文档自动化处理迈向更精准智能的未来。

olmOCR 2 | #工具