Unlimited OCR 是一款专为长文本与多页文档打造的 OCR 解析引擎,将单次推理的视野从单页扩展到整篇文档,真正实现「一镜到底」的高精度解析。

它既支持单图 gundam/base 双模式推理,也能直接对 PDF 多页进行批量处理,同时提供 Transformers 与 SGLang 两种部署方案,满足从本地快速验证到服务化部署的全流程需求。

主要功能:
- 单图/多页一键解析,支持高达 32k token 的超长输出;
- gundam(局部裁剪)与 base(全局)两种图像模式,兼顾细节与全局一致性;
- 原生支持 PDF 自动切页与多图并行推理;
- 提供 Transformers 与 SGLang 两种推理后端,兼容 OpenAI 风格流式 API;
- 内置 N-gram 重复抑制与自定义 Logit Processor,显著提升长文本连贯性;
- 轻量化依赖,通过 pip/uv 即可在 NVIDIA GPU 上快速启动。

无论你是做学术文献数字化,还是构建企业级文档 pipeline,Unlimited OCR 都能提供稳定高效的解析能力。
 
 
Back to Top