OCR识别需要多个工具，布局分析工具拆分文档结构，文本识别模型提取内容，还要额外的手动后处理，来回切换效率低下

OCR识别需要多个工具，布局分析工具拆分文档结构，文本识别模型提取内容，还要额外的手动后处理，来回切换效率低下。

GLM-OCR 把OCR全流程功能全部整合到一起，提供了精准×快速×全面的文档理解解决方案。

不仅有SOTA级多模态OCR模型和布局分析，还支持复杂表格/公式/代码识别，云端API和本地部署，甚至一键CLI/Python调用。

主要功能：

- SOTA性能，在OmniDocBench V1.5得分94.62，文档理解基准排名第一；
- 实景优化，完美处理复杂表格、代码文档、印章等挑战场景；
- 高效推理，仅0.9B参数，支持vLLM/SGLang/Ollama部署，低延迟高并发；
- 超易使用，pip install glmocr 一行命令解析图片/PDF，支持CLI/Python/Flask API；
- 完整SDK，云API（零GPU）或自托管，支持大图/PDF多页文档；
- 模块化架构，可自定义布局检测、OCR调用和结果格式化（JSON/Markdown）。

支持云端API、vLLM/SGLang本地部署、多平台使用，通过pip安装即可快速上手，适合AI开发者和企业文档处理。