OCR识别需要多个工具,布局分析工具拆分文档结构,文本识别模型提取内容,还要额外的手动后处理,来回切换效率低下。
GLM-OCR 把OCR全流程功能全部整合到一起,提供了精准×快速×全面的文档理解解决方案。
不仅有SOTA级多模态OCR模型和布局分析,还支持复杂表格/公式/代码识别,云端API和本地部署,甚至一键CLI/Python调用。
主要功能:
- SOTA性能,在OmniDocBench V1.5得分94.62,文档理解基准排名第一;
- 实景优化,完美处理复杂表格、代码文档、印章等挑战场景;
- 高效推理,仅0.9B参数,支持vLLM/SGLang/Ollama部署,低延迟高并发;
- 超易使用,pip install glmocr 一行命令解析图片/PDF,支持CLI/Python/Flask API;
- 完整SDK,云API(零GPU)或自托管,支持大图/PDF多页文档;
- 模块化架构,可自定义布局检测、OCR调用和结果格式化(JSON/Markdown)。
支持云端API、vLLM/SGLang本地部署、多平台使用,通过pip安装即可快速上手,适合AI开发者和企业文档处理。
GLM-OCR 把OCR全流程功能全部整合到一起,提供了精准×快速×全面的文档理解解决方案。
不仅有SOTA级多模态OCR模型和布局分析,还支持复杂表格/公式/代码识别,云端API和本地部署,甚至一键CLI/Python调用。
主要功能:
- SOTA性能,在OmniDocBench V1.5得分94.62,文档理解基准排名第一;
- 实景优化,完美处理复杂表格、代码文档、印章等挑战场景;
- 高效推理,仅0.9B参数,支持vLLM/SGLang/Ollama部署,低延迟高并发;
- 超易使用,pip install glmocr 一行命令解析图片/PDF,支持CLI/Python/Flask API;
- 完整SDK,云API(零GPU)或自托管,支持大图/PDF多页文档;
- 模块化架构,可自定义布局检测、OCR调用和结果格式化(JSON/Markdown)。
支持云端API、vLLM/SGLang本地部署、多平台使用,通过pip安装即可快速上手,适合AI开发者和企业文档处理。