Logics-Parsing 是一款阿里技术团队出品的开源免费的可以将复杂文档直接转换为结构化的 HTML 格式工具,不仅能准确识别复杂的科学公式和化学结构,还能自动过滤页眉页脚等无关内容,专注提取核心信息同时支持多种文档输入,包括研究报告、学术论文、化学文档、手写笔记等。在众多基准测试当中,评分超越了很多模型,有复杂文档 OCR 识别需求的同学值得试一下。

主要功能特点
- 轻松的端到端处理
- 我们的单模型架构消除了对复杂多阶段流程的需求。部署和推理都非常简单,直接从文档图像到结构化输出。
- 它在具有挑战性布局的文档上表现出色。
- 高级内容识别
- 它能准确识别和结构化复杂内容,包括复杂的科学公式。
- 化学结构被智能识别,并以标准的 SMILES 格式表示。
- 丰富的结构化 HTML 输出
- 该模型生成文档的清洁 HTML 表示,保留其逻辑结构。
- 每个内容块(例如段落、表格、图表、公式)都标记有它的 类别 , 边界框坐标 和 OCR 文本 。
- 它自动识别并过滤掉无关元素,如页眉和页脚,只关注核心内容。
- 最先进的性能
- Logics-Parsing 在我们的内部基准测试中取得了最佳性能,该基准测试专门设计用于全面评估模型在复杂布局文档和 STEM 内容上的解析能力。

官方基准测试

模型类型 | 方法 | 总体 编辑 ↓ | 文本编辑 编辑 ↓ | 公式 编辑 ↓ | 表格 TEDS ↑ | 表格 编辑 ↓ | ReadOrder 编辑 ↓ | Chemistry编辑 ↓ | HandWriting编辑 ↓ | ||||||
EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH | ALL | ALL | ||
管道工具 | doc2x | 0.209 | 0.188 | 0.128 | 0.194 | 0.377 | 0.321 | 81.1 | 85.3 | 0.148 | 0.115 | 0.146 | 0.122 | 1.0 | 0.307 |
文本 | 0.153 | 0.158 | 0.132 | 0.190 | 0.185 | 0.223 | 76.7 | 86.3 | 0.176 | 0.113 | 0.118 | 0.104 | 1.0 | 0.344 | |
mathpix* | 0.128 | 0.146 | 0.128 | 0.152 | 0.06 | 0.142 | 86.2 | 86.6 | 0.120 | 0.127 | 0.204 | 0.164 | 0.552 | 0.263 | |
PP_StructureV3 | 0.220 | 0.226 | 0.172 | 0.29 | 0.272 | 0.276 | 66 | 71.5 | 0.237 | 0.193 | 0.201 | 0.143 | 1.0 | 0.382 | |
Mineru2 | 0.212 | 0.245 | 0.134 | 0.195 | 0.280 | 0.407 | 67.5 | 71.8 | 0.228 | 0.203 | 0.205 | 0.177 | 1.0 | 0.387 | |
Marker | 0.324 | 0.409 | 0.188 | 0.289 | 0.285 | 0.383 | 65.5 | 50.4 | 0.593 | 0.702 | 0.23 | 0.262 | 1.0 | 0.50 | |
Pix2text | 0.447 | 0.547 | 0.485 | 0.577 | 0.312 | 0.465 | 64.7 | 63.0 | 0.566 | 0.613 | 0.424 | 0.534 | 1.0 | 0.95 | |
专家视觉语言模型 | 海豚 | 0.208 | 0.256 | 0.149 | 0.189 | 0.334 | 0.346 | 72.9 | 60.1 | 0.192 | 0.35 | 0.160 | 0.139 | 0.984 | 0.433 |
dots.ocr | 0.186 | 0.198 | 0.115 | 0.169 | 0.291 | 0.358 | 79.5 | 82.5 | 0.172 | 0.141 | 0.165 | 0.123 | 1.0 | 0.255 | |
MonkeyOcr | 0.193 | 0.259 | 0.127 | 0.236 | 0.262 | 0.325 | 78.4 | 74.7 | 0.186 | 0.294 | 0.197 | 0.180 | 1.0 | 0.623 | |
OCRFlux | 0.252 | 0.254 | 0.134 | 0.195 | 0.326 | 0.405 | 58.3 | 70.2 | 0.358 | 0.260 | 0.191 | 0.156 | 1.0 | 0.284 | |
Gotocr | 0.247 | 0.249 | 0.181 | 0.213 | 0.231 | 0.318 | 59.5 | 74.7 | 0.38 | 0.299 | 0.195 | 0.164 | 0.969 | 0.446 | |
Olmocr | 0.341 | 0.382 | 0.125 | 0.205 | 0.719 | 0.766 | 57.1 | 56.6 | 0.327 | 0.389 | 0.191 | 0.169 | 1.0 | 0.294 | |
SmolDocling | 0.657 | 0.895 | 0.486 | 0.932 | 0.859 | 0.972 | 18.5 | 1.5 | 0.86 | 0.98 | 0.413 | 0.695 | 1.0 | 0.927 | |
Logics-Parsing | 0.124 | 0.145 | 0.089 | 0.139 | 0.106 | 0.165 | 76.6 | 79.5 | 0.165 | 0.166 | 0.136 | 0.113 | 0.519 | 0.252 | |
通用视觉语言模型 | Qwen2VL-72B | 0.298 | 0.342 | 0.142 | 0.244 | 0.431 | 0.363 | 64.2 | 55.5 | 0.425 | 0.581 | 0.193 | 0.182 | 0.792 | 0.359 |
Qwen2.5VL-72B | 0.233 | 0.263 | 0.162 | 0.24 | 0.251 | 0.257 | 69.6 | 67 | 0.313 | 0.353 | 0.205 | 0.204 | 0.597 | 0.349 | |
豆包-1.6 | 0.188 | 0.248 | 0.129 | 0.219 | 0.273 | 0.336 | 74.9 | 69.7 | 0.180 | 0.288 | 0.171 | 0.148 | 0.601 | 0.317 | |
GPT-5 | 0.242 | 0.373 | 0.119 | 0.36 | 0.398 | 0.456 | 67.9 | 55.8 | 0.26 | 0.397 | 0.191 | 0.28 | 0.88 | 0.46 | |
杰尼-2.5 pro | 0.185 | 0.20 | 0.115 | 0.155 | 0.288 | 0.326 | 82.6 | 80.3 | 0.154 | 0.182 | 0.181 | 0.136 | 0.535 | 0.26 |
* 在 v3/PDF 转换 API(2025 年 8 月部署)上测试。
现有的文档解析基准测试通常对复杂布局和 STEM 内容的覆盖范围有限。为了解决这个问题,我们构建了一个内部基准测试,包含九个主要类别和二十多个子类别的 1,078 张页面级图像。我们的模型在这个基准测试上取得了最佳性能。
获取方式
官方网站
https://github.com/alibaba/Logics-Parsing
https://logics.alibaba-inc.com/parsing/?spm=label.2ef5001f.0.0.40cc21594Aw9En
在线演示:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary
网盘下载
https://pan.quark.cn/s/bd68d3cb3aad
更多趣软酷站请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/internet-resources
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
© 版权声明
文章版权归作者所有,未经允许请勿转载。