Logics Parsing – 阿里出品复杂文档转为结构化HTML

Logics-Parsing 是一款阿里技术团队出品的开源免费的可以将复杂文档直接转换为结构化的 HTML 格式工具，不仅能准确识别复杂的科学公式和化学结构，还能自动过滤页眉页脚等无关内容，专注提取核心信息同时支持多种文档输入，包括研究报告、学术论文、化学文档、手写笔记等。在众多基准测试当中，评分超越了很多模型，有复杂文档 OCR 识别需求的同学值得试一下。

主要功能特点

轻松的端到端处理
- 我们的单模型架构消除了对复杂多阶段流程的需求。部署和推理都非常简单，直接从文档图像到结构化输出。
- 它在具有挑战性布局的文档上表现出色。
高级内容识别
- 它能准确识别和结构化复杂内容，包括复杂的科学公式。
- 化学结构被智能识别，并以标准的 SMILES 格式表示。
丰富的结构化 HTML 输出
- 该模型生成文档的清洁 HTML 表示，保留其逻辑结构。
- 每个内容块（例如段落、表格、图表、公式）都标记有它的类别， 边界框坐标 和 OCR 文本 。
- 它自动识别并过滤掉无关元素，如页眉和页脚，只关注核心内容。
最先进的性能
- Logics-Parsing 在我们的内部基准测试中取得了最佳性能，该基准测试专门设计用于全面评估模型在复杂布局文档和 STEM 内容上的解析能力。

官方基准测试

模型类型	方法	总体 ^编辑↓		文本编辑 ^编辑↓		公式 ^编辑↓		表格 ^TEDS ↑		表格 ^编辑 ↓		ReadOrder^编辑↓		Chemistry^编辑 ↓	HandWriting^编辑 ↓
模型类型	方法	EN	ZH	EN	ZH	EN	ZH	EN	ZH	EN	ZH	EN	ZH	ALL	ALL
管道工具	doc2x	0.209	0.188	0.128	0.194	0.377	0.321	81.1	85.3	0.148	0.115	0.146	0.122	1.0	0.307
	文本	0.153	0.158	0.132	0.190	0.185	0.223	76.7	86.3	0.176	0.113	0.118	0.104	1.0	0.344
	mathpix^*	0.128	0.146	0.128	0.152	0.06	0.142	86.2	86.6	0.120	0.127	0.204	0.164	0.552	0.263
	PP_StructureV3	0.220	0.226	0.172	0.29	0.272	0.276	66	71.5	0.237	0.193	0.201	0.143	1.0	0.382
	Mineru2	0.212	0.245	0.134	0.195	0.280	0.407	67.5	71.8	0.228	0.203	0.205	0.177	1.0	0.387
	Marker	0.324	0.409	0.188	0.289	0.285	0.383	65.5	50.4	0.593	0.702	0.23	0.262	1.0	0.50
	Pix2text	0.447	0.547	0.485	0.577	0.312	0.465	64.7	63.0	0.566	0.613	0.424	0.534	1.0	0.95
专家视觉语言模型	海豚	0.208	0.256	0.149	0.189	0.334	0.346	72.9	60.1	0.192	0.35	0.160	0.139	0.984	0.433
	dots.ocr	0.186	0.198	0.115	0.169	0.291	0.358	79.5	82.5	0.172	0.141	0.165	0.123	1.0	0.255
	MonkeyOcr	0.193	0.259	0.127	0.236	0.262	0.325	78.4	74.7	0.186	0.294	0.197	0.180	1.0	0.623
	OCRFlux	0.252	0.254	0.134	0.195	0.326	0.405	58.3	70.2	0.358	0.260	0.191	0.156	1.0	0.284
	Gotocr	0.247	0.249	0.181	0.213	0.231	0.318	59.5	74.7	0.38	0.299	0.195	0.164	0.969	0.446
	Olmocr	0.341	0.382	0.125	0.205	0.719	0.766	57.1	56.6	0.327	0.389	0.191	0.169	1.0	0.294
	SmolDocling	0.657	0.895	0.486	0.932	0.859	0.972	18.5	1.5	0.86	0.98	0.413	0.695	1.0	0.927
	Logics-Parsing	0.124	0.145	0.089	0.139	0.106	0.165	76.6	79.5	0.165	0.166	0.136	0.113	0.519	0.252
通用视觉语言模型	Qwen2VL-72B	0.298	0.342	0.142	0.244	0.431	0.363	64.2	55.5	0.425	0.581	0.193	0.182	0.792	0.359
	Qwen2.5VL-72B	0.233	0.263	0.162	0.24	0.251	0.257	69.6	67	0.313	0.353	0.205	0.204	0.597	0.349
	豆包-1.6	0.188	0.248	0.129	0.219	0.273	0.336	74.9	69.7	0.180	0.288	0.171	0.148	0.601	0.317
	GPT-5	0.242	0.373	0.119	0.36	0.398	0.456	67.9	55.8	0.26	0.397	0.191	0.28	0.88	0.46
	杰尼-2.5 pro	0.185	0.20	0.115	0.155	0.288	0.326	82.6	80.3	0.154	0.182	0.181	0.136	0.535	0.26