Logics Parsing – 阿里出品复杂文档转为结构化HTML

AI软件15小时前更新 J.Cling
3 0

Logics-Parsing 是一款阿里技术团队出品的开源免费的可以将复杂文档直接转换为结构化的 HTML 格式工具,不仅能准确识别复杂的科学公式和化学结构,还能自动过滤页眉页脚等无关内容,专注提取核心信息同时支持多种文档输入,包括研究报告、学术论文、化学文档、手写笔记等。在众多基准测试当中,评分超越了很多模型,有复杂文档 OCR 识别需求的同学值得试一下。


主要功能特点

  • 轻松的端到端处理
    • 我们的单模型架构消除了对复杂多阶段流程的需求。部署和推理都非常简单,直接从文档图像到结构化输出。
    • 它在具有挑战性布局的文档上表现出色。
  • 高级内容识别
    • 它能准确识别和结构化复杂内容,包括复杂的科学公式。
    • 化学结构被智能识别,并以标准的 SMILES 格式表示。
  • 丰富的结构化 HTML 输出
    • 该模型生成文档的清洁 HTML 表示,保留其逻辑结构。
    • 每个内容块(例如段落、表格、图表、公式)都标记有它的 类别  边界框坐标 和 OCR 文本 
    • 它自动识别并过滤掉无关元素,如页眉和页脚,只关注核心内容。
  • 最先进的性能
    • Logics-Parsing 在我们的内部基准测试中取得了最佳性能,该基准测试专门设计用于全面评估模型在复杂布局文档和 STEM 内容上的解析能力。

官方基准测试

模型类型方法总体 编辑 文本编辑 编辑 公式 编辑 表格 TEDS ↑表格 编辑 ↓ReadOrder 编辑 Chemistry编辑 ↓HandWriting编辑 ↓
ENZHENZHENZHENZHENZHENZHALLALL
管道工具doc2x0.2090.1880.1280.1940.3770.32181.185.30.1480.1150.1460.1221.00.307
文本0.1530.1580.1320.1900.1850.22376.786.30.1760.1130.1180.1041.00.344
mathpix*0.1280.1460.1280.1520.060.14286.286.60.1200.1270.2040.1640.5520.263
PP_StructureV30.2200.2260.1720.290.2720.2766671.50.2370.1930.2010.1431.00.382
Mineru20.2120.2450.1340.1950.2800.40767.571.80.2280.2030.2050.1771.00.387
Marker0.3240.4090.1880.2890.2850.38365.550.40.5930.7020.230.2621.00.50
Pix2text0.4470.5470.4850.5770.3120.46564.763.00.5660.6130.4240.5341.00.95
专家视觉语言模型海豚0.2080.2560.1490.1890.3340.34672.960.10.1920.350.1600.1390.9840.433
dots.ocr0.1860.1980.1150.1690.2910.35879.582.50.1720.1410.1650.1231.00.255
MonkeyOcr0.1930.2590.1270.2360.2620.32578.474.70.1860.2940.1970.1801.00.623
OCRFlux0.2520.2540.1340.1950.3260.40558.370.20.3580.2600.1910.1561.00.284
Gotocr0.2470.2490.1810.2130.2310.31859.574.70.380.2990.1950.1640.9690.446
Olmocr0.3410.3820.1250.2050.7190.76657.156.60.3270.3890.1910.1691.00.294
SmolDocling0.6570.8950.4860.9320.8590.97218.51.50.860.980.4130.6951.00.927
Logics-Parsing0.1240.1450.0890.1390.1060.16576.679.50.1650.1660.1360.1130.5190.252
通用视觉语言模型Qwen2VL-72B0.2980.3420.1420.2440.4310.36364.255.50.4250.5810.1930.1820.7920.359
Qwen2.5VL-72B0.2330.2630.1620.240.2510.25769.6670.3130.3530.2050.2040.5970.349
豆包-1.60.1880.2480.1290.2190.2730.33674.969.70.1800.2880.1710.1480.6010.317
GPT-50.2420.3730.1190.360.3980.45667.955.80.260.3970.1910.280.880.46
杰尼-2.5 pro0.1850.200.1150.1550.2880.32682.680.30.1540.1820.1810.1360.5350.26

* 在 v3/PDF 转换 API(2025 年 8 月部署)上测试。

现有的文档解析基准测试通常对复杂布局和 STEM 内容的覆盖范围有限。为了解决这个问题,我们构建了一个内部基准测试,包含九个主要类别和二十多个子类别的 1,078 张页面级图像。我们的模型在这个基准测试上取得了最佳性能。

获取方式

官方网站

https://github.com/alibaba/Logics-Parsing

https://logics.alibaba-inc.com/parsing/?spm=label.2ef5001f.0.0.40cc21594Aw9En

在线演示:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

网盘下载

https://pan.quark.cn/s/bd68d3cb3aad

更多趣软酷站请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/internet-resources

© 版权声明

相关文章