PDF Document Layout Analysis 是一款强大的开源PDF文档分析工具,支持准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定它们的正确阅读顺序,大幅提升文档处理效率,使用 Docker 快速部署,支持 GPU 加速,几行命令即可启动服务并开始分析 PDF 文档。
J.Cling 推荐拓展:
主要功能特点
- 🔍 高级 PDF 布局分析 – 高精度分割和分类 PDF 内容
- 🖼️ 视觉与快速模型 – 选择 VGT(视觉网格转换器)以获得精度或 LightGBM 以获得速度
- 📝 多格式输出 – 导出为 JSON、Markdown、HTML,并可视化 PDF 分割
- 🌐 OCR 支持 – 支持超过 150 种语言,使用 Tesseract OCR
- 📊 表格与公式提取 – 表格提取为 HTML,公式提取为 LaTeX
- 🏗️ 清洁架构 – 模块化、可测试、可维护的代码库
- 🐳 容器化准备 – 支持 GPU,易于部署
- ⚡ RESTful API – 全面 API,包含 10+个端点




获取方式
官方网站
https://github.com/huridocs/pdf-document-layout-analysis
网盘下载
https://pan.quark.cn/s/68f8aacc22b8
更多趣软酷站请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/internet-resources
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
© 版权声明
文章版权归作者所有,未经允许请勿转载。