PDF Document Layout Analysis – 开源免费PDF文档分析提取工具

趣软酷站6小时前更新 J.Cling
3 0

PDF Document Layout Analysis 是一款强大的开源PDF文档分析工具,支持准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定它们的正确阅读顺序,大幅提升文档处理效率,使用 Docker 快速部署,支持 GPU 加速,几行命令即可启动服务并开始分析 PDF 文档。

J.Cling 推荐拓展:

主要功能特点

  • 🔍 高级 PDF 布局分析 – 高精度分割和分类 PDF 内容
  • 🖼️ 视觉与快速模型 – 选择 VGT(视觉网格转换器)以获得精度或 LightGBM 以获得速度
  • 📝 多格式输出 – 导出为 JSON、Markdown、HTML,并可视化 PDF 分割
  • 🌐 OCR 支持 – 支持超过 150 种语言,使用 Tesseract OCR
  • 📊 表格与公式提取 – 表格提取为 HTML,公式提取为 LaTeX
  • 🏗️ 清洁架构 – 模块化、可测试、可维护的代码库
  • 🐳 容器化准备 – 支持 GPU,易于部署
  • ⚡ RESTful API – 全面 API,包含 10+个端点

获取方式

官方网站

https://github.com/huridocs/pdf-document-layout-analysis

网盘下载

https://pan.quark.cn/s/68f8aacc22b8

更多趣软酷站请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/internet-resources

© 版权声明

相关文章