Dedoc – 将任意格式自动转为统一格式|提取分析PDF文档等

办公输入17小时前更新 J.Cling
2 0

Dedoc 是一款能将任意格式文档自动转换为统一结构化格式,基于机器学习和 OCR 技术,不仅能处理 Office 文档,还能从PDF和扫描图片中智能提取表格、文本格式和层级结构。平时在处理文档时,会经常遇到各种各样的格式,如 Word、PDF、扫描件等等,就可以整理为统一格式了。项目提供通过 Docker 一键部署方式,也可以在本地 pip 安装使用,适合需要批量处理文档的开发者。

J.Cling 推荐拓展:

主要功能特点

  • 支持 DOC/DOCX、PDF、Excel、图像等多种文档格式
  • 自动提取文档逻辑结构,包括标题层级和列表关系
  • 智能识别和提取表格数据,支持复杂多页表格
  • OCR 扫描文档处理,自动纠正文档方向
  • 提取文本格式信息,如字体、缩进、样式等
  • 支持嵌套文档和压缩包批量处理

更新日志

v2.4

  • 将 PyPDF2 升级到 pypdf>4 并修复从 PDF 文件中提取附件的错误。
  • 为 PDF 文档每页的文本层检测(用于 PdfAutoReader)添加了 each_page_textual_layer_detection 参数。
  • 添加了 ENABLE_CANCELLATION 环境变量,用于启用/禁用客户端断开连接后的解析取消(默认启用)。
  • 由 PdfTabbyReader 提取的附加图像的固定位置坐标。
  • 为具有文本层但编码损坏的 PDF 文档( pdf_with_text_layer=bad_encoding )新增了阅读器 PdfBrokenEncodingReader

获取方式

官方网站

https://github.com/ispras/dedoc

网盘下载

https://pan.quark.cn/s/e83e1c1a8c4b

更多办公输入软件请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/libreoffice

© 版权声明

相关文章