Dedoc 是一款能将任意格式文档自动转换为统一结构化格式,基于机器学习和 OCR 技术,不仅能处理 Office 文档,还能从PDF和扫描图片中智能提取表格、文本格式和层级结构。平时在处理文档时,会经常遇到各种各样的格式,如 Word、PDF、扫描件等等,就可以整理为统一格式了。项目提供通过 Docker 一键部署方式,也可以在本地 pip 安装使用,适合需要批量处理文档的开发者。
J.Cling 推荐拓展:
主要功能特点
- 支持 DOC/DOCX、PDF、Excel、图像等多种文档格式
- 自动提取文档逻辑结构,包括标题层级和列表关系
- 智能识别和提取表格数据,支持复杂多页表格
- OCR 扫描文档处理,自动纠正文档方向
- 提取文本格式信息,如字体、缩进、样式等
- 支持嵌套文档和压缩包批量处理

更新日志
v2.4
- 将
PyPDF2
升级到pypdf>4
并修复从 PDF 文件中提取附件的错误。 - 为 PDF 文档每页的文本层检测(用于
PdfAutoReader
)添加了each_page_textual_layer_detection
参数。 - 添加了
ENABLE_CANCELLATION
环境变量,用于启用/禁用客户端断开连接后的解析取消(默认启用)。 - 由
PdfTabbyReader
提取的附加图像的固定位置坐标。 - 为具有文本层但编码损坏的 PDF 文档(
pdf_with_text_layer=bad_encoding
)新增了阅读器PdfBrokenEncodingReader
。
获取方式
官方网站
https://github.com/ispras/dedoc
网盘下载
https://pan.quark.cn/s/e83e1c1a8c4b
更多办公输入软件请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/libreoffice
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
© 版权声明
文章版权归作者所有,未经允许请勿转载。