DeekSeek-OCR Dockerized API 是一款基于 DeepSeek-OCR 模型开发的高质量的 PDF 文档转 Markdown 文件开源工具。不仅能准确地识别文档内容,还能完整保留原始格式结构,以及自动提取文档中的图片。支持标准化的 Markdown 转换、纯 OCR 提取和自定义提示词处理等多种模式,以及批量处理多个文档。
通过 Docker 部署使用,并配备完整的 REST API 接口方便集成,注意电脑的显卡至少要 12GB 显存。
J.Cling 推荐拓展:
- Arya – 在线开源数据本地化Markdown编辑器
- WXMP – 微信公众号 Markdown编辑器
- MKEditor – 一款简单好用Markdown编辑器
- Yank Note – 插件化 Markdown 笔记应用
- MarkPDFDown – 智能PDF转换Markdown工具
- noted.md – 仅一条命令便可完成手写笔记转为Markdown文档
- Cpdown – 一键将任何网页转换成干净的Markdown格式
主要功能特点
- 批量处理 :使用
/ocr/batch端点一次性处理多个文件 - 优化 DPI:默认的 144 DPI 在质量和速度之间提供了良好的平衡
- GPU 利用率 : 根据 GPU 容量调整
GPU_MEMORY_UTILIZATION - 并发性 : 在强大的 GPU 上提高吞吐量,增加
MAX_CONCURRENCY - 文件大小 : 对于大 PDF 文件,考虑将其拆分成更小的块

官方使用说明
硬件要求
- NVIDIA GPU 支持 CUDA 11.8+
- GPU 内存 :最低 12GB VRAM(模型约占用 9GB)
- 系统内存 :最低 32GB(推荐:64GB+)
- 存储 : 50GB+ 的免费空间用于模型和容器
软件要求
- Python 3.8+ (用于本地处理)
- Docker 20.10+ 带有 GPU 支持
- Docker Compose 2.0+
- NVIDIA Container Toolkit 已安装
- CUDA 11.8 兼容驱动
📊 处理器对比
| 处理器 | 提示 | 后处理 | 图像提取 | 输出后缀 | 使用场景 |
|---|---|---|---|---|---|
pdf_to_markdown_processor.py | Markdown | ❌ | ❌ | -MD.md | 快速 markdown 转换 |
pdf_to_markdown_processor_enhanced.py | Markdown | ✅ | ✅ | -MD.md | 带图片的完整功能 markdown |
pdf_to_ocr_enhanced.py | 免费 OCR | ✅ | ✅ | -OCR.md | 原始文本提取 |
pdf_to_custom_prompt.py | 自定义(YAML) | ❌ | ❌ | -CUSTOM.md | 测试自定义提示 |
pdf_to_custom_prompt_enhanced.py | 自定义(YAML) | ✅ | ✅ | -CUSTOM.md | 具备全部功能的自定义提示 |
获取方式
官方网站
https://github.com/Bogdanovich77/DeekSeek-OCR—Dockerized-API
网盘下载
https://pan.quark.cn/s/b2757139a4db
更多AI软件请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
