Umi-OCR – 免费开源本地离线批量文字识别工具

Umi-OCR 是一款完全免费、开源、支持离线批量操作的文字识别（OCR）软件，基于PaddleOCR和RapidOCR引擎开发。它专为Windows和Linux系统设计，无需联网即可快速识别图片、PDF中的文字，并支持智能排版优化、水印排除等实用功能。

主要特点：

隐私安全：所有数据处理均在本地完成

高效批量：支持同时处理数百张图片

多场景适配：常规文字、手写体、复杂背景均可识别

功能详解（小白友好版）

1. 基础识别功能

截图识别
通过快捷键唤出截图工具，框选屏幕任意区域即可识别文字。识别结果可直接编辑复制，适合快速提取软件界面或视频字幕。
批量图片处理
直接拖拽图片或文件夹到软件窗口，自动识别jpg/png等常见格式。支持保存为TXT、Markdown、Excel等格式，适合整理扫描文档或电子书。
PDF专项处理
可将扫描版PDF转换为可搜索的电子文档（双层PDF），并能排除页眉页脚干扰。

2. 特色进阶功能

智能排版优化
自动合并被错误分割的文字段落，提供6种排版方案：
多栏自然段（适合杂志排版）
单栏保留缩进（适合代码截图）
竖排文字识别（需模型支持）
忽略区域设置
用矩形框标记图片中的水印/LOGO区域，这些区域的文字将被自动排除。特别适合处理游戏UI截图或带水印的影视截图。
多语言支持
内置简中/英文识别库，可扩展安装繁中、日、韩、俄等语言包。

3. 辅助工具

二维码识别与生成（支持19种编码格式）
公式识别（测试阶段功能）
命令行/HTTP接口调用（开发者适用）

使用教程（三步入门）

步骤1：下载安装

官网提供两种引擎版本：
Paddle版：识别速度快，需CPU支持AVX指令集（多数现代电脑符合）
Rapid版：兼容老旧CPU，速度稍慢
解压即用，无需安装（注意：需保持PaddleOCR-json文件夹与主程序同级目录）

步骤2：基础操作

    A[启动软件] --> B{选择模式}
    B -->|截图识别| C[按快捷键截图]
    B -->|批量处理| D[拖入图片文件夹]
    C & D --> E[自动识别文字]
    E --> F[保存为所需格式]

步骤3：高级设置

调整识别参数：在”全局设置”中修改语言、主题等
配置忽略区域：在批量识别页面右键绘制排除区域
设置自动关机：处理大量文件时可启用

适用场景案例

场景	对应功能	效果提升
纸质文档电子化	批量识别+PDF输出	效率提升5-10倍
学术资料整理	公式识别+多栏排版	减少80%排版时间
游戏字幕提取	忽略区域+竖排识别	准确率提高至92%
涉外合同处理	多语言扩展包	支持14种语言识别

用户常见问题

Q1：识别时提示”引擎初始化失败”？
→ 检查CPU是否支持AVX指令集，或换用Rapid引擎版本
Q2：多屏幕截图异常？
→ 将所有显示器缩放比例调整为相同数值
Q3：如何添加新语言？
→ 下载对应语言的rec识别模型和字典文件，放置于PaddleOCR-json文件夹

特性	Umi-OCR	某商业OCR	某在线OCR
离线使用	✓	×	×
批量处理	✓(无数量限制)	✓(限量)	×
价格	完全免费	订阅制	按次收费
排版优化	6种方案	基础合并	无

更新日志

v2.1.5 主要更新：

新增：日志机制。在命令行中启动可查看实时日志。指定级别以上（默认为ERROR）的日志被保存到 Umi-OCR/UmiOCR-data/logs 目录中，保存级别可以在全局设置标签页中更改。
新增：大部分标签页能手动切换左右/上下双栏模式。 (#789)
新增：Esc键隐藏主窗口。 (#652)
新增：调整二维码生成相关参数后，自动刷新二维码生成。 (#690)
新增：命令行指令 --reload ，用于重新加载配置文件。 👉 文档
修复：文档识别提取PDF自带的文本内容时，未考虑页面旋转的影响。 (#785)
修复：文档识别生成单层PDF时，未写入原PDF自带的文本内容。
修复：OCR结果展示列表的一些显示Bug和鼠标划选Bug。
修复：调整标签页顺序或删除标签页后，未及时保存顺序信息。
修复：HTTP接口 /api/doc/download 参数 ignore_blank 的错误。
修复：Linux版本截图时，系统任务栏推移顶层窗口，导致截图位置偏移。 (#778)
修复：Linux版本截图后，主窗口的位置与操作前不一致。
优化：图片/文档的异步加载机制。现在可以流畅地加载含有数万个子文件的文件夹，且能预览加载进度。 (#710)
Windows 版本更新第三方依赖库：PyMuPDF 1.24.11 ,fontTools 4.56.0 ,Pillow 10.4.0 ,psutil 10.4.0 ,pynput 1.8.0 ,zxing-cpp 2.3.0
新增UI语言：俄语 Русский ，译者：Вячеслав Анатольевич Малышев、Muhammadyusuf Kurbonov。泰米尔语 தமிழ் ，译者：தமிழ்நேரம்。