Chandra – 将图像和PDF转为良好结构的HTML/Markdown/JSON

AI软件12小时前更新 J.Cling
2 0

Chandra 是一款基于深度学习的开源OCR模型,支持将图像和PDF高精度地转换为HTML、Markdown 或 JSON等结构化格式。它在完成文本提取的同时,能够出色地保留原始文档的布局信息,这对于处理包含页眉页脚、复杂表格、数学公式乃至手写内容的文档至关重要。

此外,该工具支持超过40种语言的识别,并针对手写体、表单(包括复选框)、以及学术文献中的数学公式做了专项优化。它提供本地(HuggingFace)和远程(vLLM服务器)两种部署模式,并配备了命令行工具与交互式Web界面,便于集成与批量处理。

J.Cling 推荐拓展:


主要功能特点

  • 将文档转换为带有详细布局信息的 Markdown、HTML 或 JSON
  • 良好的手写支持
  • 精确重建表单,包括复选框
  • 对表格、数学和复杂布局的良好支持
  • 提取图像和图表,包含标题和结构化数据
  • 支持40多种语言
  • 两种推理模式:本地(HuggingFace)和远程(vLLM 服务器)

官方使用说明

见网盘

更新日志

v0.1.7

  • 正确渲染 pdf 图像

获取方式

官方网站

https://github.com/datalab-to/chandra

https://www.datalab.to

网盘下载

https://pan.quark.cn/s/ffe950d20d3e

更多AI软件请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software

© 版权声明

相关文章