嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法

DocExt 是来自 Nanonets 的开源项目,旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型,支持字段与表格识别。

项目介绍

随着 AI 大模型时代的到来,传统 OCR + LLM 的繁琐流程经常需要人工调优、模板设定和外部 API 支持。DocExt(Document Extractor)颠覆这一传统,直接采用视觉语言模型(VLM)实现文档图像的语义理解:

  • 零 OCR:不再依赖 Tesseract / EasyOCR 等引擎,避免 OCR 错误传播;

  • 零云调用:本地部署,完全离线运行,保障数据隐私;

  • 零模板限制:无需手工制定模板,使用预设字段或自定义字段即可工作。

该项目同时也是 Intelligent Document Processing(IDP)排行榜的组成部分,覆盖 KIE、OCR、表格识别、文档分类、VQA、长文档处理等任务。最新之间更新包括对 Gemini、Claude、Qwen 等模型的评估趋势。

核心功能

多文档多页支持

支持 PNG/JPG/PDF 等多格式文档,能一次处理多页文档,全流程 API 内置支持——无需分割文档、合并结果,自动完成。

字段与表格双轨抽取

支持关键信息提取与表格结构识别:适用于发票项目、身份证字段和账单行项目等多种表单类型。

置信度量化

提取结果附带置信度评分,方便用户进行后续校验或合并调度。

本地部署 & HTTP API

支持命令行调用,也可以 RESTful API 形式在 Linux/MacOS 系统中本地部署运行。零外部依赖,适合处理敏感文件。

多模型支持(可选)

支持集成 GPT-4、Gemini、Claude、OpenAI、OpenRouter 等多个 hosted 模型,也可纯本地运行 VLM 模式进行零 OCR 处理。用户可按场景需求自由切换。

Gradio Web 界面

内置简洁界面(Gradio 驱动),支持文件拖拽、字段与表格可视化标注,操作直观友好。

IDP Leaderboard 支持

项目与多个主流公开数据集和模型进行比对,参与 IDP Leaderboard 排行榜中的多项任务评测。

技术架构

使用视觉语言模型实现端到端图像理解,并以模块化方式集成。下表对核心组件做总结:

模块 技术/组件 作用与特点
图像输入 PIL、OpenCV、PDF 解析库 支持图片与 PDF 自动分页加载
VLM 驱动 Qwen-2.5-VL 系列等 提供端到端理解,无 OCR 模块依赖
字段抽取 VLM + 预设/自定义字段模板 自动识别字段标签和内容
表格提取 VLM 结合布局分析 自动还原表格结构(表头/行列)
置信度计算 VLM 内置信度输出 核心数据附带可信度
Web UI Gradio 拖拽上传,自动校验、数据导出
REST 服务 FastAPI 或 Flask(图标建议) 适合集成业务系统
多模型接入 支持 Gemini、Claude 等 hosted 问答 兼容多场景部署

界面展示

项目自带 Gradio demo,本地启动无需繁琐配置。

pip install docext
python -m docext.app.app

启动后打开 Web 页面,可看到以下典型界面模块:

  • 文档上传区域:拖拽或选择 PDF/图片后,自动触发处理,可批量上传;

  • 字段 & 表格识别结果:关键字段高亮展示、表格直观渲染;

  • 导出按钮:一键导出 JSON、CSV、Markdown 等格式,适合各类使用习惯。

使用案例

安装与快速应用

pip install docext

或通过 Docker 运行:

docker pull nanonets/docext:latest
docker run -p 8080:8080 nanonets/docext

命令行示例

docext extract \
  --input ./invoices/ \
  --output ./results/ \
  --output-format json \
  --max_num_imgs 5

支持多页、格式、输出类型定制。

Python API 调用

from docext import extract
# 提取单文档 JSON
:contentReference[oaicite:37]{index=37}
print(result)

集成 hosted 模型示例

export OPENAI_API_KEY=...
pip install openai
# 在启动中指定 hosted 模型
:contentReference[oaicite:38]{index=38}

Web 界面运行

python -m docext.app.app

同类项目

项目名称 GitHub ⭐ OCR 支持 表格抽取 本地部署 无 CAD 模板 Web UI Hosted 模型
DocExt 560 ✔️ ✔️ ✔️ ✔️ ✔️
docTR 4.8k ✔️(OCR) 部分 ✔️ ✔️
agentic-doc 546 ✔️(OCR) ✔️ ❌(云 API) ✔️ ✔️ ✔️(云端)
  • DocTR 倾向传统 OCR 路线,专注文字识别与结构建模;

  • agentic-doc 可批量处理复杂文档,但依赖云端;

  • DocExt 最大优势在于:

    1. 全流程零 OCR,避免识别错误级联;

    2. 支持本地部署,不泄漏敏感数据;

    3. 无模板工作,字段抽取灵活;

    4. 自带 Web UI 及多模型灵活接入;

    5. 支持表格提取与置信度标注。

优缺点总结

✅ 优势

  • 零 OCR、全 VLM:简化流程,减少误差;

  • 本地部署:适配高隐私场景如金融、医疗、政府;

  • 字段+表格全支持:覆盖多数文档场景;

  • 灵活接入 hosted 模型:可用 OpenAI/Gemini 等提升效果;

  • 直观 Web 操控:支持快速校对、标注与导出;

  • 参与 IDP 评测:有公开 Benchmarks 作对比参考。

使用建议

  • 若你追求高度隐私性且具备 GPU 条件,DocExt 是理想选择

  • 若你希望快速迁移传统模板与 OCR 路径,可选 docTR;

  • 对大批量商业云端处理,agentic-doc 更合适;

  • 对无服务器部署,当前还未支持移动端或无 GPU 的全流程。

项目地址

GitHub - NanoNets/docext: An on-premises, OCR-free unstructured data extraction and benchmarking toolkit. (https://idp-leaderboard.org/)

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐