AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?
DocExt 是来自 Nanonets 的开源项目,旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型,支持字段与表格识别。
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
DocExt 是来自 Nanonets 的开源项目,旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型,支持字段与表格识别。
项目介绍
随着 AI 大模型时代的到来,传统 OCR + LLM 的繁琐流程经常需要人工调优、模板设定和外部 API 支持。DocExt(Document Extractor)颠覆这一传统,直接采用视觉语言模型(VLM)实现文档图像的语义理解:
-
零 OCR:不再依赖 Tesseract / EasyOCR 等引擎,避免 OCR 错误传播;
-
零云调用:本地部署,完全离线运行,保障数据隐私;
-
零模板限制:无需手工制定模板,使用预设字段或自定义字段即可工作。
该项目同时也是 Intelligent Document Processing(IDP)排行榜的组成部分,覆盖 KIE、OCR、表格识别、文档分类、VQA、长文档处理等任务。最新之间更新包括对 Gemini、Claude、Qwen 等模型的评估趋势。
核心功能
多文档多页支持
支持 PNG/JPG/PDF 等多格式文档,能一次处理多页文档,全流程 API 内置支持——无需分割文档、合并结果,自动完成。
字段与表格双轨抽取
支持关键信息提取与表格结构识别:适用于发票项目、身份证字段和账单行项目等多种表单类型。
置信度量化
提取结果附带置信度评分,方便用户进行后续校验或合并调度。
本地部署 & HTTP API
支持命令行调用,也可以 RESTful API 形式在 Linux/MacOS 系统中本地部署运行。零外部依赖,适合处理敏感文件。
多模型支持(可选)
支持集成 GPT-4、Gemini、Claude、OpenAI、OpenRouter 等多个 hosted 模型,也可纯本地运行 VLM 模式进行零 OCR 处理。用户可按场景需求自由切换。
Gradio Web 界面
内置简洁界面(Gradio 驱动),支持文件拖拽、字段与表格可视化标注,操作直观友好。
IDP Leaderboard 支持
项目与多个主流公开数据集和模型进行比对,参与 IDP Leaderboard 排行榜中的多项任务评测。
技术架构
使用视觉语言模型实现端到端图像理解,并以模块化方式集成。下表对核心组件做总结:
模块 | 技术/组件 | 作用与特点 |
---|---|---|
图像输入 | PIL、OpenCV、PDF 解析库 | 支持图片与 PDF 自动分页加载 |
VLM 驱动 | Qwen-2.5-VL 系列等 | 提供端到端理解,无 OCR 模块依赖 |
字段抽取 | VLM + 预设/自定义字段模板 | 自动识别字段标签和内容 |
表格提取 | VLM 结合布局分析 | 自动还原表格结构(表头/行列) |
置信度计算 | VLM 内置信度输出 | 核心数据附带可信度 |
Web UI | Gradio | 拖拽上传,自动校验、数据导出 |
REST 服务 | FastAPI 或 Flask(图标建议) | 适合集成业务系统 |
多模型接入 | 支持 Gemini、Claude 等 hosted 问答 | 兼容多场景部署 |
界面展示
项目自带 Gradio demo,本地启动无需繁琐配置。
pip install docext
python -m docext.app.app
启动后打开 Web 页面,可看到以下典型界面模块:
-
文档上传区域:拖拽或选择 PDF/图片后,自动触发处理,可批量上传;
-
字段 & 表格识别结果:关键字段高亮展示、表格直观渲染;
-
导出按钮:一键导出 JSON、CSV、Markdown 等格式,适合各类使用习惯。
使用案例
安装与快速应用
pip install docext
或通过 Docker 运行:
docker pull nanonets/docext:latest
docker run -p 8080:8080 nanonets/docext
命令行示例
docext extract \
--input ./invoices/ \
--output ./results/ \
--output-format json \
--max_num_imgs 5
支持多页、格式、输出类型定制。
Python API 调用
from docext import extract
# 提取单文档 JSON
:contentReference[oaicite:37]{index=37}
print(result)
集成 hosted 模型示例
export OPENAI_API_KEY=...
pip install openai
# 在启动中指定 hosted 模型
:contentReference[oaicite:38]{index=38}
Web 界面运行
python -m docext.app.app
同类项目
项目名称 | GitHub ⭐ | OCR 支持 | 表格抽取 | 本地部署 | 无 CAD 模板 | Web UI | Hosted 模型 |
---|---|---|---|---|---|---|---|
DocExt | 560 | ❌ | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
docTR | 4.8k | ✔️(OCR) | 部分 | ✔️ | ❌ | ✔️ | ❌ |
agentic-doc | 546 | ✔️(OCR) | ✔️ | ❌(云 API) | ✔️ | ✔️ | ✔️(云端) |
-
DocTR 倾向传统 OCR 路线,专注文字识别与结构建模;
-
agentic-doc 可批量处理复杂文档,但依赖云端;
-
DocExt 最大优势在于:
-
全流程零 OCR,避免识别错误级联;
-
支持本地部署,不泄漏敏感数据;
-
无模板工作,字段抽取灵活;
-
自带 Web UI 及多模型灵活接入;
-
支持表格提取与置信度标注。
-
优缺点总结
✅ 优势
-
零 OCR、全 VLM:简化流程,减少误差;
-
本地部署:适配高隐私场景如金融、医疗、政府;
-
字段+表格全支持:覆盖多数文档场景;
-
灵活接入 hosted 模型:可用 OpenAI/Gemini 等提升效果;
-
直观 Web 操控:支持快速校对、标注与导出;
-
参与 IDP 评测:有公开 Benchmarks 作对比参考。
使用建议
-
若你追求高度隐私性且具备 GPU 条件,DocExt 是理想选择;
-
若你希望快速迁移传统模板与 OCR 路径,可选 docTR;
-
对大批量商业云端处理,agentic-doc 更合适;
-
对无服务器部署,当前还未支持移动端或无 GPU 的全流程。
项目地址

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)