AI新宠DocExt：纯本地文档抽取，开源免费还无依赖！你还在为OCR头疼吗？

DocExt 是来自 Nanonets 的开源项目，旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型，支持字段与表格识别。

leeit

1385人浏览 · 2025-06-09 16:03:55

leeit · 2025-06-09 16:03:55 发布

嗨，大家好，我是小华同学，关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法

DocExt 是来自 Nanonets 的开源项目，旨在提供全流程无 OCR、零云依赖的本地文档结构化提取工具。适用于票据、护照、发票等多种文档类型，支持字段与表格识别。

项目介绍

随着 AI 大模型时代的到来，传统 OCR + LLM 的繁琐流程经常需要人工调优、模板设定和外部 API 支持。DocExt（Document Extractor）颠覆这一传统，直接采用视觉语言模型（VLM）实现文档图像的语义理解：

零 OCR：不再依赖 Tesseract / EasyOCR 等引擎，避免 OCR 错误传播；
零云调用：本地部署，完全离线运行，保障数据隐私；
零模板限制：无需手工制定模板，使用预设字段或自定义字段即可工作。

该项目同时也是 Intelligent Document Processing（IDP）排行榜的组成部分，覆盖 KIE、OCR、表格识别、文档分类、VQA、长文档处理等任务。最新之间更新包括对 Gemini、Claude、Qwen 等模型的评估趋势。

核心功能

多文档多页支持

支持 PNG/JPG/PDF 等多格式文档，能一次处理多页文档，全流程 API 内置支持——无需分割文档、合并结果，自动完成。

字段与表格双轨抽取

支持关键信息提取与表格结构识别：适用于发票项目、身份证字段和账单行项目等多种表单类型。

置信度量化

提取结果附带置信度评分，方便用户进行后续校验或合并调度。

本地部署 & HTTP API

支持命令行调用，也可以 RESTful API 形式在 Linux/MacOS 系统中本地部署运行。零外部依赖，适合处理敏感文件。

多模型支持（可选）

支持集成 GPT-4、Gemini、Claude、OpenAI、OpenRouter 等多个 hosted 模型，也可纯本地运行 VLM 模式进行零 OCR 处理。用户可按场景需求自由切换。

Gradio Web 界面

内置简洁界面（Gradio 驱动），支持文件拖拽、字段与表格可视化标注，操作直观友好。

IDP Leaderboard 支持

项目与多个主流公开数据集和模型进行比对，参与 IDP Leaderboard 排行榜中的多项任务评测。

技术架构

使用视觉语言模型实现端到端图像理解，并以模块化方式集成。下表对核心组件做总结：

模块	技术/组件	作用与特点
图像输入	PIL、OpenCV、PDF 解析库	支持图片与 PDF 自动分页加载
VLM 驱动	Qwen-2.5-VL 系列等	提供端到端理解，无 OCR 模块依赖
字段抽取	VLM + 预设/自定义字段模板	自动识别字段标签和内容
表格提取	VLM 结合布局分析	自动还原表格结构（表头/行列）
置信度计算	VLM 内置信度输出	核心数据附带可信度
Web UI	Gradio	拖拽上传，自动校验、数据导出
REST 服务	FastAPI 或 Flask（图标建议）	适合集成业务系统
多模型接入	支持 Gemini、Claude 等 hosted 问答	兼容多场景部署

界面展示

项目自带 Gradio demo，本地启动无需繁琐配置。

pip install docext
python -m docext.app.app

启动后打开 Web 页面，可看到以下典型界面模块：

文档上传区域：拖拽或选择 PDF/图片后，自动触发处理，可批量上传；
字段 & 表格识别结果：关键字段高亮展示、表格直观渲染；
导出按钮：一键导出 JSON、CSV、Markdown 等格式，适合各类使用习惯。

使用案例

安装与快速应用

pip install docext

或通过 Docker 运行：

docker pull nanonets/docext:latest
docker run -p 8080:8080 nanonets/docext

命令行示例

docext extract \
  --input ./invoices/ \
  --output ./results/ \
  --output-format json \
  --max_num_imgs 5

支持多页、格式、输出类型定制。

Python API 调用

from docext import extract
# 提取单文档 JSON
:contentReference[oaicite:37]{index=37}
print(result)

集成 hosted 模型示例

export OPENAI_API_KEY=...
pip install openai
# 在启动中指定 hosted 模型
:contentReference[oaicite:38]{index=38}

Web 界面运行

python -m docext.app.app

项目名称	GitHub ⭐	OCR 支持	表格抽取	本地部署	无 CAD 模板	Web UI	Hosted 模型
DocExt	560	❌	✔️	✔️	✔️	✔️	✔️
docTR	4.8k	✔️（OCR）	部分	✔️	❌	✔️	❌
agentic-doc	546	✔️（OCR）	✔️	❌（云 API）	✔️	✔️	✔️（云端）

优缺点总结

✅ 优势

零 OCR、全 VLM：简化流程，减少误差；
本地部署：适配高隐私场景如金融、医疗、政府；
字段+表格全支持：覆盖多数文档场景；
灵活接入 hosted 模型：可用 OpenAI/Gemini 等提升效果；
直观 Web 操控：支持快速校对、标注与导出；
参与 IDP 评测：有公开 Benchmarks 作对比参考。

使用建议

若你追求高度隐私性且具备 GPU 条件，DocExt 是理想选择；
若你希望快速迁移传统模板与 OCR 路径，可选 docTR；
对大批量商业云端处理，agentic-doc 更合适；
对无服务器部署，当前还未支持移动端或无 GPU 的全流程。

项目地址

GitHub - NanoNets/docext: An on-premises, OCR-free unstructured data extraction and benchmarking toolkit. (https://idp-leaderboard.org/)

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完