电竞比分网-中国电竞赛事及体育赛事平台

分享

本地部署PaddleOCR,消費級顯卡輕松跑,支持本地圖片和PDF文件

 ml_Py 2025-11-28 發(fā)布于河南

大家好,我是 Ai 學習的老章

前文我在【教程】DeepSeek-OCR 本地部署(上):CUDA 升級 12.9,vLLM 升級至最新穩(wěn)定版一文中提到,vLLM 0.11.2 穩(wěn)定版原生支持 DeepSeek-OCR,且兼容 OpenAI API 格式在線推理,操作更便捷。但 vLLM 0.11.1 及以上版本默認要求 CUDA 12.9,需先完成 CUDA 升級。

完成升級后,我用最新版 vLLM 本地成功部署了 DeepSeek-OCR,然后Python 寫了一個 api_server.py,使其支持本地圖片和 PDF 文檔,下游調用起來十分便捷

不過說實話,我測試了 N 多題目,DeepSeek-OCR 效果不如更小參數(shù)的 PaddleOCR-VL,本文我試了最新版vLLM本地部署顯存占用更小的PaddleOCR,驗證了api_server.py在簡單修改模型名稱后依然好用。

1、PaddleOCR 簡介

PaddleOCR-VL是一款面向文檔解析的 SOTA 且資源高效的模型。其核心組件為 PaddleOCR-VL-0.9B——一個非常輕量級的視覺語言模型 (VLM),通過將 NaViT 風格的動態(tài)分辨率視覺編碼器與 ERNIE-4.5-0.3B 語言模型融合,實現(xiàn)精準的元素識別。

在頁面級文檔解析和元素級識別任務中,PaddleOCR - VL 都展現(xiàn)出了卓越的性能。在 OmniDocBench v1.5 和 v1.0 等廣泛使用的公共基準測試中,該模型在整體、文本、公式、表格及閱讀順序等多項指標上均達到了最先進水平,大幅超越現(xiàn)有的基于管道的解決方案,與頂尖視覺語言模型相比也極具競爭力。這意味著無論是簡單的文本提取,還是復雜的表格、公式、圖表識別,PaddleOCR - VL 都能出色完成任務。
在頁面級文檔解析和元素級識別任務中,PaddleOCR - VL 都展現(xiàn)出了卓越的性能。在 OmniDocBench v1.5 和 v1.0 等廣泛使用的公共基準測試中,該模型在整體、文本、公式、表格及閱讀順序等多項指標上均達到了最先進水平,大幅超越現(xiàn)有的基于管道的解決方案,與頂尖視覺語言模型相比也極具競爭力。這意味著無論是簡單的文本提取,還是復雜的表格、公式、圖表識別,PaddleOCR - VL 都能出色完成任務。

2、PaddleOCR 本地部署

1?? 下載模型文件

pip install modelscope
modelscope download --model PaddlePaddle/PaddleOCR-VL  --local_dir ./PaddleOCR

2?? vLLM Docker 部署 PaddleOCR

docker run -d --rm --runtime=nvidia --name paddle-ocr --ipc=host --gpus '"device=1"' -p 8000:8000 -v /data/llm-models:/models vllm/vllm-openai:v0.11.2 --model /models/PaddleOCR --max-num-batched-tokens 16384 --port 8000  --no-enable-prefix-caching --mm-processor-cache-gb 0 --trust_remote_code

#https://docs.vllm.ai/projects/recipes/en/latest/PaddlePaddle/PaddleOCR-VL.html

我用單卡 4090 跑,顯存的占用只有 1.89GB,剩余空間留給了 KV cache

3、API 修改,運行

前文中的 api_server.py 僅需把 DeepSeekOCR 修改為 PaddleOCR 即可

一個新的終端 中,運行以下命令:

uvicorn api_server:app --host 0.0.0.0 --port 8002

調用方法重復一下

  • URL:/models/v1/models/deepseek-ocr/inference
  • 方法 (Method):POST
  • 內容類型 (Content-Type):multipart/form-data

表單數(shù)據(jù)參數(shù):

參數(shù)
類型
是否必須
描述
默認值
file
文件 (File)
需要處理的 PDF (.pdf) 或圖像 (.png.jpg.jpeg) 文件。
-
prompt
字符串 (String)
一個可選的文本提示,用于指導 OCR 模型的輸出格式或焦點。
"Convert the document to markdown."
## 示例 1: 處理 PDF 文件
curl -X POST "http://localhost:8002/models/v1/models/PaddleOCR/inference" \
     -F "file=@/path/to/your/report.pdf"

# 示例 2: 處理圖像文件
curl -X POST "http://localhost:8002/models/v1/models/PaddleOCR/inference" \
     -F "file=@/path/to/your/receipt.png"


# 示例 3: 使用自定義提示處理文件
curl -X POST "http://localhost:8002/models/v1/models/PaddleOCR/inference" \
     -F "file=@/path/to/your/document.pdf" \
     -F "prompt=將此文檔中的所有表格提取為 markdown 格式。"

速度也是超級快

一個強大的開源 OCR 工具,基于 DeepSeek OCR,DeepSeek-OCR 桌面客戶端,Windows 用戶優(yōu)先體驗

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多