OCR 智能體應(yīng)用背景
企業(yè)在日常運(yùn)營(yíng)中面臨合同、票據(jù)、手寫(xiě)筆記等多種文檔的處理需求,這些文檔常以圖片或掃描件形式存在,文字提取困難,嚴(yán)重制約數(shù)字化管理效率。
為解決上述問(wèn)題,本文介紹一套簡(jiǎn)單高效的解決方案:通過(guò) dify 工作流快速搭建 OCR 智能體,進(jìn)行文字識(shí)別。
先來(lái)看一下搭建好的工作流使用流程:用戶上傳待識(shí)別的圖片或文檔,工作流會(huì)調(diào)用本地部署的 OCR 服務(wù)完成識(shí)別工作,并將提取的內(nèi)容轉(zhuǎn)換成 Markdown 文檔。
OCR 智能體搭建流程
step1:本地部署 dify
因?yàn)槲覀円ㄟ^(guò)工作流的方式使用 OCR 服務(wù),因此需要現(xiàn)在本地完成 dify 的部署,部署流程相對(duì)簡(jiǎn)單,直接參考 dify 官方文檔(https://github.com/langgenius/dify)即可,推薦使用 docker 進(jìn)行部署。
step2:在 dify 插件市場(chǎng)中,安裝澎峰科技“OCR 識(shí)別服務(wù)”插件
本文中介紹的 OCR 工具,我們已發(fā)布到 dify 的插件市場(chǎng),源代碼可在 github 項(xiàng)目主頁(yè)(https://github.com/PerfXLab/dify-plugin-ocr-service)找到,要在 dify 中使用該工具,只需在插件市場(chǎng)中搜索“OCR”并安裝該插件即可:
step3:在 dify 中搭建工作流,并引入 OCR 工具
1.在 dify 中“創(chuàng)建空白應(yīng)用”,選擇“工作流”
2.對(duì)工作流進(jìn)行編排:
開(kāi)始節(jié)點(diǎn)中加入“file”字段
“OCR 轉(zhuǎn) Markdown 工具”節(jié)點(diǎn)中填入相關(guān)信息
其中,“上傳文件”中填入“開(kāi)始”節(jié)點(diǎn)輸出的內(nèi)容,OCR 接口地址填入本地搭建的 OCR 服務(wù),OCR 服務(wù)本地搭建將在下一步驟中介紹- “結(jié)束”節(jié)點(diǎn)中填入上一節(jié)點(diǎn)輸出的文件
step4:在本地搭建 OCR 服務(wù)
目前 OCR 任務(wù)主流實(shí)現(xiàn)方案有兩種:使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型或多模態(tài)大模型進(jìn)行處理,前者識(shí)別速度快、消耗資源少,而后者識(shí)別精度和魯棒性更好,但對(duì)算力要求較高。本文介紹一種基于卷積神經(jīng)網(wǎng)絡(luò)的方案,利用第三方工具快速在本地運(yùn)行。
搭建流程:
1.安裝第三方OCR服務(wù):pip install marker-pdf[full]
2.安裝API服務(wù):pip install -U uvicorn fastapi python-multipart
3.啟動(dòng)OCR服務(wù):marker_server --host 0.0.0.0 --port 8001
完成上述操作后,即可使用 dify 工作流進(jìn)行 OCR 識(shí)別服務(wù)。
私有化部署方案:澎峰科技大模型一體機(jī)
前述方案采用的輕量化模型,優(yōu)勢(shì)在于資源消耗低,在 CPU 環(huán)境下即可流暢運(yùn)行。然而,對(duì)于金融、法律等領(lǐng)域中,部分文檔的識(shí)別精準(zhǔn)度和版面還原度有更高要求的場(chǎng)景,采用多模態(tài)大模型進(jìn)行處理會(huì)是更優(yōu)選擇。多模態(tài)大模型雖然能帶來(lái)更高的識(shí)別精度與魯棒性,但其對(duì)算力資源的要求也相應(yīng)更高。
為滿足企業(yè)對(duì)高性能、數(shù)據(jù)私有化的需求,澎峰科技推出DeepFusion 系列 AI 一體機(jī),為企業(yè)智能化轉(zhuǎn)型提供一站式本地化部署解決方案。
該方案深度融合了業(yè)界領(lǐng)先的 DeepSeek、Qwen 等系列大模型,確保企業(yè)數(shù)據(jù)在本地處理,安全無(wú)虞,完美適配復(fù)雜的辦公自動(dòng)化、數(shù)據(jù)分析與智能客服等場(chǎng)景。
旗艦性能,應(yīng)對(duì)復(fù)雜需求:目前已發(fā)布的 DeepFusion DF110、DF210 一體機(jī),支持部署 DeepSeek 滿血版、Qwen3-235B 等尖端大模型,推理性能強(qiáng)勁,能夠從容應(yīng)對(duì)最復(fù)雜的辦公需求。
高性價(jià)比,賦能中小企業(yè):我們深知,高效的AI應(yīng)用同樣可以在中小規(guī)模模型上實(shí)現(xiàn)。為此,澎峰科技推出了 DeepFusion DF50 一體機(jī)。該機(jī)型針對(duì) 30B 及以下規(guī)模的高效模型進(jìn)行了深度推理優(yōu)化,實(shí)現(xiàn)了卓越性能與高性價(jià)比的平衡,旨在助力更多中小企業(yè)輕松實(shí)現(xiàn) AI 轉(zhuǎn)型。
-
智能體
+關(guān)注
關(guān)注
1文章
550瀏覽量
11642 -
OCR
+關(guān)注
關(guān)注
0文章
176瀏覽量
17270 -
澎峰科技
+關(guān)注
關(guān)注
0文章
83瀏覽量
3754
原文標(biāo)題:使用澎峰科技OCR識(shí)別服務(wù)插件,在dify中搭建OCR智能體
文章出處:【微信號(hào):perfxlab,微信公眾號(hào):perfxlab】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【場(chǎng)景案例】阿普奇工業(yè)一體機(jī)PC系列:為大健康行業(yè)OCR視覺(jué)檢測(cè)提供穩(wěn)定可靠的智能基石
Dify零基礎(chǔ)開(kāi)發(fā)本地Agent智能體 -51cto
Dify1.9零基礎(chǔ)開(kāi)發(fā)本地Agent智能體
AI智能體中的Skills是什么?
17|部署Dify-Dify 開(kāi)發(fā):AI Agent 進(jìn)階實(shí)戰(zhàn)-極客時(shí)間
歡迎使用中國(guó)香河英茂科工豆包智能體
鴻蒙智能體上/下架、升級(jí)流程介紹
開(kāi)發(fā)智能體調(diào)試與預(yù)覽---真機(jī)測(cè)試
工業(yè)級(jí)OCR手持終端怎么選?國(guó)產(chǎn)OCR智能識(shí)別pda實(shí)測(cè)
開(kāi)發(fā)智能體配置-內(nèi)容合規(guī)
小藝開(kāi)放平臺(tái)鴻蒙智能體開(kāi)發(fā)智能體配置-基礎(chǔ)信息
從大模型到智能體:企業(yè)級(jí)智能體如何搭建
告別“人工智障”:工業(yè)AI智能體的進(jìn)化三定律
Dify攜手亞馬遜云科技加速全球企業(yè)生成式AI應(yīng)用規(guī)?;涞?/a>
如何在dify中搭建OCR智能體
評(píng)論