婷婷久久五月综合色国产,丝袜视频免费国产专区,欧美老妇福利视频

近期，上海 AI 實(shí)驗(yàn)室 DeepLink 團(tuán)隊(duì)推出的 DLInfer 通過(guò)支持 LMDeploy 主流模型推理，助力沐曦股份曦云 C500 落地 MinerU 多模態(tài)數(shù)據(jù)生成場(chǎng)景，Graph 模式下實(shí)現(xiàn)性能加速 60%。DLInfer 是一套專為國(guó)產(chǎn)硬件適配大模型推理框架的中間件解決方案，其核心功能在于通過(guò)標(biāo)準(zhǔn)化的融合算子接口，打通上層大模型推理框架與底層硬件廠商的異構(gòu)計(jì)算能力。目前，DLInfer 已實(shí)現(xiàn)軟硬適配工程中的有效解耦，支持包括 InternLM 系列、InternVL 系列、Qwen 系列、DeepSeek 系列在內(nèi)的多款主流模型在多元硬件上的推理適配，支撐包括沐曦股份曦云 C500 在內(nèi)的超 5 款主流硬件接入。

DLInfer GitHub:

https://github.com/DeepLink-org/dlinfer

Metax算子庫(kù)：

https://github.com/orgs/MetaXMACA/repositories

LMDeploy GitHub:

https://github.com/InternLM/lmdeploy

MinerU GitHub:

https://github.com/opendatalab/MinerU

聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地，Graph 模式下性能加速超 60%

為了驗(yàn)證 DLInfer 在真實(shí)場(chǎng)景中的效能，科研團(tuán)隊(duì)與沐曦股份展開(kāi)了深度合作，通過(guò)接入通用推理框架與賦能垂類應(yīng)用兩個(gè)維度，全面展示了 DLInfer 助力沐曦股份芯片釋放潛能的實(shí)戰(zhàn)成果。其中，Dlinfer + LMDeploy 推理部署方案表現(xiàn)突出。不僅能有效降低端到端延遲、提升吞吐性能，更憑借其出色的加速效果，為其成為國(guó)產(chǎn)主流硬件在推理場(chǎng)景下的重要選擇提供了有力支撐。

Graph 模式下精確的算子匹配加速推理效率

DLInfer 通過(guò)分層設(shè)計(jì)，在 Eager 模式下直接調(diào)用各廠商優(yōu)化后的融合算子，在 Graph 模式下則對(duì)接硬件廠商的圖編譯引擎，獲取更加精確匹配，實(shí)現(xiàn)端到端性能優(yōu)化。其接口設(shè)計(jì)不僅將框架與硬件適配工程解耦，降低多平臺(tái)開(kāi)發(fā)成本，還能在 Graph 模式下通過(guò)精確的算子匹配提升推理效率。

Graph 模式是 DLInfer 實(shí)現(xiàn)性能躍遷的核心，它融合了兩種關(guān)鍵的優(yōu)化路徑：

一方面全面支持類似 CUDA Graph 的“執(zhí)行流捕獲”技術(shù)，支持將整個(gè)計(jì)算流程固化，消除 CPU 調(diào)度開(kāi)銷，實(shí)現(xiàn)近乎零開(kāi)銷的執(zhí)行；對(duì)于那些算子本身已經(jīng)足夠優(yōu)化但 CPU 與 GPU 交互成為主要性能瓶頸的場(chǎng)景，這種技術(shù)能帶來(lái)立竿見(jiàn)影的加速效果。

另一方面對(duì)于擁有豐富圖編譯生態(tài)的硬件平臺(tái)，DLInfer 將 Attention、MoE 等關(guān)鍵子圖整體映射到硬件廠商提供的圖優(yōu)化器上，這種做法能最大化利用硬件特性，實(shí)現(xiàn)深度的算子融合與內(nèi)存優(yōu)化。

DLInfer 架構(gòu)圖

沐曦股份算子優(yōu)化核心突破

沐曦股份算子庫(kù)提供的針對(duì)性適配優(yōu)化，進(jìn)一步補(bǔ)全了 DLInfer 在硬件底層的性能調(diào)用能力，讓芯片算力與軟件框架的適配更精準(zhǔn)、資源損耗更少。

在訪存延遲掩蓋方面，沐曦股份通過(guò)多重技術(shù)組合實(shí)現(xiàn)高效數(shù)據(jù)流轉(zhuǎn)。采用64/128bit 寬位顯存 load 指令提升帶寬利用率，針對(duì)非 2 的冪次對(duì)齊數(shù)據(jù)定制loop展開(kāi)邏輯，借助運(yùn)行時(shí)mask實(shí)現(xiàn)顯存數(shù)據(jù)高效加載。通過(guò)預(yù)發(fā)射shared memory讀取指令、采用swizzle布局消除bank沖突，搭配多stage等機(jī)制讓計(jì)算指令精準(zhǔn)掩蓋訪存延遲，全方位突破訪存瓶頸。

生態(tài)兼容層面，沐曦股份以降低用戶遷移成本為核心，實(shí)現(xiàn)全方位適配。全面兼容 cuBlas 和 cuBlasLt 接口，完美適配官方 FlashAttention 與 FlashMLA，新增 Attention mask實(shí)現(xiàn)、KV cache 反量化融合支持、多 page size 選項(xiàng)等實(shí)用特性，讓用戶無(wú)需重構(gòu)代碼即可無(wú)縫銜接現(xiàn)有生態(tài)，加速業(yè)務(wù)落地進(jìn)程。

無(wú)縫接入 LMDeploy，釋放通用推理框架潛力

LMDeploy是業(yè)界領(lǐng)先的大模型推理引擎，為開(kāi)發(fā)者提供了靈活高效的部署方案。DLInfer作為橋梁，讓異構(gòu)芯片能夠無(wú)縫融入此生態(tài)，用戶無(wú)需修改業(yè)務(wù)代碼即可享受硬件性能紅利。

一鍵切換的集成方式，實(shí)現(xiàn)零成本適配。DLInfer 作為“翻譯官”和“優(yōu)化器”，LMDeploy 與沐曦股份的對(duì)接變得非常簡(jiǎn)單。用戶只需在 LMDeploy 的配置中指定后端為沐曦股份（--device maca），即可完成整個(gè)部署鏈路的切換。上層應(yīng)用（LMDeploy）依然調(diào)用 DLInfer API，便可在底層將計(jì)算任務(wù)精準(zhǔn)地分發(fā)到沐曦股份硬件上。

通用模型推理吞吐可實(shí)現(xiàn) 30%的提升。科研團(tuán)隊(duì)在 C500 上對(duì)多個(gè)主流大模型進(jìn)行了性能測(cè)試。測(cè)試結(jié)果表明，相較于算子模式，通過(guò) DLInfer + LMDeploy 的部署方案，端到端延遲顯著降低，模型推理吞吐量提升了 30%以上，為高并發(fā)推理服務(wù)提供了堅(jiān)實(shí)的性能保障。

加速 MinerU 文檔處理，彰顯垂類模型應(yīng)用價(jià)值

如果說(shuō)接入 LMDeploy 證明了 DLInfer 方案的“廣度”，那么賦能類似 MinerU 的復(fù)雜垂類應(yīng)用，則彰顯了其“深度”和解決特定領(lǐng)域難題的能力。MinerU 是上海AI實(shí)驗(yàn)室研發(fā)的一款開(kāi)源的一站式文檔解析工具，目前GitHub星標(biāo)數(shù)近50K，在文檔解析領(lǐng)域有著重要的影響力，其核心任務(wù)是將 PDF 等復(fù)雜文檔轉(zhuǎn)換為結(jié)構(gòu)化的 Markdown，這是一個(gè)典型的多模態(tài)數(shù)據(jù)生成場(chǎng)景。DLInfer 通過(guò) Mineru-LMDeploy-DLInfer 的技術(shù)路線，將 MinerU 無(wú)縫運(yùn)行在了曦云 C500 上，并實(shí)現(xiàn) Graph 模式性能相比 Eager 模式提升了 60%。通過(guò)雙方技術(shù)優(yōu)勢(shì)的互補(bǔ)，實(shí)現(xiàn)了此次復(fù)雜垂類場(chǎng)景的性能加速突破，為推理任務(wù)的高效運(yùn)行再添一重保障。

"芯片 + DLInfer + LMDepLoy + MinerU" 技術(shù)路線

多元硬件接入推理框架的通用方案

DLInfer 對(duì)上承接大模型推理框架，對(duì)下通過(guò)一套接口靈活支持各廠商不同粒度的融合算子與廠商自研圖引擎，將對(duì)接框架與對(duì)接廠商融合算子在適配工程中有效解耦。在 DLInfer 中，根據(jù)主流大模型推理框架與主流硬件廠商的融合算子粒度，定義了大模型推理的融合算子接口。同時(shí)，DLInfer 兼顧了 LLM（大語(yǔ)言模型）與 VLM（視覺(jué)語(yǔ)言模型）兩類主流多模態(tài)模型的推理需求，為國(guó)產(chǎn)硬件生態(tài)融入大模型技術(shù)棧提供了統(tǒng)一的中間層支持。

DLInfer 的核心架構(gòu)可以概括為“統(tǒng)一前端 + 可插拔后端”的模式：

統(tǒng)一前端：DLInfer 的頂層算子接口為上層應(yīng)用提供了一套與硬件無(wú)關(guān)的算子加載與執(zhí)行接口。開(kāi)發(fā)者無(wú)需關(guān)心底層硬件，只需聚焦于業(yè)務(wù)邏輯本身。

可插拔后端：每個(gè)硬件平臺(tái)都是一個(gè)獨(dú)立的“后端”模塊，而每個(gè)后端都負(fù)責(zé)實(shí)現(xiàn)兩套執(zhí)行路徑，即適合模型調(diào)試和新算子的快速驗(yàn)證 Eager 模式和最大化利用硬件特性 Graph 模式。在 DLInfer 的vendor目錄下，可以清晰地看到這種解耦設(shè)計(jì)。

結(jié)語(yǔ)

DeepLink 聚焦多元芯片生態(tài)建設(shè)，深耕編譯優(yōu)化、異構(gòu)通信等核心技術(shù)，全力推進(jìn)國(guó)產(chǎn) AI 工具鏈研發(fā)與安全高效的方案落地。針對(duì)國(guó)產(chǎn)芯片特性優(yōu)化算子性能、構(gòu)建統(tǒng)一計(jì)算通信中間表達(dá)，打造兼容主流框架的開(kāi)發(fā)環(huán)境，降低開(kāi)發(fā)者國(guó)產(chǎn)芯片遷移門檻，不斷提高國(guó)產(chǎn)芯片的易用性和端到端性能。同時(shí)通過(guò)構(gòu)建多場(chǎng)景支撐平臺(tái)和垂域標(biāo)桿應(yīng)用，為科研和產(chǎn)業(yè)界提供更為強(qiáng)大的支持，推動(dòng) AI 全行業(yè)自主可控、可持續(xù)發(fā)展。

關(guān)于沐曦股份

沐曦股份致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái)，為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐，助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
40908

瀏覽量
302497
沐曦

沐曦

+關(guān)注

關(guān)注
1

文章
97

瀏覽量
1875
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3746

瀏覽量
5268

原文標(biāo)題：DLInfer助力沐曦股份曦云C500推理落地MinerU多模態(tài)場(chǎng)景，實(shí)現(xiàn)性能加速60%！

文章出處：【微信號(hào)：沐曦MetaX，微信公眾號(hào)：沐曦MetaX】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

DLInfer聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地

評(píng)論