chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Triton推理服務器簡化邊緣AI模型部署

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-18 15:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能機器學習( ML )和深度學習( DL )正在成為解決機器人、零售、醫(yī)療保健、工業(yè)等領域各種計算問題的有效工具。對低延遲、實時響應和隱私的需求使運行 AI 應用程序處于邊緣。

然而,在邊緣的應用程序和服務中部署 AI 模型對基礎設施和運營團隊來說可能是一項挑戰(zhàn)。不同的框架、端到端延遲要求以及缺乏標準化實施等因素可能會使 AI 部署具有挑戰(zhàn)性。在這篇文章中,我們將探討如何應對這些挑戰(zhàn),并在邊緣生產(chǎn)中部署 AI 模型。

以下是部署推理模型的最常見挑戰(zhàn):

多模型框架:數(shù)據(jù)科學家和研究人員使用不同的人工智能和深度學習框架,如 TensorFlow 、 PyTorch 、 TensorRT 、 ONNX 運行時或純 Python 來構建模型。這些框架中的每一個都需要一個執(zhí)行后端來在生產(chǎn)環(huán)境中運行模型。同時管理多個框架后端可能成本高昂,并導致可伸縮性和維護問題。

不同的推理查詢類型:邊緣推理服務需要處理多個同時查詢、不同類型的查詢,如實時在線預測、流式數(shù)據(jù)和多個模型的復雜管道。每一項都需要特殊的推理處理。

不斷發(fā)展的模型:在這個不斷變化的世界中,人工智能模型不斷地根據(jù)新數(shù)據(jù)和新算法進行重新訓練和更新。生產(chǎn)中的型號必須在不重新啟動設備的情況下持續(xù)更新。典型的 AI 應用程序使用許多不同的模型。它使問題的規(guī)模進一步擴大,以更新現(xiàn)場的模型。

NVIDIA Triton 推理服務器是一款開源推理服務軟件,通過解決這些復雜性簡化了推理服務。 NVIDIA Triton 提供了一個單一的標準化推理平臺,可支持在多框架模型和不同部署環(huán)境(如數(shù)據(jù)中心、云、嵌入式設備、,以及虛擬化環(huán)境。它通過高級批處理和調(diào)度算法支持不同類型的推理查詢,并支持實時模型更新。 NVIDIA Triton 還旨在通過并發(fā)模型執(zhí)行和動態(tài)批處理最大限度地提高硬件利用率,從而提高推理性能。

我們用 2021 年 8 月發(fā)布的 Jetson JetPack 4.6 將 Triton 推理服務器引入 Jetson 。有了 NVIDIA Triton , AI 部署現(xiàn)在可以跨云、數(shù)據(jù)中心和邊緣標準化。

主要特征

以下是 NVIDIA Triton 的一些關鍵功能,它們可以幫助您簡化 Jetson 中的模型部署。

poYBAGJdFdOADh1nAAF6tgk9r08814.png

圖 1 Jetson Jetson 上的 Triton 推理服務器架構

嵌入式應用集成

客戶機應用程序和 Triton 推理服務器之間的通信支持直接 C-API 集成,但也支持 gRPC 和 HTTP / REST 。在 Jetson 上,當客戶端應用程序和推理服務都在同一設備上運行時,客戶端應用程序可以直接調(diào)用 Triton 推理服務器 API ,而通信開銷為零。 NVIDIA Triton 是一個帶有 C API 的共享庫,可使完整功能直接包含在應用程序中。這最適合基于 Jetson 的嵌入式應用程序。

多框架支持

NVIDIA Triton 在本機集成了流行的框架后端,如 TensorFlow 1 。 x / 2 。 x 、 ONNX 運行時 TensorRT ,甚至自定義后端。這允許開發(fā)人員直接在 Jetson 上運行他們的模型,而無需經(jīng)過轉換過程。 NVIDIA Triton 還支持添加自定義后端的靈活性。開發(fā)人員有自己的選擇,基礎設施團隊使用單個推理引擎優(yōu)化部署。

DLA 支持

Jetson 上的 Triton 推理服務器可以在 GPU 和 DLA 上運行模型。 DLA 是 Jetson Xavier NX 和 Jetson AGX Xavier 上提供的深度學習加速器。

并發(fā)模型執(zhí)行

Triton 推理服務器通過在 Jetson 上同時運行多個模型,最大限度地提高性能并減少端到端延遲。這些模型可以是所有相同的模型,也可以是來自不同框架的不同模型。 GPU 內(nèi)存大小是對可同時運行的型號數(shù)量的唯一限制。

動態(tài)配料

批處理是一種提高推理吞吐量的技術。批處理推理請求有兩種方法:客戶端批處理和服務器批處理。 NVIDIA Triton 通過將單個推理請求組合在一起來實現(xiàn)服務器批處理,以提高推理吞吐量。它是動態(tài)的,因為它構建一個批處理,直到達到一個可配置的延遲閾值。當達到閾值時, NVIDIA Triton 安排當前批執(zhí)行。調(diào)度和批處理決策對請求推斷的客戶機是透明的,并且根據(jù)模型進行配置。通過動態(tài)批處理, NVIDIA Triton 在滿足嚴格延遲要求的同時最大限度地提高吞吐量。

動態(tài)批處理的一個例子是,應用程序同時運行檢測和分類模型,其中分類模型的輸入是從檢測模型檢測到的對象。在這種情況下,由于可以對任意數(shù)量的檢測進行分類,因此動態(tài)批處理可以確??梢詣討B(tài)創(chuàng)建檢測對象的批,并且可以將分類作為批處理請求運行,從而減少總體延遲并提高應用程序的性能。

模型組合

模型集成功能用于創(chuàng)建不同模型和預處理或后處理操作的管道,以處理各種工作負載。 NVIDIA Triton 集成允許用戶將多個模型和預處理或后處理操作縫合到一個具有連接輸入和輸出的管道中。 NVIDIA Triton 只需從客戶端應用程序向集成發(fā)出一個推斷請求,即可輕松管理整個管道的執(zhí)行。例如,嘗試對車輛進行分類的應用程序可以使用 NVIDIA Triton 模型集成來運行車輛檢測模型,然后在檢測到的車輛上運行車輛分類模型。

定制后端

除了流行的 AI 后端, NVIDIA Triton 還支持執(zhí)行定制的 C ++后端。這些工具對于創(chuàng)建特殊的邏輯非常有用,比如預處理和后處理,甚至是常規(guī)模型。

動態(tài)模型加載

NVIDIA Triton 有一個模型控制 API ,可用于動態(tài)加載和卸載模型。這使設備能夠在應用程序需要時使用這些型號。此外,當模型使用新數(shù)據(jù)重新訓練時,它可以無縫地重新部署在 NVIDIA Triton 上,而不會重新啟動任何應用程序或中斷服務,從而允許實時模型更新。

結論

Triton 推理服務器作為 Jetson 的共享庫發(fā)布。 NVIDIA Triton 每月發(fā)布一次,增加了新功能并支持最新的框架后端。有關更多信息,請參閱 Triton 推理服務器對 Jetson 和 JetPack 的支持。

NVIDIA Triton 有助于在每個數(shù)據(jù)中心、云和嵌入式設備中實現(xiàn)標準化的可擴展生產(chǎn) AI 。它支持多個框架,在 GPU 和 DLA 等多個計算引擎上運行模型,處理不同類型的推理查詢。通過與 NVIDIA JetPack 的集成, NVIDIA Triton 可用于嵌入式應用。

關于作者

Shankar Chandrasekaran 是 NVIDIA 數(shù)據(jù)中心 GPU 團隊的高級產(chǎn)品營銷經(jīng)理。他負責 GPU 軟件基礎架構營銷,以幫助 IT 和 DevOps 輕松采用 GPU 并將其無縫集成到其基礎架構中。在 NVIDIA 之前,他曾在小型和大型科技公司擔任工程、運營和營銷職位。他擁有商業(yè)和工程學位。

Suhas Sheshadri 是 NVIDIA 的產(chǎn)品經(jīng)理,專注于 Jetson 軟件。此前,他曾在 NVIDIA 與自主駕駛團隊合作,為 NVIDIA 驅(qū)動平臺優(yōu)化系統(tǒng)軟件。Mahan Salehi 是 NVIDIA 的深度學習軟件產(chǎn)品經(jīng)理,專注于 Triton 推理服務器。在 NVIDIA 之前,他是一家人工智能初創(chuàng)公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,此前也曾在醫(yī)療器械行業(yè)工作。他擁有多倫多大學的工程學學位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110087
  • 數(shù)據(jù)中心

    關注

    18

    文章

    5751

    瀏覽量

    75192
  • 深度學習
    +關注

    關注

    73

    文章

    5603

    瀏覽量

    124605
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Supermicro率先發(fā)布NVIDIA BlueField-4 STX存儲服務器,提升AI推理性能

    ? Supermicro憑借其基于NVIDIA STX AI存儲參考架構打造的上下文內(nèi)存(CMX)存儲服務器,進一步彰顯其行業(yè)領先地位。 BlueField-4 STX存儲服務器結合了
    的頭像 發(fā)表于 03-19 15:46 ?160次閱讀
    Supermicro率先發(fā)布<b class='flag-5'>NVIDIA</b> BlueField-4 STX存儲<b class='flag-5'>服務器</b>,提升<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    AGX Orin 150 TOPS+ 本地大模型推理、具身智能控制、多模態(tài)實時交互 迷你AI服務器 176TOPS 意味著OrangePi AI
    發(fā)表于 03-10 14:19

    使用NVIDIA Grove簡化Kubernetes上的復雜AI推理

    過去幾年,AI 推理部署已經(jīng)從單一模型、單一 Pod 演變?yōu)閺碗s的多組件系統(tǒng)。如今,一個模型部署
    的頭像 發(fā)表于 11-14 10:25 ?5432次閱讀
    使用<b class='flag-5'>NVIDIA</b> Grove<b class='flag-5'>簡化</b>Kubernetes上的復雜<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    結合AI算法的邊緣計算服務器,在城市管理場景有什么作用?

    在智慧城市建設的棋盤上,邊緣計算服務器正成為激活全城AI細胞的"神經(jīng)突觸"。當算法模型走出數(shù)據(jù)中心,通過邊緣計算
    的頭像 發(fā)表于 10-17 15:31 ?528次閱讀
    結合<b class='flag-5'>AI</b>算法的<b class='flag-5'>邊緣</b>計算<b class='flag-5'>服務器</b>,在城市管理場景有什么作用?

    DeepSeek模型如何在云服務器部署?

    隨著大型語言模型(LLM)的應用日益普及,許多開發(fā)者和企業(yè)希望將像DeepSeek這樣的優(yōu)秀模型部署到自己的云服務器上,以實現(xiàn)私有化、定制化服務
    的頭像 發(fā)表于 10-13 16:52 ?1114次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face
    的頭像 發(fā)表于 09-23 15:19 ?1439次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構上優(yōu)化了這兩款全新的開放權重模型并實現(xiàn)了推理
    的頭像 發(fā)表于 08-15 20:34 ?2474次閱讀
    <b class='flag-5'>NVIDIA</b>從云到<b class='flag-5'>邊緣</b>加速OpenAI gpt-oss<b class='flag-5'>模型</b><b class='flag-5'>部署</b>,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    下一步行動。本文將一步步帶你在本地服務器上完成該模型部署,并搭建一個直觀的 Web 交互界面,親身體驗前沿 AI 的“思考”過程。
    的頭像 發(fā)表于 07-09 10:17 ?991次閱讀

    ai服務器是什么?與普通服務器有什么區(qū)別

    AI服務器并非簡單的硬件堆砌,而是專門為人工智能任務設計的高性能計算系統(tǒng)。其核心目標是高效處理海量數(shù)據(jù)并行計算(如矩陣乘法、模型推理),并針對AI
    的頭像 發(fā)表于 06-24 16:39 ?4889次閱讀

    邊緣AI實現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    邊緣AI的實現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設備上,使這些設備能夠在本地進行數(shù)據(jù)處理、分析和決策,而無需將數(shù)據(jù)傳輸?shù)竭h程的
    的頭像 發(fā)表于 06-19 12:19 ?1651次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>實現(xiàn)的核心環(huán)節(jié):硬件選擇和<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?2048次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM<b class='flag-5'>部署</b>TTS應用的最佳實踐

    邊緣AI實現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    電子發(fā)燒友網(wǎng)綜合報道 邊緣AI的實現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設備上,使這些設備能夠在本地進行數(shù)據(jù)處理、分析和決策,而
    發(fā)表于 05-26 07:09 ?1574次閱讀

    基于RAKsmart云服務器AI模型實時推理方案設計

    面對高并發(fā)請求、嚴格的響應延遲要求及波動的業(yè)務負載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務器憑借其彈性計算資源池、分布式網(wǎng)絡架構與全棧AI加速能力,為AI
    的頭像 發(fā)表于 05-13 10:33 ?703次閱讀

    RAKsmart服務器如何賦能AI開發(fā)與部署

    AI開發(fā)與部署的復雜性不僅體現(xiàn)在算法設計層面,更依賴于底層基礎設施的支撐能力。RAKsmart服務器憑借其高性能硬件架構、靈活的資源調(diào)度能力以及面向AI場景的深度優(yōu)化,正在成為企業(yè)突破
    的頭像 發(fā)表于 04-30 09:22 ?920次閱讀

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    的訓練樣本和訓練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務器+多路安防監(jiān)控IPC,讓差異化AI視頻系統(tǒng), 成本控制極
    發(fā)表于 04-28 11:05