chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton推理服務器的基本特性及應用案例

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-10-26 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

推理識別是人工智能最重要的落地應用,其他與深度學習相關的數(shù)據(jù)收集、標注、模型訓練等工作,都是為了得到更好的最終推理性能與效果。

幾乎每一種深度學習框架都能執(zhí)行個別的推理工作,包括 Tensorflow、Pytorch、MXNet 等通用型框架與 YOLO 專屬的 Darknet 框架,此外還有 ONNX 開發(fā)推理平臺、NVIDIA TensorRT 加速推理引擎,也提供推理相關的 C / C++Python 開發(fā)接口,這是大部分技術人員所熟悉的方法。

在垂直應用方面,NVIDIA 的DeepStream智能分析工具是非常適合用在種類固定且需要長期統(tǒng)計分析的場景,包括各種交通場景的人 / 車流量分析、工業(yè)流水線質量檢測等應用,并且在早期視覺(Visualization)類推理功能之上,再添加對話(Conversation)類推理功能,讓使用范圍更加完整。

上述的推理方式通常適合在識別固定種類與固定輸入源的使用場景,在交通、工業(yè)自動化領域、無人設備等領域的使用比較普及。

但是這種方式并不適合在網(wǎng)絡相關的服務類應用中使用,包括在線的產(chǎn)品推薦、圖像分類、聊天機器人等應用,因為在線服務需要同時面對未知數(shù)量與類型的數(shù)據(jù)源,并且透過 HTTP 協(xié)議進行數(shù)據(jù)傳輸?shù)难舆t問題,也是嚴重影響用戶體驗感的因素,這是絕大部分網(wǎng)路服務供應商要導入 AI 智能識別技術所面臨的共同難題。

NVIDIA Triton推理服務器的最大價值,便是為服務類智能應用提供一個完整的解決方案,因此首先需要解決以下的三大關鍵問題:

1. 高通用性:

(1) 廣泛支持多種計算處理器:包括具備 NVIDIA GPU 的 x86 與 ARM CPU 設備,也支持純 CPU 設備的推理計算。

(2) 廣泛支持各種訓練框架的文件格式:包括 TensorFlow 1.x/2.x、PyTorch、ONNX、TensorRT、RAPIDS FIL(用于 XGBoost、Scikit-learn Random Forest、LightGBM)、OpenVINO、Python 等。

(3) 廣泛支持各種模型種類:包括卷積神經(jīng)網(wǎng)絡 (CNN)、循環(huán)神經(jīng)網(wǎng)絡 (RNN)、決策樹、隨機森林和圖神經(jīng)網(wǎng)絡等算法。

2.部署便利:

(1) 可在橫向擴展的云或數(shù)據(jù)中心、企業(yè)邊緣,甚至 NVIDIA Jetson 等嵌入式設備上運行。

(2) 支持用于 AI 推理的裸機和虛擬化環(huán)境,包括 VMware vSphere 與基于 Docker 技術的 Kubernetes 管理機制。

(3) 可托管于多種人工智能云平臺,包括 Amazon SageMaker、Azure ML、Google Vertex AI、阿里巴巴 AI、騰訊 TI-EMS 等平臺。

3.性能優(yōu)化:

(1)動態(tài)批量處理:推理優(yōu)化的一個因素是批量大小,或者您一次處理多少個樣本,GPU 以更高的批量提供高吞吐量。然而,對于實時應用程序,服務的真正限制不是批量大小甚至吞吐量,而是為最終客戶提供出色體驗所需的延遲。

(2)模型并發(fā)執(zhí)行:GPU 是能夠同時執(zhí)行多個工作負載的計算設備,NVIDIA Triton 推理服務器通過在 GPU 上同時運行多個模型來最大限度地提高性能并減少端到端延遲,這些模型可以是相同的,也可以是來自不同框架的不同模型。GPU 內(nèi)存大小是同時運行模型數(shù)量的唯一限制,這會影響GPU利用率和吞吐量。

以上是 NVIDIA Triton 推理服務器的基本特性說明,要滿足上面所列的特性,是相對復雜的內(nèi)容,這是本系列文章所要為讀者逐一探索的內(nèi)容,不過在講解技術內(nèi)容之前,我們可以先看看有哪些比較具有代表性成功案例,能讓大家對于 Triton 推理服務器的使用場景有更進一步的了解。

案例1:微軟 Teams 會議系統(tǒng)使用 Triton 提升生成實時字幕和轉錄性能

微軟 Teams是全球溝通和協(xié)作的重要工具,每月有近 2.5 億活躍用戶,其 Azure 認知服務提供 28 種語言的字幕和轉錄,實時字幕功能幫助與會者實時跟蹤對話,轉錄功能方便與會者在日后回顧當時的創(chuàng)意或回看未能參與的會議,實時字幕對聾啞人、聽力障礙者,或者異國與會者特別有用。

底層語音識別技術作為認知服務中的一個 API,開發(fā)人員可以使用它定制和運行自己的應用程序,例如客服電話轉錄、智能家居控制或為急救人員提供 AI 助手。認知服務會生成 Teams 的轉錄和字幕,將語音轉換為文本,并識別說話人。同時也能夠識別專業(yè)術語 、姓名和其他會議背景,提高字幕的準確性。

微軟 Teams 首席項目經(jīng)理 Shalendra Chhabra 表示:“這樣的 AI 模型非常復雜,需要數(shù)千萬個神經(jīng)網(wǎng)絡參數(shù)才能識別幾十種不同的語言。但模型越大,就越難以經(jīng)濟高效地實時運行?!?/p>

為了提高服務質量,微軟使用 NVIDIA Triton 開源推理服務軟件,來幫助 Teams 使用認知服務優(yōu)化語音識別模型,以及認知服務所支持的高度先進語言模型,在極低的延遲狀態(tài)下提供高度準確、個性化的語音轉文本結果,同時可以保證運行這些語音轉文本模型的NVIDIA GPU充分發(fā)揮計算資源,在消耗更少計算資源的同時為客戶提供更高的吞吐量,進而降低成本。

NVIDIA GPU 和 Triton 軟件能夠幫助微軟,在不犧牲低延遲的情況下,通過強大的神經(jīng)網(wǎng)絡,實現(xiàn)高準確性,確保語音-文本的實時轉換,當啟用轉錄功能時,與會者可以在會議結束后輕松補上錯過的內(nèi)容。

Triton 推理服務器有助于簡化 AI 模型部署并解鎖高性能推理,用戶甚至可以為自己的應用開發(fā)自定義后端。下面三種關鍵功能,是協(xié)助微軟將 Teams 的字幕和轉錄功能擴展到更多會議和用戶的效能:

流推理:新型流推理功能—通過跟蹤語音上下語境,提高延遲、敏感性字幕的準確度,協(xié)助 Azure 認知服務合作定制語音轉文本的應用程序。

動態(tài)批量處理:批量大小指神經(jīng)網(wǎng)絡同時處理的輸入樣本數(shù)量,通過 Triton 的動態(tài)批量處理功能,單項推理請求被自動組合成一個批次,因此能夠在不影響模型延遲的情況下更好地利用 GPU 資源。

并發(fā)模型執(zhí)行:實時字幕和轉錄需要同時運行多個深度學習模型,Triton 使開發(fā)人員能夠在單個 GPU 上同時完成這些工作,包括使用不同深度學習框架的模型。

案例2:Triton 助力微信加速視覺應用,提高可靠性

本案例中,通過 NVIDIA 的 GPU 執(zhí)行 Triton 推理服務器與TensorRT推理加速引擎, 幫助微信的二維碼光學識別(OCR)計算降低 46%時間,并將系統(tǒng)的失敗率降低 81%,同時減少 78% 的服務器使用數(shù)量。

騰訊微信是一款跨平臺的通訊工具,支持通過手機網(wǎng)絡發(fā)送語音、圖片、視頻和文字等。截至 2021 年 6 月,微信在全球擁有超過 12 億活躍用戶,是國內(nèi)活躍用戶最多的社交軟件。

微信識物是一款主打物品識別的 AI 產(chǎn)品,通過相機拍攝物品,更高效、更智能地獲取信息。2020 年微信識物拓展了更多識別場景,上線了微信版的圖片搜索,打開微信掃一掃,左滑切換到 “識物” 功能,對準想要了解的物品正面,可以獲取對應的物品信息,包括物品百科、相關資訊、相關商品

2021 年 1 月,微信發(fā)布的 8.0 版本更新支持圖片文字提取的功能,用戶在聊天界面和朋友圈中長按圖片就可以提取圖片中文字,然后一鍵轉發(fā)、復制或收藏。

在識物的過程包含檢測、圖像召回、信息提煉等環(huán)節(jié),其中二維碼掃描的使用頻率也是非常高,主要包括識別和檢測,這兩種應用都有非常大的計算量。但原本使用 Pytorch 進行模型的推理時,遇到以下三大問題:

請求的延遲很大,影響用戶體驗感;

顯存占用很大,單張 NVIDIA T4 GPU 卡能部署的模型數(shù)比較少,導致推理請求的并發(fā)數(shù)上不去,請求失敗的概率太高,只能通過增加機器的方式來提高并發(fā)能力,業(yè)務部署成本較高。

使用的模型經(jīng)常變化,而業(yè)務需要更換后的模型需要能夠快速地加速和上線部署。

為了解決上述問題,微信團隊使用 Triton 推理服務器結合 TensorRT 加速推理器的綜合方案,主要技術內(nèi)容如下:

通過使用 TensorRT 對微信識物和 OCR 的模型進行加速,在都使用 FP32 的情況下,比 Pytorch 的延遲降低 50% 左右;

在 OCR 的識別和檢測階段,使用 TensorRT 結合 NVIDIA T4 GPU 的 FP16 Tensor Core,在保證精度的前提下,識別的延遲降低 50%、檢測的延遲降低 20%;

在微信識物的分類和檢測任務中,通過使用 NVIDIA T4 GPU 的 int8 Tensor Core 并結合 QAT,在滿足精度要求的前提下,進一步大幅提升了性能;

通過使用 FP16 和 int8 低精度模式,在大幅降低推理延遲的同時,大大減少了顯存的占用,在 FP16 模式下,單模型顯存占用僅占 FP32 模式的 40%–50%, 而在 int8 模式下,單模型顯存占用僅占 FP32 模式的 30% 左右。在提高單張 T4 卡上部署的模型數(shù)量的同時,大幅提高了單 GPU 的推理請求并發(fā)能力;

Triton 的動態(tài)批量處理(dynamic batch)和多實例等特性,幫助微信將在滿足延遲要求的同時,提高了系統(tǒng)整體的并發(fā)能力,將系統(tǒng)失敗降低了 81%;

TensorRT 對個別模型得到推理的加速,Triton 則對加速后的模型進行快速的部署,滿足了業(yè)務對修改后的模型進行快速部署的需求,也大大減少工程人員的工作量。

通過使用 NVIDIA 的 TensorRT 對微信識物和 OCR 的模型進行加速,在降低單次推理延遲 50% 以上的同時,節(jié)約了多達 64% 的顯存。結合 Triton 的動態(tài)批量處理和多實例的功能,OCR 的整體時延降低了 46%,系統(tǒng)失敗率降低了 81%。大大提高了用戶的體驗,并且服務器的數(shù)量減少了多達 78%,極大降低了服務的成本。

案例3:騰訊 PCG 使用 Triton 加速在線推理,提高設備效能

騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊 PCG)負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合 QQ 軟件、QQ 空間等社交平臺,和應用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務,推動 IP 跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質數(shù)字內(nèi)容體驗。

騰訊 PCG 機器學習平臺部旨在構建和持續(xù)優(yōu)化符合 PCG 技術中臺戰(zhàn)略的機器學習平臺和系統(tǒng),提升 PCG 機器學習技術應用效率和價值,建設業(yè)務領先的模型訓練系統(tǒng)和算法框架,提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務,實現(xiàn)高效率迭代,在內(nèi)容理解和處理領域,輸出業(yè)界領先的元能力和智能策略庫。

這個機器學習平臺服務于 PCG 所有業(yè)務產(chǎn)品,面對上述所提到的綜合需求,有以下三大挑戰(zhàn):

1.業(yè)務繁多,場景復雜:

(1) 業(yè)務開發(fā)語言包括 C++ 與 Python;

(2)模型格式繁多,包括 ONNX、Pytorch、TensorFlow、TensorRT 等;

(3)模型預處理涉及圖片下載等網(wǎng)絡 io;

(4)多模型融合流程比教復雜,涉及循環(huán)調(diào)用;

(5)支持異構推理;

2.模型推理結果異常時,難以便利地調(diào)試定位問題;

3.需要與公司內(nèi)現(xiàn)有協(xié)議 / 框架 / 平臺進行融合。

基于以上挑戰(zhàn),騰訊 PCG 選擇了采用 NVIDIA 的 Triton 推理服務器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,也大幅降低了服務成本。

NVIDIA 的 Triton 推理服務器是一款開源軟件,對于所有推理模式都可以簡化在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產(chǎn)環(huán)境中使用推理計算,并且支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯(lián)合推理的場景,構建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發(fā)和維護成本。

通過將 Triton 編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系,符合 C 語言規(guī)范的 API 也極大降低了用戶的接入成本,借助 Python 后端和自定義后端,用戶可以自由選擇使用 C++ 或 Python 語言進行二次開發(fā)。

NVIDIA DALI是 GPU 加速的數(shù)據(jù)增強和圖像加載庫,使用 Triton 的 DALI 后端可以替換掉原來的圖片解碼、縮放等操作,Triton 的 FIL 后端可以替代 Python XGBoost 模型推理,進一步提升服務端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI / FIL / Python 等后端與 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務場景中,以更低的成本構建了高性能的推理服務,同時更低的延遲降低了整條系統(tǒng)鏈路的響應時間,優(yōu)化了用戶體驗,也降低了 20%-66% 總成本。

透過以上三個成功案例,就能很明顯看出,Triton 推理服務器在面對復雜的智能識別應用場景時,能發(fā)揮非常有效的整合功能,特別是模型來自不同訓練平臺時,以及面對不同前端開發(fā)語言時,更能體現(xiàn)其便利性。

在后面的文章會帶著大家,先從宏觀的角度來了解 Triton 推理服務器的應用架構以及所需要的配套資源,接著搭建 Triton 的使用環(huán)境,包括建立模型倉、安裝服務端/用戶端軟件,然后執(zhí)行一些實用性強的基礎范例,以及結合 NVIDIA 的 TensorRT 與 DeepStream 等推理工具,讓更多開發(fā)人員能利用 Triton 整合更多 AI 推理資源。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110093
  • 服務器
    +關注

    關注

    14

    文章

    10339

    瀏覽量

    91735
  • Triton
    +關注

    關注

    0

    文章

    28

    瀏覽量

    7349

原文標題:NVIDIA Triton系列文章(1):應用概論

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Supermicro率先發(fā)布NVIDIA BlueField-4 STX存儲服務器,提升AI推理性能

    ? Supermicro憑借其基于NVIDIA STX AI存儲參考架構打造的上下文內(nèi)存(CMX)存儲服務器,進一步彰顯其行業(yè)領先地位。 BlueField-4 STX存儲服務器結合了NVID
    的頭像 發(fā)表于 03-19 15:46 ?160次閱讀
    Supermicro率先發(fā)布<b class='flag-5'>NVIDIA</b> BlueField-4 STX存儲<b class='flag-5'>服務器</b>,提升AI<b class='flag-5'>推理</b>性能

    網(wǎng)絡授時服務器 ntp時間服務器品牌 校時服務器廠家#電工

    服務器
    jf_47371611
    發(fā)布于 :2026年02月11日 17:53:43

    時鐘服務器廠商 gps網(wǎng)絡校時服務器 衛(wèi)星時鐘服務器#電工

    服務器
    jf_47371611
    發(fā)布于 :2026年02月11日 17:50:52

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務
    的頭像 發(fā)表于 11-13 14:08 ?4360次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通過Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服務</b>

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1991次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人到機器人工廠等基于物理 AI 的系統(tǒng)的開發(fā),貫穿訓練、仿真和
    的頭像 發(fā)表于 08-27 11:48 ?2582次閱讀

    ai服務器是什么?與普通服務器有什么區(qū)別

    AI服務器并非簡單的硬件堆砌,而是專門為人工智能任務設計的高性能計算系統(tǒng)。其核心目標是高效處理海量數(shù)據(jù)并行計算(如矩陣乘法、模型推理),并針對AI工作負載(如深度學習訓練、大模型推理)進行全方位優(yōu)化。
    的頭像 發(fā)表于 06-24 16:39 ?4891次閱讀

    歐洲服務器免費ip地址怎么獲???#歐洲服務器 #免費IP地址 #服務器

    服務器
    jf_57681485
    發(fā)布于 :2025年06月13日 11:15:04

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?2048次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    國外服務器地址怎么填寫才正確?#國外服務器 #國外服務器地址 #服務器

    服務器
    jf_57681485
    發(fā)布于 :2025年06月11日 14:06:38

    DNS服務器無法訪問?2分鐘快速排查與解決!#DNS服務器 #DNS #服務器

    服務器
    jf_57681485
    發(fā)布于 :2025年06月10日 14:55:34

    基于RAKsmart云服務器的AI大模型實時推理方案設計

    面對高并發(fā)請求、嚴格的響應延遲要求及波動的業(yè)務負載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務器憑借其彈性計算資源池、分布式網(wǎng)絡架構與全棧AI加速能力,為AI大模型實時推理提供了從硬件到軟件層的系統(tǒng)性解決方案。
    的頭像 發(fā)表于 05-13 10:33 ?707次閱讀

    國外bgp服務器多少錢?# 服務器

    服務器
    jf_57681485
    發(fā)布于 :2025年04月24日 14:19:00