chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA TensorRT優(yōu)化T5和GPT-2

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-03-31 17:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這個transformer 體系結構完全改變了(雙關語)自然語言處理( NLP )的領域。近年來,在 transformer 構建塊 BERT 、 GPT 和 T5 上構建了許多新穎的網(wǎng)絡體系結構。隨著品種的增加,這些型號的尺寸也迅速增加。

雖然較大的神經(jīng)語言模型通常會產(chǎn)生更好的結果,但將它們部署到生產(chǎn)環(huán)境中會帶來嚴重的挑戰(zhàn),尤其是對于在線應用程序,在這些應用程序中,幾十毫秒的額外延遲可能會對用戶體驗產(chǎn)生顯著的負面影響。

使用最新的TensorRT8.2 ,我們優(yōu)化了 T5 和 GPT-2 模型,以實現(xiàn)實時推理。您可以將 T5 或 GPT-2 模型轉換為 TensorRT 引擎,然后將此引擎用作推理工作流中原始 PyTorch 模型的插件替換。與 PyTorch GPU 推理相比,此優(yōu)化導致延遲減少 3-6 倍,與 PyTorch CPU 推理相比,延遲減少 9-21 倍。

在這篇文章中,我們將向您詳細介紹如何實現(xiàn)相同的延遲減少,使用我們最新發(fā)布的基于 Hugging Face transformers 的示例腳本和筆記本,使用 GPT-2 進行開放式文本生成,使用 T5 進行翻譯和摘要。

T5 和 GPT-2 簡介

在本節(jié)中,我們將簡要介紹 T5 和 GPT-2 模型。

T5 用于回答問題、總結、翻譯和分類

T5或文本到文本傳輸 transformer 是谷歌最近創(chuàng)建的一種體系結構。它將所有自然語言處理( NLP )任務重新構造為統(tǒng)一的文本到文本格式,其中輸入和輸出始終是文本字符串。 T5 的體系結構允許將相同的模型、損失函數(shù)和超參數(shù)應用于任何 NLP 任務,如機器翻譯、文檔摘要、問答和分類任務,如情感分析。

T5 模式的靈感來源于遷移學習在 NLP 中產(chǎn)生了最先進的結果。遷移學習背后的原理是,基于大量可用的未經(jīng)訓練的數(shù)據(jù)和自我監(jiān)督任務的模型可以在較小的任務特定標記數(shù)據(jù)集上針對特定任務進行微調。事實證明,這些模型比從頭開始針對特定任務數(shù)據(jù)集訓練的模型具有更好的結果。

基于遷移學習的概念, Google 在用統(tǒng)一的文本到文本轉換器探索遷移學習的局限性中提出了 T5 模型。在本文中,他們還介紹了龐大的干凈爬網(wǎng)語料庫( C4 )數(shù)據(jù)集。在該數(shù)據(jù)集上預訓練的 T5 模型在許多下游 NLP 任務上實現(xiàn)了最先進的結果。已發(fā)布的預訓練 T5 車型的參數(shù)范圍高達 3B 和 11B 。

GPT-2 用于生成優(yōu)秀的類人文本

生成性預訓練 transformer 2 (GPT-2)是 OpenAI 最初提出的一種自回歸無監(jiān)督語言模型。它由 transformer 解碼器塊構建,并在非常大的文本語料庫上進行訓練,以預測段落中的下一個單詞。它生成優(yōu)秀的類人文本。更大的 GPT-2 模型,最大參數(shù)達到 15 億,通常能寫出更好、更連貫的文本。

使用 TensorRT 部署 T5 和 GPT-2

使用 TensorRT 8.2 ,我們通過構建并使用 TensorRT 發(fā)動機作為原始 PyTorch 模型的替代品,優(yōu)化了 T5 和 GPT-2 模型。我們將帶您瀏覽scripts和 Jupyternotebooks,并重點介紹基于擁抱面部變形金剛的重要內容。有關更多信息,請參閱示例腳本和筆記本以獲取詳細的分步執(zhí)行指南。

設置

最方便的開始方式是使用 Docker 容器,它為實驗提供了一個隔離、獨立和可復制的環(huán)境。

構建并啟動 TensorRT 容器:

pYYBAGJFc9SAPvxgAAAaKW2vWGI162.png

這些命令啟動 Docker 容器和 JupyterLab 。在 web 瀏覽器中打開 JupyterLab 界面:pYYBAGJFdAKAcbUvAAAEMDAJOjM560.png在 JupyterLab 中,要打開終端窗口,請選擇?File?、?New?、?Terminal?。編譯并安裝 TensorRT OSS 包:

poYBAGJFdA2AQncNAAALSmQMGn0122.png

現(xiàn)在,您已經(jīng)準備好繼續(xù)使用模型進行實驗。在下面的順序中,我們將演示 T5 模型的步驟。下面的代碼塊并不意味著可以復制粘貼運行,而是引導您完成整個過程。為了便于復制,請參閱 GitHub 存儲庫上的notebooks。

在高層次上,使用 TensorRT 優(yōu)化用于部署的擁抱面 T5 和 GPT-2 模型是一個三步過程:

從 HuggingFace 模型動物園下載模型。

將模型轉換為優(yōu)化的 TensorRT 執(zhí)行引擎。

使用 TensorRT 引擎進行推理。

使用生成的引擎作為 HuggingFace 推理工作流中原始 PyTorch 模型的插件替換。

從 HuggingFace 模型動物園下載模型

首先,從 HuggingFace 模型中心下載原始的 Hugging Face PyTorch T5 模型及其關聯(lián)的標記器。

poYBAGJFdCeAbgptAAANxtLgEjs368.png

然后,您可以將此模型用于各種 NLP 任務,例如,從英語翻譯為德語:

pYYBAGJFdC-ATa1bAAAU9hCPQ6k530.png

TensorRT 8.2 支持 GPT-2 至“ xl ”版本( 1.5B 參數(shù))和 T5 至 11B 參數(shù),這些參數(shù)可在 HuggingFace model zoo 上公開獲得。根據(jù) GPU 內存可用性,也可支持較大型號。

將模型轉換為優(yōu)化的 TensorRT 執(zhí)行引擎。

在將模型轉換為 TensorRT 引擎之前,請將 PyTorch 模型轉換為中間通用格式。 ONNX 是機器學習深度學習模型的開放格式。它使您能夠將 TensorFlow 、 PyTorch 、 MATLAB 、 Caffe 和 Keras 等不同框架中的深度學習和機器學習模型轉換為單一的統(tǒng)一格式。

轉換為 ONNX

對于 T5 型號,使用實用功能分別轉換編碼器和解碼器。

pYYBAGJFdDiACUfkAAAhAI8eZnI041.png

轉換為 TensorRT

現(xiàn)在,您已經(jīng)準備好解析 T5 ONNX 編碼器和解碼器,并將它們轉換為優(yōu)化的 TensorRT 引擎。由于 TensorRT 執(zhí)行了許多優(yōu)化,例如融合操作、消除轉置操作和內核自動調優(yōu),以在目標 GPU 體系結構上找到性能最佳的內核,因此此轉換過程可能需要一些時間。

pYYBAGJFdE6AQLHtAAAcENHunE8781.png

使用 TensorRT 引擎進行推理

最后,您現(xiàn)在有了一個針對 T5 模型的優(yōu)化 TensorRT 引擎,可以進行推斷。

pYYBAGJFdGyATjkzAAAfAAkkvFE954.png

類似地,對于 GPT-2 模型,您可以按照相同的過程生成 TensorRT 引擎。優(yōu)化的 TensorRT 引擎可作為 HuggingFace 推理工作流中原始 PyTorch 模型的插件替代品。

TensorRT transformer 優(yōu)化細節(jié)

基于轉換器的模型是 transformer 編碼器或解碼器塊的堆棧。編碼器(解碼器)塊具有相同的結構和參數(shù)數(shù)量。 T5 由 transformer 編碼器和解碼器的堆棧組成,而 GPT-2 僅由 transformer 解碼器塊組成(圖 1 )。

t5-architecture.png

圖 1a 。 T5 架構

poYBAGJFc5-AeDgfAABnQisiZW4320.png

圖 1b 。 GPT-2 體系結構

每個 transformer 塊,也稱為自我注意塊,通過使用完全連接的層將輸入投影到三個不同的子空間,稱為查詢( Q )、鍵( K )和值( V ),由三個投影組成。然后將這些矩陣轉換為 QT和 KT用于計算標準化點積注意值,然后與 V 組合T生成最終輸出(圖 2 )。

pYYBAGJFc6GAKbmGAAC5J-rjuz4450.png

圖 2 。自我注意塊

TensorRT 通過逐點層融合優(yōu)化自我注意塊:

還原與電源操作相融合(用于圖層模板和剩余添加圖層)。

電子秤與 softmax 融合在一起。

GEMM 與 ReLU / GELU 激活融合。

此外, TensorRT 還優(yōu)化了推理網(wǎng)絡:

消除轉置操作。

將三個 KQV 投影融合為一個 GEMM 。

當指定 FP16 模式時,控制逐層精度以保持精度,同時運行 FP16 中計算最密集的運算。

TensorRT 對 PyTorch CPU 和 GPU 基準

通過 TensorRT 進行的優(yōu)化,我們看到 PyTorch GPU 推理的加速比高達 3-6 倍,而 PyTorch CPU 推理的加速比高達 9-21 倍。

圖 3 顯示了批量為 1 的 T5-3B 模型的推理結果,該模型用于將短短語從英語翻譯成德語。 A100 GPU 上的 TensorRT 引擎與在雙插槽 Intel Platinum 8380 CPU 上運行的 PyTorch 相比,延遲減少了 21 倍。

poYBAGJFc6KAct-cAABCQhQEBKM339.png

圖 3 。 A100 GPU 上的 T5-3B 模型推斷比較 TensorRT 提供的延遲比 PyTorch CPU 推斷小 21 倍。

CPU :英特爾白金 8380 , 2 個插槽。
GPU:NVIDIA A100 PCI Express 80GB 。軟件: PyTorch 1.9 , TensorRT 8.2.0 EA 。
任務:“將英語翻譯成德語:這很好?!?/p>

結論

在這篇文章中,我們向您介紹了如何將擁抱臉 PyTorch T5 和 GPT-2 模型轉換為優(yōu)化的 TensorRT 推理引擎。 TensorRT 推理機用作原始 HuggingFace T5 和 GPT-2 PyTorch 模型的替代品,可提供高達 21x CPU 的推理加速比。要為您的模型實現(xiàn)此加速,從 TensorRT 8.2 開始今天的學習.

關于作者

About Vinh Nguyen是一位深度學習的工程師和數(shù)據(jù)科學家,發(fā)表了 50 多篇科學文章,引文超過 2500 篇。在 NVIDIA ,他的工作涉及廣泛的深度學習和人工智能應用,包括語音、語言和視覺處理以及推薦系統(tǒng)。

About Nikhil Srihari是 NVIDIA 的深入學習軟件技術營銷工程師。他在自然語言處理、計算機視覺和語音處理領域擁有廣泛的深度學習和機器學習應用經(jīng)驗。 Nikhil 曾在富達投資公司和 Amazon 工作。他的教育背景包括布法羅大學的計算機科學碩士學位和印度蘇拉斯卡爾卡納塔克邦國家理工學院的學士學位。

About Parth Chadha是 NVIDIA 的深度學習軟件工程師。他在 TensorRT 上工作,這是一個高性能的深度學習推理 SDK 。 Parth 在卡內基梅隆大學獲得電氣和計算機工程碩士學位,主要研究機器學習和并行計算機體系結構。

About Charles Chen20 歲時在加州大學圣地亞哥分校獲得計算機科學碩士學位后, Charles Chen 專注于為尖端人工智能框架、發(fā)展中國家的計算機教育和人機交互做出貢獻。在 NVIDIA , Charles 是一名深度學習軟件工程師,致力于 TensorRT ,一款高性能的深度學習推理 SDK 。

About Joohoon Lee領導 NVIDIA 的汽車深度學習解決方案架構師團隊。他專注于將深度學習研究轉化為用于生產(chǎn)部署的真實世界自主駕駛軟件。他的團隊使汽車客戶能夠使用英偉達驅動平臺進行 DNN 培訓、微調、優(yōu)化和部署。在加入 NVIDIA 之前,他曾擔任 GPU 軟件架構師,負責加速 DNN 算法。 Joohoon 在卡內基梅隆大學獲得電氣和計算機工程學士和碩士學位。

About Jay Rodge是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負責深入學習和推理產(chǎn)品,推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位,主攻計算機視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團的人工智能研究實習生,為寶馬最大的制造廠使用計算機視覺解決問題。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11320

    瀏覽量

    225806
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110092
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發(fā)布:AI領域的重大飛躍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2025年8月8日凌晨1點,OpenAI以一場長達1小時的線上發(fā)布會正式推出GPT-5。這場被業(yè)界稱為“AI進化分水嶺”的發(fā)布,終結了長達兩年的技術猜測,更以多維度性能
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT-5</b>震撼發(fā)布:AI領域的重大飛躍

    NVIDIA Jetson模型賦能AI在邊緣端落地

    和 Isaac GR00T 等模型以及千問大模型、Gemma、Mistral AI、GPT-OSS、PI 等社區(qū)模型的通用平臺。
    的頭像 發(fā)表于 03-16 16:27 ?576次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson模型賦能AI在邊緣端落地

    分體 T5 LED 燈管的開關設計,怎樣提升使用便利性?

    從不同類型的開關設計及其帶來的便利進行闡述。一、傳統(tǒng)手動開關設計優(yōu)化位置與標識優(yōu)化:傳統(tǒng)手動開關應設計在易于觸及的位置。對于安裝在天花板的分體T5LED燈管,開關可
    的頭像 發(fā)表于 02-12 13:11 ?285次閱讀
    分體 <b class='flag-5'>T5</b> LED 燈管的開關設計,怎樣提升使用便利性?

    軟硬全開源 + 擴展無邊界!涂鴉 T5 AI 口袋機,讓 AI + IoT 創(chuàng)意在掌心生長

    當AI大模型、游戲手柄、顯示屏、音頻系統(tǒng)、攝像頭、傳感器、4G蜂窩,以及涂鴉T5芯片被塞進同一個口袋,會激發(fā)出什么樣的創(chuàng)造力?答案就在涂鴉T5AI口袋機(Tuya-T5-Pocket),一款
    的頭像 發(fā)表于 01-22 18:08 ?689次閱讀
    軟硬全開源 + 擴展無邊界!涂鴉 <b class='flag-5'>T5</b> AI 口袋機,讓 AI + IoT 創(chuàng)意在掌心生長

    北汽新能源與小馬智行第300臺L4級極狐阿爾法T5下線

    近日,北汽新能源與小馬智行聯(lián)合宣布第300臺L4級極狐 阿爾法T5正式下線并完成交付。北汽集團副總經(jīng)理劉宇與小馬智行創(chuàng)始人、CEO彭軍共同出席交付儀式,見證這一中國智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)從技術驗證邁向無人駕駛落地的關鍵轉折點。
    的頭像 發(fā)表于 10-28 15:51 ?625次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1380次閱讀

    【RA4M2-SENSOR】3、使用GPT定時器-PWM輸出

    的信息 */ R_GPT_InfoGet(&g_timer2_ctrl, &info); /* 獲得計時器一個周期需要的計數(shù)次數(shù) */ uint32_t
    發(fā)表于 09-01 15:20

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4651次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實現(xiàn)與<b class='flag-5'>優(yōu)化</b>

    TensorRT-LLM中的分離式服務

    在之前的技術博客中,我們介紹了低延遲[1] 和高吞吐[2] 場景的優(yōu)化方法。對于生產(chǎn)部署,用戶還關心在滿足特定延遲約束的情況下,每個 GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場景,介紹 TensorRT-LLM 分離式
    的頭像 發(fā)表于 08-27 12:29 ?1940次閱讀
    <b class='flag-5'>TensorRT</b>-LLM中的分離式服務

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    ? 自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-
    的頭像 發(fā)表于 08-15 20:34 ?2474次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss模型部署,實現(xiàn)150萬TPS推理

    OpenAI與NVIDIA共同開發(fā)全新開放模型

    NVIDIAgpt-oss-120b 帶來業(yè)界領先性能,在單個 NVIDIA Blackwell 系統(tǒng)上實現(xiàn)每秒 150 萬個 Token。
    的頭像 發(fā)表于 08-12 15:11 ?1708次閱讀

    北汽極狐阿爾法T5 Robotaxi量產(chǎn)下線

    近日,極狐 阿爾法T5 Robotaxi正式量產(chǎn)下線,并已全面啟動在深圳的落地運營推進工作。這款搭載小馬智行第七代自動駕駛系統(tǒng)的車型即將來到千萬人身邊,這標志著4級高度自動駕駛技術正式走向普及,加速融入大眾生活。
    的頭像 發(fā)表于 07-21 10:49 ?1226次閱讀

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2155次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2394次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?2048次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應用的最佳實踐