chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA 與飛槳團隊合作開發(fā)基于 ResNet50 的模型示例

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-10-18 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你還在頭疼于經典模型的復現嗎?不知何處可以得到全面可參照的 Benchmark?

為了讓飛槳開發(fā)者可以快速復現頂尖的精度和超高的性能,NVIDIA 與飛槳團隊合作開發(fā)了基于 ResNet50 的模型示例,并將持續(xù)開發(fā)更多的基于 NLP 和 CV 等領域的經典模型,后續(xù)陸續(xù)發(fā)布的模型有 BERT、PP-OCR、PP-YOLO 等,歡迎持續(xù)關注。

深度學習模型是什么?

深度學習包括訓練和推理兩個環(huán)節(jié)。訓練是指通過大數據訓練出一個復雜的神經網絡模型,即用大量標記過的數據來“訓練”相應的系統,使之可以適應特定的功能。推理是指利用訓練好的模型,使用新數據推理出各種結論。深度學習模型是在訓練工作過程中生成,并將其保存,用于推理當中。

3a7b4034-4e20-11ed-a3b6-dac502259ad0.png

深度學習訓練推理示意圖

NVIDIA Deep Learning Examples

全新上線飛槳 ResNet50

NVIDIA Deep Learning Examples 倉庫上線了基于飛槳實現的 ResNet50 模型的性能優(yōu)化結果,該示例全面適配各類 NVIDIA GPU 和各種硬件拓撲(單機單卡,單機多卡),極致優(yōu)化性能。值得一提的是,Deep Learning Examples 中飛槳 ResNet50 模型訓練速度已超過對應的 PyTorch 版 ResNet50。

3af18e88-4e20-11ed-a3b6-dac502259ad0.png

NVIDIA Deep Learning Examples 倉庫中基于飛槳與 PyTorch 的 ResNet50 模型在同等 GPU 配置下的訓練性能比較,GPU 配置為 NVIDIA DGX A100(8x A100 80GB)。

*數據來源:[1][2]

NVIDIA Deep Learning Examples 倉庫中飛槳 ResNet50 有哪些優(yōu)勢?

優(yōu)勢一:通過使用 DALI 等工具,加速 GPU 數據預處理性能

NVIDIA Data Loading Library( DALI )專注于使用 GPU 加速深度學習應用中的數據加載和預處理。深度學習數據預處理涉及到復雜的、多個階段的處理過程,如 ResNet50 模型訓練過程中,在 CPU 上處理圖片的加載、解碼、裁剪、翻轉、縮放和其他數據增強等操作會成為瓶頸,限制訓練和推理的性能和可擴展性。DALI 將這些操作轉移到 GPU 上,最大限度地提高輸入流水線的吞吐量,并且其中數據預取,并行執(zhí)行和批處理的操作對用戶是透明的。

優(yōu)勢二:通過使用 AMP,ASP 等工具,提高推理性能

飛槳內置支持 AMP(自動混合精度)及 ASP(自動稀疏化)模塊,AMP 模塊可在模型訓練過程中,自動為算子選擇合適的計算精度(FP32/FP16),充分利用 Tensor Cores 的性能,在不影響模型精度的前提下,大幅加速模型訓練。

ASP 模塊實現了一個工作流將深度學習模型從稠密修剪為 2:4 的稀疏模式,經過重訓練之后,可恢復到與稠密模型相當的精度。稀疏模型可以充分利用 A100 Tensor Core GPU 的加速特性,被修剪的權重矩陣參數存儲量減半,并且可以獲得理論上 2 倍的計算加速,從而大幅提高推理性能。

優(yōu)勢三:通過集成 TensorRT,優(yōu)化推理模型

飛槳推理集成了 TensorRT,稱為 Paddle-TRT。它可以把部分模型子圖交給 TensorRT 加速,而其他部分仍然用飛槳執(zhí)行,從而達到最佳的推理性能。

優(yōu)勢四:豐富的 Benchmark

NVIDIA Deep Learning Examples 倉庫中

有哪些 Benchmark?

NVIDIA Deep Learning Examples 倉庫中的 Benchmark 主要包含訓練精度結果、訓練性能結果、推理性能結果、Paddle-TRT 性能結果幾個方面。

1、訓練精度結果

3b0a8dac-4e20-11ed-a3b6-dac502259ad0.png

訓練精度: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

3b4da61e-4e20-11ed-a3b6-dac502259ad0.png

集成 ASP 的提高精度: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

2、訓練性能結果

3b6ce75e-4e20-11ed-a3b6-dac502259ad0.png

訓練性能: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

3b8aa3b6-4e20-11ed-a3b6-dac502259ad0.png

集成 ASP 的訓練性能: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

3、推理性能結果

3bfc266c-4e20-11ed-a3b6-dac502259ad0.jpg

推理性能: NVIDIA DGX A100 (1x A100 80GB)

*數據來源:[1]

4、Paddle-TRT 性能結果

3c63f922-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能結果: NVIDIA DGX A100 (1x A100 80GB)

*數據來源:[1]

3cdb0cc4-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能結果: NVIDIA A30 (1x A30 24GB)

*數據來源:[1]

3cfce2ea-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能結果: NVIDIA A10 (1x A10 24GB)

*數據來源:[1]

如何下載 NVIDIA Deep Learning Examples 中的飛槳 ResNet50?

登錄 GitHub NVIDIA Deep Learning Examples 倉庫, 找到 PaddlePaddle/Classification/RN50/1.5,下載模型源代碼即可。

3d60954c-4e20-11ed-a3b6-dac502259ad0.png

NVIDIA Deep Learning Examples 飛槳 ResNet50 下載頁面

飛槳容器如何安裝?

容器包含了深度學習框架在運行時所需的所有部件(包括驅動,工具包等),它具有輕量化與可復制性、打包和執(zhí)行環(huán)境合二為一以及簡化應用程序部署等優(yōu)勢,因此,被認為是在同一環(huán)境中實現“構建、測試、部署”的最佳平臺。容器允許我們創(chuàng)建標準化可復制的輕量級開發(fā)環(huán)境,擺脫來自 Hypervisor 所帶來運行開銷。應用程序可以基于 Container Runtime 運行在“任意”系統中。

NVIDIA 與百度飛槳聯合開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧進行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣,用戶不僅可以快速開啟 AI 應用,專注于創(chuàng)新和應用本身,還能夠在 AI 訓練和推理任務上獲得飛槳+NVIDIA 帶來的飛速體驗。

NGC 飛槳容器已經集成入飛槳官網主頁。你可以選擇 “飛槳版本”+“Linux”+“Docker”+“CUDA 11.7”找到對應的 Container 下載指令。

3e05508c-4e20-11ed-a3b6-dac502259ad0.png

并參考《NGC 飛槳容器安裝指南》下載安裝:https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

3e57eb58-4e20-11ed-a3b6-dac502259ad0.png

運行結果如下:

3f156b06-4e20-11ed-a3b6-dac502259ad0.png

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110096
  • 模型
    +關注

    關注

    1

    文章

    3810

    瀏覽量

    52253
  • 大數據
    +關注

    關注

    64

    文章

    9092

    瀏覽量

    144042
  • 飛槳
    +關注

    關注

    0

    文章

    37

    瀏覽量

    2666

原文標題:NVIDIA Deep Learning Examples飛槳ResNet50模型上線訓練速度超PyTorch ResNet50

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    瀚博半導體宣布深度參與百度黑客松生態(tài)活動

    近日,瀚博半導體正式宣布深度參與百度主辦的黑客松生態(tài)活動。面向全球開發(fā)者開放旗下載天系列加速卡開發(fā)環(huán)境,支持部署百度文心ERNIE-4.5 系列開源
    的頭像 發(fā)表于 04-11 09:41 ?583次閱讀

    沐曦股份與百度黑客松硬核賽題來襲

    沐曦股份作為黑客松第十期文心合作伙伴賽道核心出題方之一,攜專屬賽題「優(yōu)化 PaddleOCR-VL-1.5+MetaX GPU」重磅來襲,邀全球開發(fā)者共探深度學習框架與國產GPU的
    的頭像 發(fā)表于 04-02 09:20 ?373次閱讀
    沐曦股份與百度<b class='flag-5'>飛</b><b class='flag-5'>槳</b>黑客松硬核賽題來襲

    NVIDIA與亞馬遜云科技深化合作伙伴關系

    NVIDIA 和亞馬遜云科技 (AWS) 擴展雙方合作,增強在 AWS 平臺上的由 NVIDIA 驅動的數據處理能力,并增加對 NVIDIA Nemotron 開放
    的頭像 發(fā)表于 03-23 15:17 ?422次閱讀

    NVIDIA 成立由全球領先 AI 實驗室組成的 Nemotron Coalition,推動開放前沿模型發(fā)展

    新聞摘要: ● NVIDIA Nemotron Coalition 是模型構建者和 AI 實驗室的首個此類全球合作項目,致力于通過共享專業(yè)知識、數據和計算來推進開放前沿基礎模型的發(fā)展。
    的頭像 發(fā)表于 03-17 11:14 ?281次閱讀
    <b class='flag-5'>NVIDIA</b> 成立由全球領先 AI 實驗室組成的 Nemotron Coalition,推動開放前沿<b class='flag-5'>模型</b>發(fā)展

    如何讓ResNet50圖像識別模型在光計算硬件上飛快運行

    你可能每天都在用圖像識別:手機相冊自動歸類、刷臉支付、甚至智能相機的寵物模式。但你有沒有想過,這些“一眼認出”的本領,是怎么教出來的?
    的頭像 發(fā)表于 03-09 14:21 ?321次閱讀

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數據生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1391次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發(fā)者都可以構建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓練框
    的頭像 發(fā)表于 10-21 11:11 ?1002次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    科研人員及開發(fā)者打造功能更強大、適應性更強的機器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎模型將為機器人賦予接近人類的推理能力,使其能夠拆解復雜指令,并借助已有知識與常識執(zhí)行任務
    的頭像 發(fā)表于 09-30 09:52 ?3197次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機器人研發(fā)進程

    什么是AI模型的推理能力

    NVIDIA 的數據工廠團隊NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face
    的頭像 發(fā)表于 09-23 15:19 ?1445次閱讀

    基于瑞芯微RK3576的resnet50訓練部署教程

    Resnet50簡介ResNet50網絡是2015年由微軟實驗室的何愷明提出,獲得ILSVRC2015圖像分類競賽第一名。在ResNet網絡提出之前,傳統的卷積神經網絡都是將一系列的卷積層和池化層
    的頭像 發(fā)表于 09-10 11:19 ?1458次閱讀
    基于瑞芯微RK3576的<b class='flag-5'>resnet50</b>訓練部署教程

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1991次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    【EASY EAI Orin Nano開發(fā)板試用體驗】PP-OCRV5文字識別實例搭建與移植

    用PP-OCRV5,首先就是要安裝PaddlePaddle 3.0()和PaddleOCR 3.0(OCR大模型),這兩個軟件要通過
    發(fā)表于 08-18 16:57

    龍芯中科與文心系列模型開展深度技術合作

    ”解決方案。 強強聯合!自主架構賦能大模型訓練 文心大模型 文心4.5系列模型均使用深度學習框架進行高效訓練、推理和部署。在大語言
    的頭像 發(fā)表于 07-02 16:53 ?1465次閱讀

    全志科技攜凌嵌入式T527核心板亮相OpenHarmony開發(fā)者大會

    全志科技作為OpenHarmony生態(tài)的重要合作伙伴受邀參會,還重點介紹了與凌嵌入式合作開發(fā)的FET527-C核心板
    的頭像 發(fā)表于 05-30 11:02 ?1742次閱讀
    全志科技攜<b class='flag-5'>飛</b>凌嵌入式T527核心板亮相OpenHarmony<b class='flag-5'>開發(fā)</b>者大會

    模型時代的深度學習框架

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 在 CNN時代 ,AI模型的參數規(guī)模都在百萬級別,僅需在單張消費類顯卡上即可完成訓練。例如,以業(yè)界知名的CNN模型ResNet50 為例,模型
    的頭像 發(fā)表于 04-25 11:43 ?953次閱讀
    大<b class='flag-5'>模型</b>時代的深度學習框架