chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU助力提升模型訓(xùn)練和推理性價(jià)比

GLeX_murata_eet ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-08-23 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無(wú)量推薦系統(tǒng)承載著騰訊PCG(平臺(tái)與內(nèi)容事業(yè)群)的推薦場(chǎng)景,包括: 騰訊看點(diǎn)(瀏覽器、QQ看點(diǎn)、商業(yè)化)、騰訊新聞、騰訊視頻、騰訊音樂(lè)、閱文、應(yīng)用寶、小鵝拼拼等。無(wú)量推薦系統(tǒng)支持日活躍用戶達(dá)數(shù)億級(jí)別,其中的模型數(shù)量達(dá)數(shù)千個(gè),日均調(diào)用服務(wù)達(dá)到千億級(jí)別。無(wú)量推薦系統(tǒng),在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算,是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。

傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn): 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問(wèn)題。推理通常分離大規(guī)模Embedding和DNN,只能進(jìn)行DNN的GPU加速。 所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)具有一些局限性:1. 大規(guī)模分布式架構(gòu)有大量的額外開(kāi)銷(xiāo),比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。2. 隨著DNN模型復(fù)雜性的的進(jìn)一步提升,CPU的計(jì)算速度開(kāi)始捉襟見(jiàn)肘。 隨著業(yè)務(wù)的快速增長(zhǎng),日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺(tái)帶來(lái)了新的挑戰(zhàn):1. 模型更加復(fù)雜,計(jì)算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計(jì)算比很低。2. 海量Embedding因?yàn)橐?guī)模龐大,查詢和聚合計(jì)算難以有效利用GPU高性能顯存和算力的優(yōu)勢(shì)。

GPU助力提升模型訓(xùn)練和推理性價(jià)比

基于以上的挑戰(zhàn),騰訊PCG(平臺(tái)與內(nèi)容事業(yè)群)選擇使用基于NVIDIA A100 GPU的分布式系統(tǒng)架構(gòu)來(lái)創(chuàng)建無(wú)量推薦系統(tǒng)。

1. 通過(guò)多級(jí)存儲(chǔ)和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。2. 基于特征訪問(wèn)Power-law分布的特性,GPU緩存高頻特征參數(shù),同時(shí)從CPU中動(dòng)態(tài)獲取低頻特征參數(shù),實(shí)現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類(lèi)型的推薦業(yè)務(wù)場(chǎng)景。比如信息流推薦的QQ瀏覽器、QQ看點(diǎn)、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應(yīng)用寶、以及騰訊音樂(lè)的音樂(lè)推薦和閱文集團(tuán)的文學(xué)推薦。

無(wú)量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場(chǎng)景的模型訓(xùn)練和推理服務(wù)。基于傳統(tǒng)的推薦系統(tǒng)架構(gòu),無(wú)量推薦系統(tǒng)使用大量CPU資源,通過(guò)分布式架構(gòu)可以擴(kuò)展到TB級(jí)模型的訓(xùn)練和部署,取得了巨大的成功。隨著業(yè)務(wù)的快速增長(zhǎng),日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴(kuò)展和性能提升。

通過(guò)使用GPU訓(xùn)練和推理,單機(jī)多卡的GPU算力可以達(dá)到數(shù)十臺(tái)CPU機(jī)器的算力,節(jié)省了大量的額外分布式開(kāi)銷(xiāo)。通過(guò)充分利用A100 GPU高性能顯存快速訪問(wèn)Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價(jià)比1~3倍。

未來(lái),無(wú)量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機(jī)多卡,混合精度等能力,進(jìn)一步提高推薦場(chǎng)景使用GPU的性價(jià)比。

重磅!NVIDIA行業(yè)微站一睹為快!內(nèi)容涵蓋NVIDIA主要的12大行業(yè)方案,以及NVIDIA當(dāng)期重點(diǎn)產(chǎn)品資料。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5513

    瀏覽量

    109191

原文標(biāo)題:NVIDIA A100 GPU助力騰訊PCG加速無(wú)量推薦系統(tǒng)

文章出處:【微信號(hào):murata-eetrend,微信公眾號(hào):murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    通過(guò)NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負(fù)載提供了
    的頭像 發(fā)表于 10-29 16:53 ?1127次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?827次閱讀

    利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性

    在第三屆 NVIDIA DPU 中國(guó)黑客松競(jìng)賽中,我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?739次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?911次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長(zhǎng)的需求。
    的頭像 發(fā)表于 09-23 14:45 ?641次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)<b class='flag-5'>提升</b>AI<b class='flag-5'>推理性</b>能

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4038次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1458次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開(kāi)放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2009次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬(wàn)TPS<b class='flag-5'>推理</b>

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?1095次閱讀

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    NVIDIA訓(xùn)練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業(yè)務(wù)就緒型基礎(chǔ) 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發(fā)表于 03-19 09:31 ?339次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放<b class='flag-5'>推理</b> AI <b class='flag-5'>模型</b>系列,<b class='flag-5'>助力</b>開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    并行訓(xùn)練推理,顯著提升訓(xùn)練效率與穩(wěn)定性。摩爾線程是國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),此次開(kāi)源不僅為AI
    的頭像 發(fā)表于 03-17 17:05 ?1273次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計(jì)算<b class='flag-5'>助力</b>AI<b class='flag-5'>訓(xùn)練</b>

    無(wú)法在GPU上運(yùn)行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 上運(yùn)行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失敗。
    發(fā)表于 03-06 08:02

    壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理

    DeepSeek-V3滿血版在國(guó)產(chǎn)GPU平臺(tái)的高效全棧式訓(xùn)練推理,實(shí)現(xiàn)國(guó)產(chǎn)大模型與國(guó)產(chǎn)GPU的深度融合優(yōu)化,開(kāi)啟國(guó)產(chǎn)算力新篇章。
    的頭像 發(fā)表于 03-04 14:01 ?1958次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1394次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性</b>能

    GPU是如何訓(xùn)練AI大模型

    在AI模型訓(xùn)練過(guò)程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái),AI部落小編帶您了解GPU是如何
    的頭像 發(fā)表于 12-19 17:54 ?1432次閱讀