chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU平臺(tái)生態(tài),英偉達(dá)CUDA和AMD ROCm對(duì)比分析

架構(gòu)師技術(shù)聯(lián)盟 ? 來(lái)源:架構(gòu)師技術(shù)聯(lián)盟 ? 2023-05-18 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

成熟且完善的平臺(tái)生態(tài)是 GPU 廠商的護(hù)城河。相較于持續(xù)迭代的微架構(gòu)帶來(lái)的技術(shù)壁壘硬實(shí)力,成熟的軟件生態(tài)形成的強(qiáng)大用戶(hù)粘性將在長(zhǎng)時(shí)間內(nèi)塑造 GPU廠商的軟實(shí)力。以英偉達(dá) CUDA 為例的軟硬件設(shè)計(jì)架構(gòu)提供了硬件的直接訪(fǎng)問(wèn)接口,不必依賴(lài)圖形 API 映射,降低 GPGPU 開(kāi)發(fā)者編譯難度,以此實(shí)現(xiàn)高粘性的開(kāi)發(fā)者生態(tài)。目前主流的開(kāi)發(fā)平臺(tái)還包括 AMD ROCm 以及 OpenCL。

CUDA(Compute Unified Device Architectecture),是 NVIDIA 于 2006 年推出的通用并行計(jì)算架構(gòu),包含 CUDA 指令集架構(gòu)(ISA)和 GPU 內(nèi)部的并行計(jì)算引擎。該架構(gòu)允許開(kāi)發(fā)者使用高級(jí)編程語(yǔ)言(例如 C 語(yǔ)言)利用 GPU 硬件的并行計(jì)算能力并對(duì)計(jì)算任務(wù)進(jìn)行分配和管理,CUDA 提供了一種比 CPU 更有效的解決大規(guī)模數(shù)據(jù)計(jì)算問(wèn)題的方案,在深度學(xué)習(xí)訓(xùn)練和推理領(lǐng)域被廣泛使用。

b8d6af22-f50a-11ed-90ce-dac502259ad0.png

CUDA 除了是并行計(jì)算架構(gòu)外,還是 CPU 和 GPU 協(xié)調(diào)工作的通用語(yǔ)言。在CUDA 編程模型中,主要有 Host(主機(jī))和 Device(設(shè)備)兩個(gè)概念,Host 包含 CPU 和主機(jī)內(nèi)存,Device 包含 GPU 和顯存,兩者之間通過(guò) PCI Express 總線(xiàn)進(jìn)行數(shù)據(jù)傳輸。在具體的 CUDA 實(shí)現(xiàn)中,程序通常劃分為兩部分,在主機(jī)上運(yùn)行的 Host 代碼和在設(shè)備上運(yùn)行的 Device 代碼。Host 代碼負(fù)責(zé)程序整體的流程控制和數(shù)據(jù)交換,而 Device 代碼則負(fù)責(zé)執(zhí)行具體的計(jì)算任務(wù)。

一個(gè)完整的 CUDA程序是由一系列的設(shè)備端函數(shù)并行部分和主機(jī)端的串行處理部分共同組成的,主機(jī)和設(shè)備通過(guò)這種方式可以高效地協(xié)同工作,實(shí)現(xiàn) GPU 的加速計(jì)算。

b907a262-f50a-11ed-90ce-dac502259ad0.png

CUDA 在 Host 運(yùn)行的函數(shù)庫(kù)包括了開(kāi)發(fā)庫(kù)(Libraries)、運(yùn)行時(shí)(Runtime)和驅(qū)動(dòng)(Driver)三大部分。其中,Libraries 提供了一些常見(jiàn)的數(shù)學(xué)和科學(xué)計(jì)算任務(wù)運(yùn)算庫(kù),Runtime API 提供了便捷的應(yīng)用開(kāi)發(fā)接口和運(yùn)行期組件,開(kāi)發(fā)者可以通過(guò)調(diào)用 API 自動(dòng)管理 GPU 資源,而 Driver API 提供了一系列 C 函數(shù)庫(kù),能更底層、更高效地控制 GPU 資源,但相應(yīng)的開(kāi)發(fā)者需要手動(dòng)管理模塊編譯等復(fù)雜任務(wù)。

b9216454-f50a-11ed-90ce-dac502259ad0.png

CUDA 在 Device 上執(zhí)行的函數(shù)為內(nèi)核函數(shù)(Kernel)通常用于并行計(jì)算和數(shù)據(jù)處理。在 Kernel 中,并行部分由 K 個(gè)不同的 CUDA 線(xiàn)程并行執(zhí)行 K 次,而有別于普通的 C/C++函數(shù)只有 1 次。每一個(gè) CUDA 內(nèi)核都以一個(gè)聲明指定器開(kāi)始,程序員通過(guò)使用內(nèi)置變量__global__為每個(gè)線(xiàn)程提供一個(gè)唯一的全局 ID。一組線(xiàn)程被稱(chēng)為 CUDA 塊(block)。CUDA 塊被分組為一個(gè)網(wǎng)格(grid),一個(gè)內(nèi)核以線(xiàn)程塊的網(wǎng)格形式執(zhí)行。每個(gè) CUDA 塊由一個(gè)流式多處理器(SM)執(zhí)行,不能遷移到 GPU 中的其他 SM,一個(gè) SM 可以運(yùn)行多個(gè)并發(fā)的 CUDA 塊,取決于CUDA 塊所需的資源,每個(gè)內(nèi)核在一個(gè)設(shè)備上執(zhí)行,CUDA 支持在一個(gè)設(shè)備上同時(shí)運(yùn)行多個(gè)內(nèi)核。

b950e29c-f50a-11ed-90ce-dac502259ad0.png

b99494b0-f50a-11ed-90ce-dac502259ad0.png

豐富而成熟的軟件生態(tài)是 CUDA 被廣泛使用的關(guān)鍵原因。

(1)編程語(yǔ)言:CUDA 從最初的 1.0 版本僅支持 C 語(yǔ)言編程,到現(xiàn)在的 CUDA 12.0 支持 C、C++、Fortran、Python 等多種編程語(yǔ)言。此外,NVIDIA 還支持了如 PyCUDA、ltimesh Hybridizer、OpenACC 等眾多第三方工具鏈,不斷提升開(kāi)發(fā)者的使用體驗(yàn)。

(2)庫(kù):NVIDIA 在 CUDA 平臺(tái)上提供了名為 CUDA-X 的集合層,開(kāi)發(fā)人員可以通過(guò) CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV 等多領(lǐng)域常用庫(kù)。

(3)其他:NVIDIA 還為 CUDA 開(kāi)發(fā)人員提供了容器部署流程簡(jiǎn)化以及集群環(huán)境擴(kuò)展應(yīng)用程序的工具,讓?xiě)?yīng)用程序更易加速,使得CUDA 技術(shù)能夠適用于更廣泛的領(lǐng)域。

ROCm (Radeon Open Compute Platform )是 AMD 基于開(kāi)源項(xiàng)目的 GPU計(jì)算生態(tài)系統(tǒng),類(lèi)似于 NVIDIA 的 CUDA。ROCm 支持多種編程語(yǔ)言、編譯器、庫(kù)和工具,以加速科學(xué)計(jì)算、人工智能機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用。ROCm還支持多種加速器廠商和架構(gòu),提供了開(kāi)放的可移植性和互操作性。

ROCm 支持HIP(類(lèi) CUDA)和 OpenCL 兩種 GPU 編程模型,可實(shí)現(xiàn) CUDA 到 ROCm 的遷移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括TensorFlow 1.x、PyTorch 1.8、MXNet 等,同時(shí)改進(jìn)了 ROCm 庫(kù)和工具的性能和穩(wěn)定性,包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。

b9cd4288-f50a-11ed-90ce-dac502259ad0.png

b9f20fc8-f50a-11ed-90ce-dac502259ad0.png

OpenCL(Open Compute Language),是面向異構(gòu)系統(tǒng)通用并行編程、可以在多個(gè)平臺(tái)和設(shè)備上運(yùn)行的開(kāi)放標(biāo)準(zhǔn)。OpenCL 支持多種編程語(yǔ)言和環(huán)境,并提供豐富的工具來(lái)幫助開(kāi)發(fā)和調(diào)試,可以同時(shí)利用 CPU、GPU、DSP 等不同類(lèi)型的加速器來(lái)執(zhí)行任務(wù),并支持?jǐn)?shù)據(jù)傳輸和同步。

ba0f6302-f50a-11ed-90ce-dac502259ad0.png

ba2f7e30-f50a-11ed-90ce-dac502259ad0.png

此外,OpenCL 支持細(xì)粒度和粗粒度并行編程模型,可根據(jù)應(yīng)用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限,不同平臺(tái)和設(shè)備的功能支持和性能表現(xiàn)存在一定差異,與 CUDA相比缺少?gòu)V泛的社區(qū)支持和成熟的生態(tài)圈。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5115

    瀏覽量

    134541
  • 指令集
    +關(guān)注

    關(guān)注

    0

    文章

    228

    瀏覽量

    24252
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4047

    瀏覽量

    97827

原文標(biāo)題:GPU平臺(tái)生態(tài),英偉達(dá)CUDA和AMD ROCm對(duì)比分析

文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RV生態(tài)又一里程碑:英偉達(dá)官宣CUDA將兼容RISC-V架構(gòu)!

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)英偉達(dá)生態(tài)護(hù)城河CUDA,從最初支持x86、Power?CPU架構(gòu),到2019年宣布支持Arm?CPU,不斷拓展在數(shù)據(jù)中心的應(yīng)用生態(tài)。 在2019年至今的
    的頭像 發(fā)表于 07-19 00:04 ?6208次閱讀
    RV<b class='flag-5'>生態(tài)</b>又一里程碑:<b class='flag-5'>英偉</b>達(dá)官宣<b class='flag-5'>CUDA</b>將兼容RISC-V架構(gòu)!

    國(guó)產(chǎn)GPU再下一城,群起突圍英偉達(dá)+AMD

    上市。 ? 根據(jù)Jon Peddie Research的數(shù)據(jù),獨(dú)立GPU市場(chǎng)英偉達(dá)一家獨(dú)大,近年來(lái)持續(xù)維持超80%的市場(chǎng)份額,而AMD公司則占據(jù)剩余近20%的市場(chǎng)份額。自人工智能市場(chǎng)爆
    的頭像 發(fā)表于 07-07 08:59 ?6886次閱讀
    國(guó)產(chǎn)<b class='flag-5'>GPU</b>再下一城,群起突圍<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>+<b class='flag-5'>AMD</b>

    無(wú)源探頭與高壓探頭技術(shù)對(duì)比分析

    本文對(duì)比分析了無(wú)源探頭與高壓探頭的技術(shù)原理、性能參數(shù)及應(yīng)用場(chǎng)景,為選擇合適探頭提供參考。
    的頭像 發(fā)表于 11-30 15:47 ?391次閱讀

    ROCm部署PP-StructureV3到AMD GPU

    作者:AVNET 李鑫杰 我們?cè)谏弦黄恼轮薪榻B了ROCm+PP-OCRv5,為實(shí)現(xiàn)在AMD計(jì)算平臺(tái)上完成復(fù)雜文檔的端到端智能解析,本文基于ROCm軟件棧,提供一套完整的PP-Stru
    的頭像 發(fā)表于 11-13 16:56 ?5265次閱讀
    用<b class='flag-5'>ROCm</b>部署PP-StructureV3到<b class='flag-5'>AMD</b> <b class='flag-5'>GPU</b>上

    英偉達(dá)自研HBM基礎(chǔ)裸片

    "后的下一代AI GPU "Feynman"。 ? 有分析指出,英偉達(dá)此舉或是將部分GPU功能集成到基礎(chǔ)裸片中,旨在提高HBM和
    的頭像 發(fā)表于 08-21 08:16 ?2564次閱讀

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問(wèn)有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了
    發(fā)表于 07-25 08:18

    英偉達(dá)CUDA 已經(jīng)開(kāi)始移植到 RISC-V 架構(gòu)上

    7 月 17 日,在第五屆(2025)RISC-V 中國(guó)峰會(huì)主論壇上,英偉達(dá)副總裁 Frans Sijstermanns 分享了題為《在英偉達(dá)計(jì)算
    發(fā)表于 07-17 16:30 ?3861次閱讀

    國(guó)內(nèi)外電機(jī)結(jié)構(gòu) 工藝對(duì)比分析

    純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:國(guó)內(nèi)外電機(jī)結(jié)構(gòu) 工藝對(duì)比分析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問(wèn)題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 05-29 14:06

    英偉達(dá)擬再推中國(guó)特供GPU,今年6月量產(chǎn)!

    電子發(fā)燒友網(wǎng)綜合報(bào)道 近年來(lái),美國(guó)政府對(duì)華半導(dǎo)體出口管制政策不斷收緊,英偉達(dá)等半導(dǎo)體企業(yè)面臨嚴(yán)峻挑戰(zhàn)。為保持在中國(guó)市場(chǎng)的競(jìng)爭(zhēng)力,英偉達(dá)推出了多款特供版
    發(fā)表于 05-27 00:03 ?4634次閱讀

    主流汽車(chē)電子SoC芯片對(duì)比分析

    主流汽車(chē)電子SoC芯片對(duì)比分析 隨著汽車(chē)智能化、電動(dòng)化趨勢(shì)加速,系統(tǒng)級(jí)芯片(SoC)已成為汽車(chē)電子核心硬件。本文從技術(shù)參數(shù)、市場(chǎng)定位、應(yīng)用場(chǎng)景及國(guó)產(chǎn)化進(jìn)程等維度,對(duì)主流汽車(chē)電子SoC芯片進(jìn)行對(duì)比分析
    的頭像 發(fā)表于 05-23 15:33 ?4939次閱讀

    新思科技攜手英偉達(dá)加速芯片設(shè)計(jì),提升芯片電子設(shè)計(jì)自動(dòng)化效率

    宣布在英偉達(dá) Grace Blackwell 平臺(tái)上實(shí)現(xiàn)高達(dá) 30 倍的預(yù)期性能提升,加速下一代半導(dǎo)體的電路仿真 ? 摘要: 在今年GTC主題演講中,新思科技作為生態(tài)系統(tǒng)的一部分,展示
    發(fā)表于 03-19 17:59 ?452次閱讀

    新思科技亮相英偉達(dá)GTC 2025大會(huì)

    為了實(shí)現(xiàn)這一速度提升,新思科技在GTC全球AI大會(huì)上宣布,正在使用英偉達(dá) CUDA-X庫(kù)優(yōu)化其下一代半導(dǎo)體開(kāi)發(fā)解決方案。公司還在擴(kuò)大對(duì)英偉達(dá)
    的頭像 發(fā)表于 03-19 17:53 ?1145次閱讀

    英偉達(dá)殺瘋了!Blackwell橫掃市場(chǎng),AMD、英特爾加入降本浪潮

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)2月27日凌晨,英偉達(dá)公布了2025財(cái)年第四財(cái)季的財(cái)務(wù)數(shù)據(jù),這是DeepSeek面世后的第一份財(cái)報(bào),業(yè)內(nèi)人士尤為關(guān)注DeepSeek給英偉達(dá)或者是
    的頭像 發(fā)表于 03-02 00:02 ?2451次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>殺瘋了!Blackwell橫掃市場(chǎng),<b class='flag-5'>AMD</b>、英特爾加入降本浪潮

    荷蘭與英偉達(dá)AMD商討共建人工智能設(shè)施

    荷蘭政府正在積極尋求與全球領(lǐng)先的科技公司英偉達(dá)AMD的合作,共同推動(dòng)荷蘭人工智能設(shè)施的建設(shè)與發(fā)展。 據(jù)荷蘭政府官方網(wǎng)站的消息,荷蘭經(jīng)濟(jì)事務(wù)大臣迪爾克·貝爾亞爾茨于近日對(duì)美國(guó)硅谷進(jìn)行了訪(fǎng)問(wèn),期間
    的頭像 發(fā)表于 01-10 13:36 ?1034次閱讀

    美銀分析師:英偉達(dá)加大“物理AI”投入為明智之舉

    近日,美國(guó)銀行的分析師對(duì)英偉達(dá)在“物理AI”領(lǐng)域的最新動(dòng)向發(fā)表了評(píng)論。分析師指出,英偉達(dá)決定加大
    的頭像 發(fā)表于 01-08 10:51 ?757次閱讀