chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過(guò)交替式幾何處理實(shí)現(xiàn)更優(yōu)的多核?GPU?擴(kuò)展

穎脈Imgtec ? 2025-12-01 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在理論上,通過(guò)增加更多GPU核心來(lái)提升性能似乎很簡(jiǎn)單:核心越多,性能越強(qiáng)。但在實(shí)踐中,這是圖形架構(gòu)領(lǐng)域最棘手的挑戰(zhàn)之一。雖然某些工作負(fù)載因其獨(dú)立特性能實(shí)現(xiàn)良好擴(kuò)展,但另一些工作負(fù)載(尤其是幾何處理)會(huì)引入順序依賴(lài)性,使得線(xiàn)性性能擴(kuò)展成為業(yè)界所有GPU架構(gòu)都難以攻克的難題。


為什么多核GPU性能擴(kuò)展如此困難?

現(xiàn)代GPU的優(yōu)勢(shì)來(lái)自高度并行化,但并不是所有任務(wù)都能做到并行。以幾何處理為例,它具有天然的順序性。圖形API要求按照提交順序處理對(duì)象,因?yàn)榭梢?jiàn)性與渲染結(jié)果往往依賴(lài)這一順序。這意味著幾何工作負(fù)載通常只能在單一核心上運(yùn)行,生成按順序排列的tile列表供后續(xù)管線(xiàn)使用。當(dāng)幾何階段成為瓶頸時(shí),其他核心會(huì)處于閑置狀態(tài),從而導(dǎo)致擴(kuò)展效率大幅下降。

這并非Imagination獨(dú)有的困境。其他GPU架構(gòu)同樣面臨類(lèi)似挑戰(zhàn):它們同樣難以在工作負(fù)載無(wú)法平均分配時(shí)保持高效擴(kuò)展。雖然動(dòng)態(tài)并行(dynamic parallelism)和硬件隊(duì)列(hardware queues)等技術(shù)能夠提供幫助,但在幾何密集場(chǎng)景下問(wèn)題依然突出。結(jié)果就是:增加核心數(shù)量并不一定能帶來(lái)成比例的性能提升——無(wú)論使用的是哪種GPU。

那么,我們的解決方案是什么?


走進(jìn)Imagination的多核GPU架構(gòu)

在討論我們的幾何擴(kuò)展方案之前,我們先回顧一下Imagination的多核基礎(chǔ)。

Imagination GPU具備高度可擴(kuò)展的多核技術(shù),可幫助系統(tǒng)設(shè)計(jì)者實(shí)現(xiàn)更高峰值性能或最大工作負(fù)載靈活性。Imagination的方法是去中心化(decentralised)且松耦合(loosely-coupled),從而避免傳統(tǒng)集中式多核架構(gòu)所面臨的擁塞和布局限制問(wèn)題。

這些核心是松耦合的,僅通過(guò)內(nèi)存共享命令列表和tile緩沖列表,共同分擔(dān)工作負(fù)載。由于每個(gè)核心都被設(shè)計(jì)為一個(gè)獨(dú)立、完整的GPU,它包含所有必要的功能,能夠根據(jù)優(yōu)先級(jí)自行管理并執(zhí)行任務(wù)。

3e2b2dac-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核網(wǎng)格的主–主(Primary-Primary)模式

3e3bb604-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核網(wǎng)格的主–從(Primary-Secondary)模式

多核網(wǎng)格中的每個(gè)核心都可以獨(dú)立運(yùn)行(主–主模式,Primary-Primary),也可以協(xié)同運(yùn)行(主–從模式,Primary-Secondary)。在主–從配置下,只有主GPU核心(Primary GPU Core)內(nèi)的一個(gè)固件處理器處于激活狀態(tài),它負(fù)責(zé)驅(qū)動(dòng)所有屬于多核網(wǎng)格的從GPU核心(Secondary GPU Cores)中的工作負(fù)載。多個(gè)GPU實(shí)例共享命令流,并共同盡可能快速地完成任務(wù)。

通過(guò)讓每個(gè)GPU核心在渲染目標(biāo)(render target)的不同區(qū)域上工作,我們能夠保持帶寬效率,因?yàn)槊總€(gè)核心始終處理屏幕上連續(xù)且具一致性的區(qū)域,從而確保最大的緩存命中率(每個(gè)核心的數(shù)據(jù)根據(jù)自身處理的任務(wù)進(jìn)行針對(duì)性緩存,避免核心之間不必要的數(shù)據(jù)遷移和重復(fù),提高整體效率)。

多核網(wǎng)格中的寄存器設(shè)置和同步通過(guò)專(zhuān)用的XPU總線(xiàn)來(lái)處理,它連接主GPU核心和所有從GPU核心,支持點(diǎn)對(duì)點(diǎn)及廣播模式。該核間通信結(jié)構(gòu)與內(nèi)存層級(jí)經(jīng)過(guò)優(yōu)化,確保在核心數(shù)量增加時(shí)仍能降低延遲。該結(jié)構(gòu)還能將GPU核心分布在多個(gè)Chiplet、芯片甚至不同的板上。這為客戶(hù)提供了更靈活的設(shè)計(jì)選擇,并顯著降低成本——客戶(hù)只需設(shè)計(jì)一個(gè)單一chiplet(或芯片),便可通過(guò)封裝多個(gè)chiplet來(lái)構(gòu)建不同性能檔位,從而擴(kuò)展GPU性能。


引入Alternate Geometry Processing(AGP):交替式幾何處理

現(xiàn)在我們回到如何在多核心環(huán)境中實(shí)現(xiàn)接近線(xiàn)性的性能擴(kuò)展這一挑戰(zhàn)上。

我們多核技術(shù)的一個(gè)關(guān)鍵特性——最早在B-Series中引入,并在后續(xù)幾代中不斷優(yōu)化——這便是交替式幾何處理(AGP)。AGP并不是強(qiáng)制所有幾何任務(wù)都由一個(gè)核心處理,而是將幾何工作負(fù)載分布到多個(gè)核心,但保留一個(gè)關(guān)鍵原則:不破壞同一渲染目標(biāo)內(nèi)部的嚴(yán)格順序要求

AGP的方法是:將不同的渲染目標(biāo)(render targets)或不同幀分配給不同GPU核心處理幾何階段。

例如:

  • 核心#1處理渲染目標(biāo)A的幾何任務(wù);

  • 核心#2處理渲染目標(biāo)B的幾何任務(wù);

  • 與此同時(shí),像素處理和計(jì)算任務(wù)會(huì)被切片并分配到所有核心上并行執(zhí)行。

這種方式既遵循了圖形API的順序規(guī)則,又能在多個(gè)渲染任務(wù)獨(dú)立的情況下釋放并行度。在多幀、多個(gè)渲染目標(biāo)的場(chǎng)景中,AGP能顯著減少閑置時(shí)間,讓負(fù)載分配更均衡。


交替式幾何處理(AGP)的實(shí)際優(yōu)勢(shì)

1.更高的擴(kuò)展效率

通過(guò)在多個(gè)核心之間分配幾何工作,AGP避免了單核心成為瓶頸的問(wèn)題。這在云游戲或汽車(chē)系統(tǒng)等同時(shí)處理多場(chǎng)景、多顯示的多核配置中尤為重要。

2.更佳的資源利用率

若沒(méi)有AGP,負(fù)責(zé)幾何處理的核心還要承擔(dān)其像素處理任務(wù),從而拖慢整個(gè)多核系統(tǒng)。而AGP能平衡負(fù)載、減少傾斜(skew),保持所有核心都持續(xù)工作。


Imagination的AGP與其他GPU廠商的比較

其他GPU廠商采用的方案不盡相同。

  • NVIDIA 多GPU架構(gòu)多基于逐幀并行(Alternate Frame Rendering)。

  • AMD則采用命令處理器和硬件隊(duì)列來(lái)分配工作負(fù)載。

但兩種方案都面臨類(lèi)似的局限性:幾何密集型場(chǎng)景仍可能阻礙擴(kuò)展,因?yàn)樵诓黄茐匿秩菊_性的前提下難以拆分這類(lèi)場(chǎng)景。

Imagination的AGP技術(shù)之所以脫穎而出,在于其采用軟件驅(qū)動(dòng)模式并深度集成于我們的分塊式(Tile-Based)架構(gòu),從而實(shí)現(xiàn)高效靈活的運(yùn)行。結(jié)合去中心化、松耦合的多核設(shè)計(jì),AGP能為原本可能陷入停滯的工作負(fù)載提供近乎線(xiàn)性的擴(kuò)展能力。


對(duì)系統(tǒng)設(shè)計(jì)者意味著什么?

對(duì)系統(tǒng)設(shè)計(jì)者而言,結(jié)論非常清晰:

多核擴(kuò)展的成功并不是簡(jiǎn)單地疊加更多核心,而是更智能合理地管理工作負(fù)載。

若您希望深入了解如何基于Imagination GPU IP構(gòu)建高性能多核解決方案,以及如何高效分配工作負(fù)載,歡迎聯(lián)系我們的團(tuán)隊(duì)。


英文鏈接:https://blog.imaginationtech.com/how-alternate-geometry-processing-enables-better-multi-core-gpu-scaling

聲明:本文為原創(chuàng)文章,轉(zhuǎn)載需注明作者、出處及原文鏈接。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5258

    瀏覽量

    136036
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2466

    瀏覽量

    66988
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    623

    瀏覽量

    63477
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中航光電推出可插拔GPU液冷組件

    隨著AI芯片功耗持續(xù)攀升、單機(jī)算力密度不斷突破上限,與之配套的液冷散熱組件也正朝著更高散熱性能、更小結(jié)構(gòu)尺寸、更優(yōu)集成封裝的方向快速迭代升級(jí)。針對(duì)高功率PCIeGPU的散熱需求,中航光電推出可插拔
    的頭像 發(fā)表于 04-08 16:04 ?250次閱讀
    中航光電推出可插拔<b class='flag-5'>式</b><b class='flag-5'>GPU</b>液冷組件

    MAX77874:16A高性能四相降壓調(diào)節(jié)器,引領(lǐng)多核處理器電源解決方案

    MAX77874:16A高性能四相降壓調(diào)節(jié)器,引領(lǐng)多核處理器電源解決方案 在電子設(shè)備飛速發(fā)展的今天,多核心CPU和GPU處理器對(duì)電源的要求
    的頭像 發(fā)表于 03-06 16:40 ?1073次閱讀

    請(qǐng)問(wèn)沒(méi)有用到的I/0如何處理?

    沒(méi)有用到的I/0如何處理
    發(fā)表于 01-12 06:29

    大語(yǔ)言模型如何處理上下文窗口中的輸入

    本博客介紹了五個(gè)基本概念,闡述了大語(yǔ)言模型如何處理上下文窗口中的輸入。通過(guò)明確的例子和實(shí)踐中獲得的見(jiàn)解,本文介紹了多個(gè)與上下文窗口有關(guān)的基本概念,如詞元化、序列長(zhǎng)度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?746次閱讀
    大語(yǔ)言模型如<b class='flag-5'>何處理</b>上下文窗口中的輸入

    RISC-V B擴(kuò)展介紹及實(shí)現(xiàn)

    B擴(kuò)展簡(jiǎn)介 RISCV B擴(kuò)展指的是RISCV用于位運(yùn)算加速的一個(gè)擴(kuò)展指令集,目的是使用一條指令實(shí)現(xiàn)原本需要2-3條指令才能實(shí)現(xiàn)的位操作指
    發(fā)表于 10-21 13:01

    Stduio使用wifi模塊出錯(cuò)如何處理?

    外設(shè)為潘多拉IOT開(kāi)發(fā)板,使用Stduio配置了wifi框架,但是代碼里在配置wifi模式時(shí),沒(méi)有找到wlan0這個(gè)設(shè)備,wifi整個(gè)功能也用不了,請(qǐng)問(wèn)應(yīng)該如何處理。使用正點(diǎn)原子資料包里的rtthread測(cè)試demo,wifi工作正常,wifi模塊硬件沒(méi)有問(wèn)題。
    發(fā)表于 10-10 08:18

    多種類(lèi)幾何尺寸集成智能儀器定制 一站解決產(chǎn)線(xiàn)多維度測(cè)量需求

    、彎曲度、螺紋鋼米重、鉆桿螺紋等。 總結(jié) 多種幾何尺寸集成智能儀器定制,本質(zhì)是“產(chǎn)線(xiàn)測(cè)量需求的系統(tǒng)化解決方案”——通過(guò)整合多維度測(cè)量功能、融入智能數(shù)據(jù)能力、適配產(chǎn)線(xiàn)實(shí)際工況,實(shí)現(xiàn)“一臺(tái)儀器解決多需求
    發(fā)表于 10-09 13:50

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程
    的頭像 發(fā)表于 08-18 11:50 ?1618次閱讀

    靜力水準(zhǔn)儀在測(cè)量過(guò)程中遇到誤差如何處理?

    靜力水準(zhǔn)儀在測(cè)量過(guò)程中遇到誤差如何處理?靜力水準(zhǔn)儀在工程沉降監(jiān)測(cè)中出現(xiàn)數(shù)據(jù)偏差時(shí),需采取系統(tǒng)性處理措施。根據(jù)實(shí)際工況,誤差主要源于環(huán)境干擾、設(shè)備狀態(tài)、安裝缺陷及操作不當(dāng)四類(lèi)因素,需針對(duì)性解決。靜力
    的頭像 發(fā)表于 08-14 13:01 ?1027次閱讀
    靜力水準(zhǔn)儀在測(cè)量過(guò)程中遇到誤差如<b class='flag-5'>何處理</b>?

    【老法師】多核異構(gòu)處理器中M核程序的啟動(dòng)、編寫(xiě)和仿真

    文章,小編就將以飛凌嵌入的OKMX8MP-C開(kāi)發(fā)板為例,為大家介紹多核異構(gòu)處理器M核程序的啟動(dòng)配置、程序編寫(xiě)和實(shí)時(shí)仿真的過(guò)程。
    的頭像 發(fā)表于 08-13 09:05 ?4170次閱讀
    【老法師】<b class='flag-5'>多核</b>異構(gòu)<b class='flag-5'>處理</b>器中M核程序的啟動(dòng)、編寫(xiě)和仿真

    T113-i芯片技術(shù)解析:高性能嵌入處理器的創(chuàng)新設(shè)計(jì)

    ?芯片概述 明遠(yuǎn)智睿的T113-i芯片是一款由全志科技推出的高性能、低功耗嵌入處理器,主要面向智能家居、工業(yè)控制、消費(fèi)電子等領(lǐng)域。該芯片基于ARM架構(gòu),集成了多核CPU、GPU和豐富
    的頭像 發(fā)表于 07-17 14:15 ?1498次閱讀

    多節(jié)點(diǎn)并行處理架構(gòu)

    /GPU)、內(nèi)存及本地存儲(chǔ),節(jié)點(diǎn)間通過(guò)高速網(wǎng)絡(luò)通信,避免資源爭(zhēng)用,提升擴(kuò)展性。 數(shù)據(jù)水平分片? 海量數(shù)據(jù)被分割存儲(chǔ)在不同節(jié)點(diǎn),查詢(xún)時(shí)各節(jié)點(diǎn)并行處理本地?cái)?shù)據(jù),最后匯總結(jié)果(如Doris、
    的頭像 發(fā)表于 06-12 08:18 ?733次閱讀
    多節(jié)點(diǎn)并行<b class='flag-5'>處理</b>架構(gòu)

    熱成像儀為何都在瘋狂卷多核處理器?“多核大戰(zhàn)”背后的真相你知道嗎?

    熱成像儀進(jìn)入“多核”時(shí)代,這不是噱頭,而是需求在變。 從黑夜中識(shí)別生命體,到復(fù)雜地形中實(shí)現(xiàn)熱源追蹤,過(guò)去主要用于軍事和工業(yè)的熱成像儀,如今正越來(lái)越多地進(jìn)入民用市場(chǎng)。而隨著使用場(chǎng)景的復(fù)雜化,“看得見(jiàn)
    的頭像 發(fā)表于 04-27 15:41 ?918次閱讀

    高效地擴(kuò)展Polars GPU Parquet讀取器

    處理大型數(shù)據(jù)集時(shí),數(shù)據(jù)處理工具的性能至關(guān)重要。Polars 作為一個(gè)以速度和效率著稱(chēng)的開(kāi)源數(shù)據(jù)處理庫(kù),它提供了由 cuDF 驅(qū)動(dòng)的 GPU 加速后端,能夠顯著提升性能。
    的頭像 發(fā)表于 04-21 17:12 ?1042次閱讀
    高效地<b class='flag-5'>擴(kuò)展</b>Polars <b class='flag-5'>GPU</b> Parquet讀取器