chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA CUDA 13.1版本的新增功能與改進

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-12-13 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA CUDA 13.1 是自 CUDA 二十年前發(fā)明以來,規(guī)模最大、內容最全面的一次更新。

最新的版本包含一系列新功能與改進,旨在提升性能并推動加速計算,主要包括:

推出NVIDIA CUDA Tile:它是基于 tile 的全新編程模型,對包括 Tensor Cores 在內的專用硬件做了抽象

暴露了綠色上下文運行時的 API

在 NVIDIA cuBLAS 中實現(xiàn)雙精度與單精度仿真功能

全新編寫的CUDA 編程指南,面向 CUDA 初學者到資深開發(fā)者

CUDA Tile 編程

為了幫助開發(fā)者開發(fā)適配當前及未來的 GPU 開發(fā)軟件,NVIDIA CUDA 13.1 推出了CUDA Tile。該編程模型允許開發(fā)者在 SIMT 編程模型之上更高層級編寫 GPU 內核。在 SIMT 編程中,開發(fā)者實現(xiàn)一個內核需要手動劃分數(shù)據(jù),并為每個線程指定執(zhí)行路徑。而在 CUDA Tile 編程中,你可以用更高的抽象層級實現(xiàn)內核,直接對稱為“Tile”的數(shù)據(jù)塊指定執(zhí)行路徑:只需指定要在這些 Tile 上執(zhí)行的數(shù)學運算,編譯器和運行時會自動決定如何將任務最優(yōu)地分配給各個線程。這種 Tile 編程模型隱藏了 Tensor Cores 等專用硬件的具體細節(jié),使 Tile 代碼能夠兼容未來的 GPU 架構。

CUDA 13.1 發(fā)布了 Tile 編程的兩大組件

CUDA Tile IR:用于 NVIDIA GPU 編程的全新虛擬指令集架構(ISA)。

cuTile Python:全新領域特定的編程語言(DSL),用于在 Python 中編寫基于數(shù)組和 Tile 的內核。

如需了解更多關于 CUDA Tile IR 與cuTile Python的信息,請查看相關詳細介紹。

CUDA軟件更新

本次 CUDA 版本還包括以下重要軟件更新。

運行時暴露綠色上下文

CUDA 中的綠色上下文是傳統(tǒng) CUDA 上下文的一種輕量級替代方案,旨在為開發(fā)者提供一種對 GPU 進行更細顆粒度的空間劃分和資源分配的機制。自 CUDA 12.4 起,該功能可在驅動 API 中使用;而從本版本開始,綠色上下文也正式支持運行時 API。

綠色上下文使用戶可以定義并管理 GPU 資源(主要是 Streaming Multiprocessors,SMs)的不同分區(qū),并將特定的 SM 集合分配給某個上下文。隨后,在該綠色上下文該所擁有的資源范圍內啟動中 CUDA 內核并管理 CUDA 流。一個典型應用場景是:當應用程序包含對延遲敏感的代碼,且其優(yōu)先級高于所有其他 GPU 任務時,可以將一部分 SM 資源分配給一個專用于此代碼的綠色上下文,其余 SM 分配給處理其他任務的另一個綠色上下文,即可確保關鍵計算始終擁有可用的 SM 資源。

CUDA 13.1 還引入了可定制程度更高的 split() API。開發(fā)者可以構建此前需要多次 API 調用才能完成的 SM 分區(qū),并能夠配置工作隊列,以減少在不同綠色上下文中提交任務時可能產生的偽依賴。

有關這些功能及綠色上下文運行時的更多信息,請參閱CUDA Programming Guide。

CUDA 多進程服務(MPS)更新

CUDA 13.1 為多進程服務新增了多項功能特性。有關這些新功能的完整信息,請參閱MPS 文檔。其中的重點內容包括:內存局部性優(yōu)化分區(qū)、靜態(tài)流多處理器分區(qū)、cuBLAS 中的雙精度與單精度仿真。

開發(fā)者工具

開發(fā)者工具是 CUDA 平臺至關重要的一環(huán),本次發(fā)布帶來了多項創(chuàng)新與功能優(yōu)化。

CUDA Tile 內核性能分析工具

NVIDIA Nsight Compute 2025.4 現(xiàn)可對 CUDA Tile 內核進行性能分析。相關更新包括:在摘要頁面新增“結果類型”列,用于區(qū)分內核屬于 Tile 還是 SIMT 類型;詳情頁面新增“Tile 統(tǒng)計信息”區(qū)域,匯總 Tile 維度及關鍵流程的利用率情況;源頁面也支持將性能指標映射到高級別的 cuTile 內核源代碼。此外,本次 Nsight Compute 版本還新增了兩項功能:支持對設備端啟動的 CUDA 圖節(jié)點進行性能分析;同時改進了源頁面導航,現(xiàn)在無論是編譯器生成的標簽還是用戶自定義的標簽,都支持以可點擊鏈接的形式快速跳轉。

編譯時修補

NVIDIA Compute Sanitizer 2025.4 現(xiàn)可通過編譯器標志 -fdevice-sanitize=memcheck 對 NVIDIA CUDA 編譯器進行編譯時修補。此功能增強了內存錯誤檢測能力并提升了 Compute Sanitizer 的運行性能。編譯時插樁可將錯誤檢測直接集成到 NVCC 中,這樣不僅運行速度更快,還能通過先進的基址-邊界分析捕捉到更隱蔽的如相鄰分配非法訪問的內存問題。這意味著開發(fā)者可以在不犧牲調試速度的前提下,排查內存問題,運行更多測試,從而保持開發(fā)效率。目前,該功能僅支持 memcheck。有關編譯時插樁的完整信息,請參閱 compute-sanitizer文檔。

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1 與 CUDA Toolkit 13.1 同步發(fā)布,新增多項剖析功能,主要包括:

系統(tǒng)級 CUDA 剖析:新增 -cuda-trace-scope 參數(shù),支持跨進程樹或整個系統(tǒng)進行剖析。

CUDA 主機函數(shù)剖析:支持剖析 CUDA Graph 主機函數(shù)節(jié)點及 cudaLaunchHostFunc();該函數(shù)在主機端執(zhí)行,并會阻塞所在流。

綠色上下文時間軸:現(xiàn)在其提示信息會顯示 SM 分配情況,幫助用戶了解 GPU 資源利用率。

數(shù)學函數(shù)庫

本次核心 CUDA 工具包的數(shù)學函數(shù)庫引入了多項新功能,主要包括:NVIDIA cuBLAS、NVIDIA cuSPARSE、NVIDIA cuFFT。

NVIDIA CUDA 核心計算庫

NVIDIA CUDA 核心計算庫(CCCL)為CUB庫帶來了多項創(chuàng)新與增強:

確定性浮點數(shù)縮減:作為 CUDA 13.1 一部分, NVIDIA CCCL 3.1 提供了兩種額外的浮點確定性選項,以便在確定性和性能之間進行權衡:

Not-guaranteed:使用原子操作進行單輪歸約。此選項不保證為多次運行提供位級相同的結果。

GPU-to-GPU:基于 Kate Clark 在 NVIDIAGTC 2024演講中提出的可復現(xiàn)歸約算法。其結果始終是位級相同的。

更便捷的單階段CUB API:CCCL 3.1 為部分 CUB 算法新增了重載函數(shù),它們可以直接接受內存資源參數(shù),從而省去查詢、分配、釋放臨時存儲的步驟。

了解更多

CUDA 13.1 帶來了眾多新功能,并開啟了以 CUDA Tile 為核心的GPU 編程新時代,了解更多關于 CUDA 13.1 的更新。

歡迎探索CUDA Tile相關資源,下載CUDA Toolkit 13.1,立即開始體驗。

關于作者 —

Jonathan Bentz

領導 NVIDIA 的 CUDA 技術營銷工程團隊,其團隊專注于創(chuàng)建和提供引人入勝的內容,并與 CUDA 開發(fā)者建立聯(lián)系。Jonathan 擁有愛荷華州立大學化學博士學位和計算機科學碩士學位。

Tony Scudiero

是 CUDA 平臺的技術營銷工程師。他致力于將 CUDA 帶給各種類型和能力的開發(fā)者。在 NVIDIA 任職期間,他曾使用過大型 HPC 系統(tǒng)和應用、實時聲學模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110087
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5258

    瀏覽量

    136037
  • 編程語言
    +關注

    關注

    10

    文章

    1965

    瀏覽量

    39846
  • CUDA
    +關注

    關注

    0

    文章

    128

    瀏覽量

    14544

原文標題:NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,為下一代 GPU 編程提供更強動力

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    藍牙核心規(guī)范6.2版本新增功能特性

    藍牙技術聯(lián)盟(Bluetooth SIG)近期通過了藍牙核心規(guī)范6.2版,為藍牙產品帶來了令人振奮的新特性與改進。其中最突出的當屬藍牙更短連接間隔(Shorter Connection
    的頭像 發(fā)表于 03-11 10:23 ?590次閱讀
    藍牙核心規(guī)范6.2<b class='flag-5'>版本</b><b class='flag-5'>新增</b>的<b class='flag-5'>功能</b>特性

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的
    的頭像 發(fā)表于 02-10 10:31 ?494次閱讀

    索尼更新相機遙控軟件開發(fā)包2.01版本

    2026年2月03日,索尼(中國)有限公司正式發(fā)布了可通過電腦遠程操控索尼相機的相機遙控軟件開發(fā)包(Camera Remote SDK)2.01版本,本次更新帶來了2個新功能新增支持機型ILCE-7M5、PXW-Z380、DS
    的頭像 發(fā)表于 02-03 16:59 ?809次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    博文是系列課程的一部分,旨在幫助開發(fā)者學習 NVIDIA CUDA Tile 編程,掌握構建高性能 GPU 內核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?5245次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile中編寫高性能矩陣乘法

    西門子PCB DFM分析工具Valor NPI 2510版本新增功能

    Valor NPI 2510 版本新增多項檢查功能、提升制造風險識別,并推出令人矚目的 3D 可視化增強特性,這標志著產品的重大升級。Valor NPI 的 3D 視圖經過重新設計,讓可制造性設計 (DFM) 結果的查看更直觀、
    的頭像 發(fā)表于 01-04 16:10 ?641次閱讀
    西門子PCB DFM分析工具Valor NPI 2510<b class='flag-5'>版本</b>的<b class='flag-5'>新增</b><b class='flag-5'>功能</b>

    NVIDIA CUDA Tile的創(chuàng)新之處、工作原理以及使用方法

    NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVID
    的頭像 發(fā)表于 12-24 10:17 ?621次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile的創(chuàng)新之處、工作原理以及使用方法

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA
    的頭像 發(fā)表于 12-13 10:12 ?1380次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile簡化GPU編程

    AMD Vivado Design Suite 2025.2版本現(xiàn)已發(fā)布

    AMD Vivado Design Suite 2025.2 版本現(xiàn)已發(fā)布,新增對 AMD Versal 自適應 SoC 的設計支持,包含新器件支持、QoR 功能及易用性增強。
    的頭像 發(fā)表于 12-09 15:11 ?1270次閱讀

    開鴻Bot系列大版本更新:體驗穩(wěn)定升級,樂享高效協(xié)同!

    V5.0.1.22版本開鴻Bot系列今日,開鴻Bot系列迎來第二次大版本更新——V5.0.1.22。此次版本更新致力于進一步提升系統(tǒng)穩(wěn)定性與用戶體驗,新增多項實用
    的頭像 發(fā)表于 09-26 17:06 ?1476次閱讀
    開鴻Bot系列大<b class='flag-5'>版本</b>更新:體驗穩(wěn)定升級,樂享高效協(xié)同!

    NVIDIA RAPIDS 25.06版本新增多項功能

    RAPIDS 是一套面向 Python 數(shù)據(jù)科學的 NVIDIA CUDA-X 庫,最新發(fā)布的 25.06 版本引入了多項亮眼新功能,其中包括 Polars GPU 流執(zhí)行引擎——這是
    的頭像 發(fā)表于 09-09 09:54 ?1221次閱讀

    匠芯創(chuàng)發(fā)布新版GUI開發(fā)工具 新增多國語言設置等功能

    。此次版本更新,為用戶帶來了諸多實用的新功能,進一步提升了設計體驗和開發(fā)效率。在V1.3.0版本中,AiUIBuilder新增了多國語言切換功能
    的頭像 發(fā)表于 08-07 15:36 ?1501次閱讀
    匠芯創(chuàng)發(fā)布新版GUI開發(fā)工具 <b class='flag-5'>新增</b>多國語言設置等<b class='flag-5'>功能</b>

    NVIDIA DOCA 3.0版本的亮點解析

    NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發(fā)布,每個版本都擴展了
    的頭像 發(fā)表于 07-04 14:27 ?1367次閱讀
    <b class='flag-5'>NVIDIA</b> DOCA 3.0<b class='flag-5'>版本</b>的亮點解析

    【文章轉載】CANoe產品體系19版本功能(下) - 基礎功能與XIL測試

    版本持續(xù)為智能電動網聯(lián)汽車軟件開發(fā)測試帶來全新功能,IDE開發(fā)環(huán)境支持.NET8.0、Python、MATLAB2024b,VisualStudioCode集成測試開發(fā)和調試功能,支持
    的頭像 發(fā)表于 06-25 10:03 ?2005次閱讀
    【文章轉載】CANoe產品體系19<b class='flag-5'>版本</b>新<b class='flag-5'>功能</b>(下) - 基礎<b class='flag-5'>功能與</b>XIL測試

    CANoe產品體系19版本新特性及新增Option(上)

    版本持續(xù)助力當前車輛E/E架構中ECU開發(fā)驗證,同時賦能后續(xù)智能網聯(lián)電動車型預研驗證。新版本CANoe產品體系新增數(shù)據(jù)驅動的DDS、車輛互聯(lián)服務和高效電機模型庫,進一步支持CANXL
    的頭像 發(fā)表于 06-11 10:03 ?3176次閱讀
    CANoe產品體系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    借助NVIDIA技術加速半導體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網絡架構和交換機,以及諸如 NVIDIA cuDSS 和
    的頭像 發(fā)表于 05-27 13:59 ?1262次閱讀