cuBLAS 庫可提供基本線性代數子程序(BLAS)的 GPU 加速實現。cuBLAS 利用針對 NVIDIA GPU 高度優(yōu)化的插入式行業(yè)標準 BLAS API,加速 AI 和 HPC 應用。cuBLAS 庫包含用于批量運算、跨多個 GPU 的執(zhí)行以及混合精度和低精度執(zhí)行的擴展程序。通過使用 cuBLAS,應用將能自動從定期性能提升及新的 GPU 體系架構中受益。cuBLAS 庫包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 擴展
cuBLASMg 提供了先進的多 GPU 矩陣間乘法,您可在多臺設備間以 2D 塊循環(huán)方式分發(fā)每個矩陣。cuBLASMg 目前已加入 CUDA 數學庫搶先體驗計劃。
cuBLAS 性能
cuBLAS 庫針對 NVIDIAGPU 上的性能進行了高度優(yōu)化,并利用 Tensor Core 對低精度和混合精度矩陣乘法進行加速。



cuBLAS 的主要特性
全面支持 152 個標準 BLAS 例程
支持半精度和整數矩陣乘法
GEMM 和 GEMM 擴展程序針對 Volta 及 Turing Tensor Core 進行了優(yōu)化
針對各種深度學習模型中使用的規(guī)模調整 GEMM 性能
支持用于并發(fā)操作的 CUDA 流
您將能夠使用最基本的 CUDA 工具和技術,加速和優(yōu)化僅適用于 CPU 的 C/C++ 應用程序。您將了解 CUDA 開發(fā)的迭代風格,這將幫助您快速發(fā)布加速應用程序。
加速計算基礎——CUDA Python
您將了解使用 CUDA 和 Numba 編譯器在大規(guī)模并行 GPU 上加速運行 Python 應用程序的基本工具和技能。
通過 CUDA C++ 在多個 GPU 之間擴展工作負載
您將學習如何在單個節(jié)點上使用多個 GPU,構建強大高效的 CUDA C++ 應用程序。
通過并發(fā)流加速 CUDA C++ 應用程序
您將在 CUDA C++ 應用程序中,學習利用 CUDA Streams 進行復制/計算重疊。
審核編輯:劉清
-
gpu
+關注
關注
28文章
5258瀏覽量
136037 -
矩陣
+關注
關注
1文章
450瀏覽量
36229 -
HPC
+關注
關注
0文章
348瀏覽量
25061
原文標題:DevZone | NVIDIA cuBLAS庫
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
NVIDIA向Kubernetes社區(qū)捐贈動態(tài)資源分配GPU驅動程序
Oracle和NVIDIA合作加速向量搜索和企業(yè)數據處理
NVIDIA推出cuEST量子化學加速庫
KIOXIA單服務器實現48億高維向量搜索數據庫,借助GPU實現索引構建時間加速7.8倍
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
RSoft GPU加速技術重塑光子元件設計效率革命
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
在Python中借助NVIDIA CUDA Tile簡化GPU編程
利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
Cadence 借助 NVIDIA DGX SuperPOD 模型擴展數字孿生平臺庫,加速 AI 數據中心部署與運營
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA cuBLAS庫加速BLAS的GPU設計實現
評論