伊人久久 a,国产一级强?片在线观看,高潮呻吟求饶H嗯啊视频

Triton是由OpenAI開發(fā)的一個開源編程語言和編譯器，旨在簡化高性能GPU內(nèi)核的編寫。它提供了類似Python的語法，并通過高級抽象降低了 GPU 編程的復雜性，同時保持了高性能。目前Pytorch已能做到100%替換CUDA，國內(nèi)也有智源研究院主導的FlagGems通用算子庫試圖構(gòu)建起不依賴CUDA的AI計算生態(tài)，截至今日，F(xiàn)lagGems已進入Pytorch基金會生態(tài)項目體系。Triton生態(tài)內(nèi)少有CPU架構(gòu)的實踐，且多面向Host-Device的異構(gòu)方案，進迭時空通過同構(gòu)融合RISC-V AI CPU技術(shù)，結(jié)合Triton輕量化的交互式編程模式，將構(gòu)建起比肩Triton GPGPU的AI高性能編程方案，從而推動AI應用的快速規(guī)?；涞亍?/strong>

為什么是Triton

▲

AI高性能編程模型趨于統(tǒng)一，多核并行的調(diào)度+Tile base的kernel基本成為固定范式。

▲

CUDA的話語權(quán)過高，為走出新AI架構(gòu)的路，需要有獨立的前端編程語言支撐，而Triton DSL的社區(qū)活躍度足夠高，也有相當數(shù)量的大模型、CNN模型項目采用了Triton作為算子編程語言。

▲

Pytorch的成功表明，Python First讓更多開發(fā)者參與生態(tài)共建，降低介入門檻，也有利于新AI架構(gòu)輸出自己的性能優(yōu)化方案。

同構(gòu)融合AI

常見的Host-Device的異構(gòu)Triton方案，使得Triton算子編程的調(diào)試困難，內(nèi)存模型復雜，不利于開發(fā)者靈活的實現(xiàn)自己的想法，而搭建于傳統(tǒng)CPU之上的Triton-CPU方案，也缺乏在AI高性能計算上的硬件支持，例如核內(nèi)TensorCore、多核通信與訪存優(yōu)化、多卡互聯(lián)等。

進迭時空踐行的同構(gòu)融合技術(shù)，創(chuàng)新性地在CPU內(nèi)集成TensorCore，以RISC-V指令集為統(tǒng)一的軟硬件接口，驅(qū)動Scalar標量算力、Vector向量算力和 Matrix AI算力，支持軟件和AI模型同時在RISC-V AI核上運行，并通過程序正常跳轉(zhuǎn)實現(xiàn)軟件和AI模型之間的事件和數(shù)據(jù)交互，進而完成整個AI應用執(zhí)行。

基于同構(gòu)融合RISC-V AI CPU架構(gòu)的Triton方案，在編程調(diào)試視角看仍然類似于傳統(tǒng)CPU，并且消除了Host-Device的概念，采用統(tǒng)一內(nèi)存，調(diào)用側(cè)與執(zhí)行側(cè)是Linux軟件多線程的概念，這將極大的降低高性能算子的編程與調(diào)試難度。同時，在確保編程易用性的前提下，進迭時空通過集成TensorCore、緊密耦合內(nèi)存、Core-to-Core coherence、Cluster-to-Cluster coherence、多核調(diào)度優(yōu)化、AI編譯器優(yōu)化等軟硬件創(chuàng)新，處理絕大部分性能優(yōu)化點，最終交給用戶一個上手即用的算子開發(fā)工具鏈。

RISC-V AI CPU Triton軟件棧
前端層面，支持Pytorch Triton Kernel以及第三方Triton Kernel，例如FlagGems，支持Triton DSL的全部語義。
中端層面，通過TTIR、TTSIR（Triton Shared）至標準Linag IR，不做任何Dialect擴展。
后端層面，先驗調(diào)優(yōu)的矩陣乘kernel與vector.contract并存，保證矩陣計算高效的同時，釋放更多vector codegen的可能性。
SpineTriton（即進迭時空Triton解決方案）作為Triton的第三方后端，對Pytorch提供RISCV AI-CPU底層加速，兼容社區(qū)已有的Triton Kernel，充分融入現(xiàn)有基于Triton構(gòu)建的AI加速生態(tài)。同時，針對AI-CPU核內(nèi)擴展指令、Core-to-Core高速緩存、異步訪存等特性，對tl.make_block_ptr進行了專門特化，開發(fā)者在使用Triton DSL中的塊級訪存與計算時，獲得更大的優(yōu)化收益。
RISC-V AI CPU Triton實踐
前端
以一個矩陣乘的Triton Kernel為例，使用tl.make_block_ptr進行訪存與計算。
pid_m = tl.program_id(0)pid_n = tl.program_id(1)# load matmul a and ba_block_ptr = tl.make_block_ptr( base=a_ptr, shape=[M, K], strides=[stride_am, stride_ak], offsets=[pid_m * BLOCK_SIZE_M, 0], block_shape=[BLOCK_SIZE_M, BLOCK_SIZE_K], order=[1, 0])b_block_ptr = ...accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)): a = tl.load(a_block_ptr, boundary_check=(0, 1)) b = tl.load(b_block_ptr, boundary_check=(0, 1)) accumulator += tl.dot(a, b, allow_tf32=False) a_block_ptr = tl.advance(a_block_ptr, (0, BLOCK_SIZE_K)) b_block_ptr = tl.advance(b_block_ptr, (BLOCK_SIZE_K, 0))c = accumulator.to(dot_out_dtype)# maybe some epilogue for cc_block_ptr = tl.make_block_ptr( base=c_ptr, shape=[M, N], strides=[stride_cm, stride_cn], offsets=[pid_m * BLOCK_SIZE_M, pid_n * BLOCK_SIZE_N], block_shape=[BLOCK_SIZE_M, BLOCK_SIZE_N], order=[1, 0],)tl.store(c_block_ptr, c, boundary_check=(0, 1))
上文Triton Kernel描述的矩陣乘計算對應于下圖計算過程，當以一個Cluster進行捆綁調(diào)度時，SPMD中的Single Program指向一個Cluster上的執(zhí)行程序，通過Program ID區(qū)分輸入與輸出數(shù)據(jù)位置。以開發(fā)者的視角看，Cluster上的編程是線性的，且不需要關(guān)心異步數(shù)據(jù)的訪問邏輯，后端編譯器將分析用戶代碼邏輯的潛在并行性，在Cluster內(nèi)完成并行化，以及使用高速緩存合并Cluster內(nèi)多核的訪存。
中后端
在矩陣乘內(nèi)部計算過程的轉(zhuǎn)換時，將完整的tl.dot即linalg.matmul進行分塊分析，充分使用寄存器資源與近核緩存，在中端轉(zhuǎn)為linalg.mmt4d、linalg.pack、linalg.unpack及結(jié)構(gòu)化循環(huán)體的表示。linalg.mmt4d與手寫kernel直接映射并利用到Tensor算力，而其他的算子，則采用affine進行向量化使用Vector算力。
由于采用了IME的方式擴展AI指令（參考進迭時空AI擴展指令Spec，https://github.com/spacemit-com/riscv-ime-extension-spec），在linalg.mmt4d這樣的ukernel的轉(zhuǎn)換過程時，可以直接使用vector進行交互，避免在延遲更高的存儲結(jié)構(gòu)上進行交互，這是IME的一大優(yōu)點。
// load b// %acc: vector<16x32xf32>%0 = vector.load [...] : memref, vector<4x32xf32>// load a%1 = vector.load [...] : memref, vector<2x32xf32>// vfmadot -> 2x8x4 @ 4x8x4 => 2x4x8x8%2 = vector.contract {...} %1, %0, %acc : vector<2x32xf32>, vector<4x32xf32> into vector<16x32xf32>
在mlir-llvm的結(jié)合部分，通過vector.contract構(gòu)造了大量先驗的手寫匯編序列，以確保最終性能的可靠性。
結(jié)束語
Triton目前仍然是一個GPGPU架構(gòu)主導的Python DSL及算子編譯器，在CPU架構(gòu)上發(fā)展緩慢，僅存在一些在x86架構(gòu)下的TritonCPU編程的社區(qū)工作，且不是最優(yōu)適配。RISC-V同構(gòu)融合AI算力的方式，利于打破算子內(nèi)多種計算模式（Scalar、Vector、Tensor）的隔閡，同時統(tǒng)一內(nèi)存、統(tǒng)一OS的軟硬件架構(gòu)，使得調(diào)試難度降低，系統(tǒng)內(nèi)多種軟硬件資源的交互難度降低。此外，未來也將逐步開源SpineTriton的軟件棧部分，共同建設RISCV Triton高性能編程社區(qū)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
5258

瀏覽量
136037

編譯器

編譯器

+關(guān)注

關(guān)注
1

文章
1672

瀏覽量
51884

RISC-V

RISC-V

+關(guān)注

關(guān)注
49

文章
2939

瀏覽量
53512

收藏人收藏

掃一掃，分享給好友

復制鏈接分享

加入交流群

掃碼添加小助手

加入工程師交流群

評論

發(fā)布評論請先登錄

相關(guān)推薦

熱點推薦

加解密運算：進迭時空 RISC-V Vector Crypto 量產(chǎn)實踐

近年來，RISC-V不斷在各個應用場景落地，在各種真實應用場景中，安全一直是離不開的一個話題。加密、認證、哈希、校驗正逐步成為系統(tǒng)中的常駐負載。進迭時空在K3芯片上推進

發(fā)表于 04-10 19:48 ?210次閱讀

Canonical 與進迭時空攜手：Ubuntu 全面支持 K3/K1 RISC-V AI CPU 計算平臺

2026年2月5日——Canonical公司和進迭時空（SpacemiT）合作將Ubuntu操作系統(tǒng)引入到K3/K1RISC-VAICPU計算平臺。此次合作標志著開源操作系統(tǒng)與開放

發(fā)表于 02-06 09:32 ?2.7w次閱讀

進迭時空發(fā)布新一代RISC-V AI CPU芯片，滿足端側(cè)大模型算力需求

電子發(fā)燒友網(wǎng)報道 1月29日，進迭時空線上發(fā)布新一代AI CPU芯片——K3。作為全球首顆符合RVA23規(guī)范的量產(chǎn)

發(fā)表于 01-30 14:06 ?9421次閱讀

進迭時空再獲數(shù)億元融資，下一代 RISC-V AI 芯片 K3 即將發(fā)布

進迭時空再獲數(shù)億元融資，下一代 RISC-V AI 芯片 K3 即將發(fā)布

發(fā)表于 01-15 19:07 ?553次閱讀

進迭時空2025年度十大開發(fā)者揭曉

回顧2025，RISC-V與AI的融合持續(xù)深化，推動智能計算進入更開放、更高效的新階段。在人工智能發(fā)展的浪潮中，廣大開發(fā)者始終與進迭

發(fā)表于 01-12 20:07 ?778次閱讀

取之于開源，貢獻于開源：進迭時空AI計算生態(tài)開源貢獻

開放創(chuàng)新是進迭時空的企業(yè)價值觀之一，公司的軟硬件技術(shù)棧構(gòu)建在開源之上，同時也積極在操作系統(tǒng)、編譯器、AI計算生態(tài)等領(lǐng)域為開源做貢獻。open

發(fā)表于 10-21 09:03 ?5964次閱讀

進迭播客 |「RISC-V 圓桌白話錄」首期正式上線！

進迭播客「RISC-V圓桌白話錄」進迭時空全新播客節(jié)目「RI

發(fā)表于 10-16 17:42 ?1478次閱讀

進迭時空與青少年共赴RISC-V AI科技未來！

8月15日至25日，首屆烏鎮(zhèn)青少年科技嘉年華圓滿落幕。進迭時空受邀亮相世界互聯(lián)網(wǎng)科技館"烏鎮(zhèn)硅谷"體驗區(qū)，展示了多款基于K1芯片的智能產(chǎn)品，為青少年帶來沉浸式的RISC-V與

發(fā)表于 08-28 17:53 ?1484次閱讀

2025RISC-V中國峰會｜進迭時空RISC-V AI CPU驅(qū)動智能化應用發(fā)展

2025RISC-V中國峰會在上海張江科學會堂隆重召開。作為全球三大RISC-V峰會之一和中國規(guī)模最大的RISC-V年度盛會，本次峰會由來自政府、學術(shù)和產(chǎn)業(yè)界數(shù)千名代表和與會嘉賓圍繞“開放、協(xié)同

發(fā)表于 07-18 22:03 ?1302次閱讀

RISC-V架構(gòu)下AI融合算力及其軟件棧實踐

面對未來大模型（LLM）、AIGC等智能化浪潮的挑戰(zhàn)，進迭時空在RISC-V方向全面布局，通過精心設計的RISC-VDSA架構(gòu)以及軟硬一體的

發(fā)表于 06-06 17:04 ?1601次閱讀

RISC-V架構(gòu)下的編譯器自動向量化

進迭時空專注于研發(fā)基于RISC-V的高性能新AICPU，對于充分發(fā)揮CPU核的性能而言，編譯器是

發(fā)表于 06-06 16:59 ?1417次閱讀

進迭時空同構(gòu)融合技術(shù)加速大模型AI應用創(chuàng)新

復雜的異構(gòu)調(diào)度系統(tǒng)來協(xié)調(diào)CPU和XPU的額外數(shù)據(jù)交互和同步。進迭時空踐行的同構(gòu)融合技術(shù)，創(chuàng)新性地

發(fā)表于 06-06 16:55 ?1218次閱讀

高校賽事 | 進迭時空攜手藍橋杯，誠邀全國高校學子共啟RISC-V人工智能應用創(chuàng)新賽道

以下文章來源于RISC-V先鋒，作者進迭時空2025年5月12日，第十六屆藍橋杯數(shù)字科技創(chuàng)新（RISC-V應用創(chuàng)新）命題賽正式啟動。本次大賽

發(fā)表于 06-06 16:55 ?2059次閱讀

大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品

識別聯(lián)調(diào)。進迭時空致力于為智能機器人提供完整全棧優(yōu)化的RISC-V AI軟硬件解決方案，第一代RIS

發(fā)表于 04-25 17:59

大象機器人×進迭時空聯(lián)合發(fā)布全球首款RISC-V全棧開源小六軸機械臂

? ? 在全球AI與機器人技術(shù)高速發(fā)展的浪潮中，中國公司始終堅定走在自研創(chuàng)新的道路上。 ? ? 4月25日，大象機器人與國內(nèi)RISC-V AI CPU芯片領(lǐng)軍企業(yè)【

發(fā)表于 04-25 14:19 ?1955次閱讀

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

評論