chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

幾B都有!BM1684X一鍵適配全系列Qwen3

算能開發(fā)者社區(qū) ? 2025-04-30 18:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Qwen3發(fā)布,大小尺寸通吃

Qwen3一發(fā)布,登頂開源大模型排行榜!235B、32B、8B、4B、1.7B云邊端全尺寸模型,BF16和FP8兩種精度,一次性發(fā)布,無論云端大卡還是邊緣AI設(shè)備,都可體驗最新的大模型能力。

來看下Qwen3各個模型的benchmark得分:

2df9d8c0-25af-11f0-9434-92fbcf53809c.png

2e1a6928-25af-11f0-9434-92fbcf53809c.png

這些年看多了大模型的迭代,各家都在玩參數(shù)競賽和架構(gòu)魔術(shù),但阿里這次Qwen3的設(shè)計有點意思——它搞了個"混合模式"的機制,讓模型能自己決定什么時候該"慢慢想",什么時候該"快速答"。這玩意兒本質(zhì)上是在延遲和精度之間做動態(tài)權(quán)衡,技術(shù)上不算新鮮(OpenAI的o3就玩過這套),但阿里的實現(xiàn)方式更像個老會計——給你個"思考預算"的開關(guān),讓用戶自己把控成本。

2e316574-25af-11f0-9434-92fbcf53809c.png

BM1684X,Qwen3部署性價比之王

這種設(shè)計背后是典型的工程思維:既然大模型的推理成本居高不下,不如把選擇權(quán)交給用戶。就像當年CPU的動態(tài)調(diào)頻技術(shù),與其無腦跑滿頻,不如讓系統(tǒng)根據(jù)負載靈活調(diào)節(jié),但這種模式切換要在硬件層面做好流水線調(diào)度,否則切換時的上下文保存就能吃掉那點省下來的算力。

現(xiàn)在的大模型就像過度教育的孩子,解得了奧數(shù)題但算不清買菜賬。Qwen3給"孩子"裝了個手動擋,讓用戶自己決定什么時候該掛高檔位沖刺,什么時候該低檔省油,這種策略下每瓦特的性價比自然就上去了,而邊緣和端側(cè)的設(shè)備對成本更是敏感,那作為邊緣大模型部署的性價比之王,BM1684X表現(xiàn)如何?

4B運行demo(SOC模式950Mhz 16.4tokens/s)

2e48630a-25af-11f0-9434-92fbcf53809c.gif

1.7B運行demo(SOC模式950Mhz 30.3 tokens/s)

2e6838ec-25af-11f0-9434-92fbcf53809c.gif

一行代碼適配,解鎖全系模型

BM1684X 單芯配置16GB內(nèi)存,20B以下的都可以在一顆芯片跑,32B用2顆就可以(32B dense模型性能約5 tokens/s)。

更詳細的適配流程參考:https://github.com/sophgo/LLM-TPU/tree/main/models/Qwen3,拉取最新的tpu-mlir代碼后,只需要一行代碼即可轉(zhuǎn)出bmodel,不用再通過onnx中介。

2e88a9a6-25af-11f0-9434-92fbcf53809c.png

bmodel轉(zhuǎn)好之后,可以用python或者cpp來跑:

2e9ca49c-25af-11f0-9434-92fbcf53809c.png

限制我們適配新模型速度的不是工具鏈,而是模型下載速度,歡迎關(guān)注算能產(chǎn)品,解鎖更多大模型部署方案,手中有BM1684X的同學可以玩起來了!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 邊緣AI
    +關(guān)注

    關(guān)注

    0

    文章

    230

    瀏覽量

    6083
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3621

    瀏覽量

    5141
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    從模型到產(chǎn)品:Qwen2.5-VL在BM1684X邊緣計算部署全攻略

    前言:部署意義與應(yīng)用場景1.1Qwen-2-5-VL與BM1684X的組合行業(yè)意義:?邊緣AI革命:大模型從云端下沉到邊緣設(shè)備是當前AI發(fā)展的關(guān)鍵趨勢。根據(jù)ABIResearch數(shù)據(jù),到2026年
    的頭像 發(fā)表于 01-13 14:17 ?4254次閱讀
    從模型到產(chǎn)品:<b class='flag-5'>Qwen</b>2.5-VL在<b class='flag-5'>BM1684X</b>邊緣計算部署全攻略

    SAM(通用圖像分割基礎(chǔ)模型)丨基于BM1684X模型部署指南

    在基于BM1684X芯片的嵌入式設(shè)備上進行高效推理測試。、特性?支持BM1684X平臺全系列部署方案(x86PCIe、SoC、riscvP
    的頭像 發(fā)表于 01-12 16:17 ?262次閱讀
    SAM(通用圖像分割基礎(chǔ)模型)丨基于<b class='flag-5'>BM1684X</b>模型部署指南

    Qwen3-VL 4B/8B全面適配BM1684X成邊緣最佳部署平臺!

    算能BM1684X上完成Qwen3-VL4B/8B模型的適配,推理速度13.7/7.2tokens/s,使其成為邊緣部署多模態(tài)大模型的最佳選擇。近日,阿里千問正式開源
    的頭像 發(fā)表于 10-16 18:00 ?2560次閱讀
    <b class='flag-5'>Qwen3</b>-VL 4<b class='flag-5'>B</b>/8<b class='flag-5'>B</b>全面<b class='flag-5'>適配</b>,<b class='flag-5'>BM1684X</b>成邊緣最佳部署平臺!

    廣和通加速通義千問Qwen3在端側(cè)全面落地

    6月,廣和通宣布:率先完成通義千問Qwen3系列混合推理模型在高通QCS8550平臺端側(cè)的適配部署。廣和通通過定制化混合精度量化方案與創(chuàng)新硬件加速算法,成功突破Qwen3新型架構(gòu)在邊緣
    的頭像 發(fā)表于 06-25 15:35 ?1079次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓練適配和優(yōu)化。由此,壁仞科技已實現(xiàn)
    的頭像 發(fā)表于 05-16 16:23 ?963次閱讀

    Arm CPU適配通義千問Qwen3系列模型

    近日,阿里巴巴開源了新代通義千問模型 Qwen3,Arm 率先成為首批成功適配該模型的計算平臺廠商。與此同時,Arm 面向人工智能 (AI) 框架開發(fā)者的開源計算內(nèi)核 Arm KleidiAI
    的頭像 發(fā)表于 05-12 16:37 ?1402次閱讀

    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(GPU, NPU)Qwen3 系列模型。
    的頭像 發(fā)表于 05-11 11:36 ?1684次閱讀
    Intel OpenVINO? Day0 實現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速部署

    NVIDIA RTX 5880 Ada與Qwen3系列模型實測報告

    近日,阿里巴巴通義千問團隊正式推出新代開源大語言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合專家模型,參數(shù)規(guī)模覆蓋 0.6
    的頭像 發(fā)表于 05-09 15:05 ?4279次閱讀
    NVIDIA RTX 5880 Ada與<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b>模型實測報告

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350
    的頭像 發(fā)表于 05-08 11:45 ?2937次閱讀
    NVIDIA使用<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b>模型的最佳實踐

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現(xiàn)Qwen3 系列模型(Qwen3 0.6
    的頭像 發(fā)表于 05-07 16:46 ?1342次閱讀

    寒武紀率先支持Qwen3全系列模型

    近日,阿里Qwen團隊口氣上新8大模型,Qwen3正式發(fā)布并全部開源。
    的頭像 發(fā)表于 05-07 15:51 ?1029次閱讀

    摩爾線程GPU率先支持Qwen3全系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開源混合推理模型。摩爾線程團隊在模型發(fā)布當天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。這
    的頭像 發(fā)表于 05-07 15:24 ?999次閱讀

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新Qwen大語言模型系列Qwen3Qwen3-MoE),在模型規(guī)模與性能上實現(xiàn)多方面升級。openEuler社
    的頭像 發(fā)表于 05-07 14:44 ?1788次閱讀
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開源8款混合推理模型。作為Qwen系列中的最新代大型語言模型,Qwen3在推理、指令遵循、工具調(diào)用、多語言能
    的頭像 發(fā)表于 05-06 15:17 ?1130次閱讀

    壁仞科技完成阿里巴巴通義千問Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時內(nèi),壁仞科技完成全系列
    的頭像 發(fā)表于 04-30 15:19 ?1556次閱讀