chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

澎峰科技發(fā)布大模型推理引擎PerfXLLM

perfxlab ? 來(lái)源:未知 ? 2023-11-25 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自從2020年6月OpenAI發(fā)布chatGPT之后,基于Transformer網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)言大模型(LLM)引發(fā)了全世界的注意與追捧,成為了人工智能領(lǐng)域的里程碑事件。

但大模型推理所需要的巨額開(kāi)銷(xiāo)也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進(jìn)行推理,并盡可能地減少成本,從而促進(jìn)大模型應(yīng)用的落地成為了目前的關(guān)鍵問(wèn)題。

于是,澎峰科技研發(fā)了一款大模型推理引擎—PerfXLLM,并且已經(jīng)在高通驍龍8Gen2平臺(tái)實(shí)現(xiàn)了應(yīng)用。接下來(lái)將分為四個(gè)部分進(jìn)行介紹,第一部分將介紹PerfXLLM的整體架構(gòu)設(shè)計(jì),第二部分將展示手機(jī)端的性能表現(xiàn),第三部分將詳細(xì)地闡述手機(jī)端的推理優(yōu)化方案,最后在第四部分將介紹PerfXLLM的未來(lái)規(guī)劃。

一、PerfXLLM整體架構(gòu)
目前大模型推理過(guò)程主要放在服務(wù)器或者云上進(jìn)行處理。用戶(hù)發(fā)出請(qǐng)求,服務(wù)器進(jìn)行響應(yīng),通過(guò)GPU等高性能計(jì)算部件完成推理計(jì)算,并通過(guò)網(wǎng)絡(luò)將結(jié)果傳輸給用戶(hù)。而隨著移動(dòng)端設(shè)備硬件能力的不斷進(jìn)步,并且用戶(hù)原始數(shù)據(jù)可能存在敏感隱私信息導(dǎo)致對(duì)安全問(wèn)題有所顧慮,大模型在移動(dòng)端的應(yīng)用和落地也成為了實(shí)際需求之一。為了兼顧兩部分的需求,PerfXLLM設(shè)計(jì)上采用了云端一體的架構(gòu)理念

wKgaomVhpNKAdcxlAAHerlLWLUA217.png

如上圖所示,當(dāng)模型經(jīng)過(guò)解析量化之后被PerfXLLM的推理引擎加載至內(nèi)存中。不管是云側(cè)還是端側(cè)都是調(diào)用同樣的一套推理引擎代碼。有所區(qū)別的地方在于云側(cè)需要進(jìn)行額外的Serving模塊,從而獲得更高的硬件利用率和QPS響應(yīng)。再聚焦到底層Kernel,PerfXLLM中開(kāi)發(fā)了一套針對(duì)大模型推理的算子庫(kù),可以支持GPU、CPU等多種硬件設(shè)備。

二、PerfXLLM應(yīng)用在手機(jī)端

目前,PerfXLLM針對(duì)高通驍龍8Gen2芯片進(jìn)行了定制優(yōu)化,高通8Gen2芯片進(jìn)行了定制優(yōu)化,對(duì)LlaMA模型采用了AWQ的int4量化方法,并為模型開(kāi)發(fā)了PerfXChat APP。生成速度為6.7 token/s。模型內(nèi)存占用為3.7GB。而llama.cpp的生成速度僅為3.2 token/s。

具體而言,通過(guò)芯片上的Andreno GPU進(jìn)行加速,使用了OpenCL編程模型。首先對(duì)LlaMA模型進(jìn)行int4量化,所采用的方式是AWQ量化方法。而后針對(duì)LlaMA模型中最耗時(shí)的Kernel進(jìn)行了優(yōu)化。手機(jī)端的輸入token和生成token較少時(shí),模型主要瓶頸在于GEMM算子和GEMV算子,研發(fā)團(tuán)隊(duì)對(duì)這兩個(gè)算子進(jìn)行了手工調(diào)優(yōu)。模型使用效果如下。

wKgaomVhpNKAW5faAABzdlK4fO8672.png

三、手機(jī)端推理優(yōu)化方案介紹

由于手機(jī)端的硬件性能與服務(wù)器端差距較大,因而在手機(jī)端如何將大模型運(yùn)行起來(lái),并帶給用戶(hù)流暢的使用體驗(yàn)并不是一件容易的事情。為了對(duì)手機(jī)端的大模型推理進(jìn)行優(yōu)化,PerfXLLM目前主要采用的手段有低精度量化、算子融合以及核心算子調(diào)優(yōu)。

3.1.低精度量化

低精度量化指的是將更高精度的數(shù)據(jù)表示類(lèi)型轉(zhuǎn)化成低精度的數(shù)據(jù)表示類(lèi)型來(lái)加快計(jì)算過(guò)程。常用的低精度量化有fp16、int8、int4等。通過(guò)低精度的量化,可以減少訪存開(kāi)銷(xiāo)和內(nèi)存空間,通過(guò)特殊計(jì)算單元加快運(yùn)算。因而可以獲得比原精度更高的性能表現(xiàn)。PerfXLLM需要將7B的模型運(yùn)行在手機(jī)上。如果是fp16的模型,則需要大概14GB的內(nèi)存占用。但是目前市面上手機(jī)內(nèi)存一般不超過(guò)16GB,再減去系統(tǒng)本身所需要的內(nèi)存占用以及其他APP可能需要的內(nèi)存空間,必須使用低精度量化才能滿(mǎn)足。

PerfXLLM采用的是AWQ量化方法,只對(duì)權(quán)重進(jìn)行量化。對(duì)于fp16的模型參數(shù),將其量化成int4類(lèi)型,內(nèi)存占用減少到原來(lái)的1/4。所采用的group_size為128,只需要額外存儲(chǔ)1%左右的scale和zero參數(shù)。

wKgaomVhpNKAWqjlAAMz5QXzJbk176.png

3.2.算子融合

算子融合是將多個(gè)算子融合成一個(gè),從而減少中間結(jié)果的數(shù)據(jù)讀取和寫(xiě)入操作,并且也能有效地減少Kernel launch所需要的開(kāi)銷(xiāo)。為了提高推理速度,PerfXLLM進(jìn)行的算子融合操作主要體現(xiàn)在三個(gè)部分。第一部分是將殘差網(wǎng)絡(luò)的加法操作和歸一化操作進(jìn)行融合,避免了中間結(jié)果在全局內(nèi)存中的搬運(yùn);第二部分是將生成QKV的三次矩陣乘操作融合成一次,使用更大維度的矩陣乘法操作,從而更充分地利用硬件性能;第三部分是將self attention中的操作全部融合成一個(gè)算子,這些操作包含針對(duì)QK的旋轉(zhuǎn)編碼,QKV的兩次矩陣乘法以及中間的Softmax操作。具體的示意圖如下。

wKgaomVhpNOAJRSOAAIK2Hdzed0213.png

3.3.核心算子調(diào)優(yōu)

語(yǔ)言大模型中所需要的算子較少,并且絕大部分性能開(kāi)銷(xiāo)都集中在1-2個(gè)算子上,因而針對(duì)核心算子的細(xì)致調(diào)優(yōu)便顯得尤為關(guān)鍵。在手機(jī)端,當(dāng)生成token數(shù)量較少時(shí),Attention相關(guān)算子的耗時(shí)占比非常少,而GEMM(通用矩陣乘法)類(lèi)的算子耗時(shí)幾乎占據(jù)了整個(gè)推理過(guò)程。對(duì)于大模型推理而言,一般會(huì)分為兩個(gè)過(guò)程。在第一個(gè)過(guò)程中,輸入的token數(shù)量大于1,對(duì)應(yīng)的算子即GEMM。第二個(gè)過(guò)程中,輸入的token數(shù)量恒定為1,對(duì)應(yīng)的算子即GEMV(矩陣向量乘法)。因此,推理優(yōu)化的核心問(wèn)題在于如何提高GEMM和GEMV的性能。PerxLLM對(duì)這兩個(gè)算子進(jìn)行了細(xì)致的優(yōu)化。

1)針對(duì)GEMM算子。首先介紹GEMM算子的定義,給定矩陣A和B,其維度分別為[m, k]和[k,n],將兩者相乘得到矩陣C,維度為[m, n]。根據(jù)輸入token數(shù)量的不同,PerfXLLM將其分為兩種情況進(jìn)行優(yōu)化。當(dāng)輸入token數(shù)量較少時(shí),矩陣B是一個(gè)高瘦矩陣,GEMM變成訪存密集型算子。當(dāng)輸入token數(shù)量較多時(shí),GEMM是一個(gè)計(jì)算密集型算子。針對(duì)兩種不同的情況,PerfXLLM采用了兩種不同的分塊模式,將所需要的數(shù)據(jù)放置在共享內(nèi)存之中,以盡可能地減少對(duì)全局內(nèi)存的數(shù)據(jù)讀取。此外,采用了向量化訪存來(lái)提高訪存效率,通過(guò)循環(huán)展開(kāi)來(lái)避免流水線阻塞提高指令并行度,進(jìn)行參數(shù)調(diào)優(yōu)來(lái)獲得更好的并行能力和分塊配置參數(shù)。具體的性能表現(xiàn)如下。固定M為12288,K為4096,N變化。

wKgaomVhpNOAP1dfAAG-cjcQtPM504.png

2)針對(duì)GEMV算子。需要說(shuō)明的是,GEMV可以視作GEMM的一種變體,當(dāng)B矩陣的n等于1時(shí),則GEMM轉(zhuǎn)換為GEMV算子。GEMV是一個(gè)典型的訪存密集型算子,其優(yōu)化核心在于如何提高訪存效率,并掩蓋計(jì)算所需要的開(kāi)銷(xiāo)。PerfXLLM通過(guò)向量化訪存來(lái)提高訪存效率,通過(guò)循環(huán)展開(kāi)來(lái)避免流水線阻塞提高指令并行度。并且針對(duì)int4類(lèi)型的GEMV,通過(guò)共享內(nèi)存來(lái)存儲(chǔ)zero和scale來(lái)減少對(duì)全局內(nèi)存的數(shù)據(jù)訪問(wèn)。此外,對(duì)A矩陣的兩個(gè)維度進(jìn)行分塊來(lái)提高并行性。使用Image類(lèi)型來(lái)提高對(duì)于B向量的訪存性能。

以上一些披露的信息,表明了PerfXLLM已經(jīng)完成了整個(gè)計(jì)算系統(tǒng)架構(gòu)的設(shè)計(jì),并將緊密跟隨大模型算法的更迭速度,這彌補(bǔ)了計(jì)算芯片迭代慢的弊端(>2年)。

四、未來(lái)規(guī)劃

4.1.更多的模型支持

4.2.支持更多的硬件

4.3.性能優(yōu)化

4.4.框架優(yōu)化

歡迎聯(lián)系我們wangjh@perfxlab.com。一起探索大模型的軟件基礎(chǔ)建設(shè)。


原文標(biāo)題:澎峰科技發(fā)布大模型推理引擎PerfXLLM

文章出處:【微信公眾號(hào):澎峰科技PerfXLab】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RISC-V
    +關(guān)注

    關(guān)注

    48

    文章

    2876

    瀏覽量

    52793
  • 澎峰科技
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    3671

原文標(biāo)題:澎峰科技發(fā)布大模型推理引擎PerfXLLM

文章出處:【微信號(hào):perfxlab,微信公眾號(hào):perfxlab】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?413次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    科技最新推出Deep Fusion DF35智算一體機(jī)

    在人工智能加速落地的今天,企業(yè)部署大模型面臨成本、性能與數(shù)據(jù)安全的三重挑戰(zhàn)。科技最新推出的Deep Fusion DF35智算一體機(jī),以29000元起的突破性定價(jià),將Qwen3-Next 80B FP16精度
    的頭像 發(fā)表于 10-13 16:51 ?1711次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技最新推出Deep Fusion DF35智算一體機(jī)

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1739次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b><b class='flag-5'>發(fā)布</b>

    科技完成OpenAI最新開(kāi)源推理模型適配

    科技現(xiàn)已完成 OpenAI 最新開(kāi)源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶(hù)可一鍵啟用這顆“小而強(qiáng)悍”的新
    的頭像 發(fā)表于 08-14 11:34 ?1381次閱讀

    積算科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    模型輕量化部署方案。用戶(hù)通過(guò)遠(yuǎn)程算力平臺(tái)預(yù)置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖大模型推理、企業(yè)知識(shí)庫(kù)搭建、智能體開(kāi)發(fā),加速大模型
    的頭像 發(fā)表于 07-30 21:44 ?879次閱讀

    螞蟻數(shù)科正式發(fā)布金融推理模型

    7月26日,以“智能時(shí)代,同球共濟(jì)”為主題的2025世界人工智能大會(huì)在上海開(kāi)幕;亮點(diǎn)很多。我們看到在世界人工智能大會(huì)論壇上,螞蟻數(shù)科正式發(fā)布了金融推理模型Agentar-Fin-R1,金融
    的頭像 發(fā)表于 07-28 16:36 ?630次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理
    發(fā)表于 07-16 15:29

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型
    發(fā)表于 07-03 19:43

    科技PerfXCloud通過(guò)湖南第二批生成式人工智能服務(wù)登記

    近日,湖南省委網(wǎng)信辦公布第二批生成式人工智能服務(wù)登記審核結(jié)果。全省僅有兩家企業(yè)通過(guò)本次登記審核:科技PerfXCloud(登記編號(hào):Hunan-PerfXCloud-20250523S0004)、湘財(cái)證券智能問(wèn)答助手大模型
    的頭像 發(fā)表于 06-03 10:52 ?883次閱讀

    Imagination與科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    的深度融合展開(kāi)合作。雙方將結(jié)合 Imagination 領(lǐng)先的 GPU IP 技術(shù)與科技在 AI 模型壓縮與性能優(yōu)化方面的軟硬協(xié)同能力,共同開(kāi)拓面向 AI 行業(yè)應(yīng)用的計(jì)算解決方案,推動(dòng)國(guó)產(chǎn)計(jì)算生態(tài)
    發(fā)表于 05-21 09:40 ?1203次閱讀

    Imagination與科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    結(jié)合Imagination領(lǐng)先的GPUIP技術(shù)與科技在AI模型壓縮與性能優(yōu)化方面的軟硬協(xié)同能力,共同開(kāi)拓面向AI行業(yè)應(yīng)用的計(jì)算解決方案,推動(dòng)國(guó)產(chǎn)計(jì)算生態(tài)的繁榮
    的頭像 發(fā)表于 05-20 08:33 ?907次閱讀
    Imagination與<b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    洲明科技發(fā)布勃朗畫(huà)質(zhì)引擎UF4

    作為亞太地區(qū)專(zhuān)業(yè)視聽(tīng)領(lǐng)域的年度盛會(huì)Infocomm China始終是技術(shù)風(fēng)向的標(biāo)桿,展會(huì)期間,洲明科技發(fā)布“勃朗畫(huà)質(zhì)引擎”——UF4,重磅亮相EB1-01展位,帶來(lái)一場(chǎng)顛覆視覺(jué)體驗(yàn)的科技盛宴。
    的頭像 發(fā)表于 04-19 15:52 ?1169次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。在LLM中實(shí)施和改進(jìn)推理簡(jiǎn)單來(lái)說(shuō),基于LLM的推理模型是一種旨在通過(guò)生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1573次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    使用OpenVINO?推理引擎進(jìn)行推理時(shí),如何更改模型布局?

    無(wú)法為一系列網(wǎng)絡(luò)準(zhǔn)備輸入。 第一個(gè)模型的輸出在 CHW 布局中,但第二個(gè)模型的輸入在 NCHW 布局中。
    發(fā)表于 03-06 07:21

    科技DeepSeek智算一體機(jī)助力中小企業(yè)AI轉(zhuǎn)型

    科技推出的智算先鋒 Deep Fusion DF系列大模型一體機(jī)是專(zhuān)為中小企業(yè)、事業(yè)單位以及對(duì)數(shù)據(jù)安全有極高要求的部門(mén)(財(cái)務(wù)、人力、研發(fā)、銷(xiāo)售等)設(shè)計(jì)的高性能大模型 AI 一體化解
    的頭像 發(fā)表于 02-28 11:07 ?1386次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技DeepSeek智算一體機(jī)助力中小企業(yè)AI轉(zhuǎn)型