一个人www在线观看免费下载,柚木美羽无码中出在线视频…,69影视人妻少妇久久中文字幕

HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè)，致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件，最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用，并通過將此解決方案應(yīng)用于大型語言模型來提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng)，加速了基于轉(zhuǎn)換器的大型語言模型（ LLM ）的推理，此類模型通常具有數(shù)十億個(gè)參數(shù)，例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時(shí)延處理單元（ LPU ），是專門用于 LLM 端到端推理的硬件加速器。

項(xiàng)目挑戰(zhàn)

隨著 LLM 應(yīng)用的擴(kuò)展，對(duì)高效、快速和具成本效益的推理解決方案的需求不斷上升。對(duì)于云服務(wù)提供商而言，快速且成本效益高的推理硬件對(duì)于托管高性能的生成式 AI 應(yīng)用并降低總擁有成本（ TCO ）至關(guān)重要。對(duì)于 AI 企業(yè)來說，一個(gè)直觀的軟件堆棧平臺(tái)是實(shí)現(xiàn)其應(yīng)用或模型無縫部署的必備條件。對(duì)于服務(wù)業(yè)務(wù)，提供全面的端到端解決方案也是必要的，有利于將最先進(jìn)的 AI 技術(shù)集成到更有效和先進(jìn)的服務(wù)中。

解決方案

HyperAccel 提出通過開發(fā)名為“Orion”的服務(wù)器來解決成本和性能問題，該服務(wù)器搭載了一個(gè)為 LLM 推理量身定制的專用處理器，基于多個(gè)高性能 AMD FPGA部署。Orion 充分利用每個(gè) FPGA 的存儲(chǔ)器帶寬和硬件資源以獲得最高水平的性能。這種可擴(kuò)展的架構(gòu)支持最新的 LLM，此類模型通常包含數(shù)十億個(gè)參數(shù)。

Orion 擁有 16 個(gè)時(shí)延處理單元（ LPU ），它們分布在兩個(gè) 2U 機(jī)架中，提供總共 7.36TB/s 的 HBM 帶寬和 14.4 萬個(gè) DSP。LPU 能加速內(nèi)存和計(jì)算都非常密集的超大規(guī)模生成式 AI 工作負(fù)載。Orion 及其 256GB 的 HBM 容量支持多達(dá)千億參數(shù)的最先進(jìn) LLM。上圖展示了兩個(gè) 2U 機(jī)箱之一，配有 8 個(gè) LPU。

下圖顯示了 LPU 架構(gòu)，其中矢量執(zhí)行引擎由 AMD Alveo U55C 高性能計(jì)算卡支持。Alveo U55C 卡具有高帶寬存儲(chǔ)器（ HBM2 ），解決了提供低時(shí)延AI 的最關(guān)鍵性能瓶頸——存儲(chǔ)器帶寬。此外，它們能夠?qū)?200 Gbps的高速網(wǎng)絡(luò)集成到單個(gè)小型板卡中，并且經(jīng)過精心設(shè)計(jì)可在任何服務(wù)器中部署。

反過來，每個(gè) Alveo 加速卡都由 FPGA 架構(gòu)驅(qū)動(dòng)。鑒于 FPGA 的大規(guī)模硬件并行性和靈活應(yīng)變的存儲(chǔ)器層次結(jié)構(gòu)，F(xiàn)PGA 固有的低時(shí)延特性非常適合 LLM 所需的實(shí)時(shí) AI 服務(wù)。Alveo 卡采用了強(qiáng)大的 Virtex XCU55P UltraScale+ FPGA，可提供高達(dá) 38 TOPS 的 DSP 計(jì)算性能，有助于 AI 推理優(yōu)化，包括用于定點(diǎn)與浮點(diǎn)計(jì)算的 INT8。這款 FPGA 能夠根據(jù)客戶反饋調(diào)整其處理器（ LPU ）的架構(gòu)，例如，根據(jù)要求在Llama模型中實(shí)現(xiàn)一些非標(biāo)準(zhǔn)的處理，進(jìn)而提供靈活的解決方案，能夠適應(yīng)不斷變化的市場(chǎng)和 LLM 參數(shù)條件。

設(shè)計(jì)成效

Orion 的高性能和可擴(kuò)展性是通過 LPU 實(shí)現(xiàn)的，由 AMD Alveo 加速卡和相關(guān)的 FPGA 以及HyperAccel 的可擴(kuò)展同步鏈路（ ESL ）技術(shù)提供支持。這些技術(shù)最大限度提升了 P2P 傳輸中的存儲(chǔ)器帶寬使用，有利于靈活處理，同時(shí)消除了 P2P 計(jì)算的同步開銷 ESL 屬于為 LLM 推理中的數(shù)據(jù)傳輸優(yōu)化的通信鏈路。值得注意的是，Orion 在支持標(biāo)準(zhǔn) FP16 數(shù)據(jù)精度的硬件上保持了卓越的準(zhǔn)確性。

HyperAccel Orion

的性能

針對(duì)時(shí)延進(jìn)行優(yōu)化的 HyperAccel Orion 與基于轉(zhuǎn)換器的 LLM（如 GPT、Llama 和 OPT）無縫集成，能夠在 1.3B 模型上每秒生成超過 520 個(gè)令牌，在 7B 模型上每秒生成 175 個(gè)令牌。除了卓越的性能外，Orion 還展示了出色的能源效率，在 66B 模型上生成單個(gè)令牌只需 24 毫秒，而功耗僅為 600W。

HyperAccel LPU 的性能（來源：https://www.hyperaccel.ai）

HyperAccel Orion

—— 工作負(fù)載多樣性

Orion 提供端到端的解決方案服務(wù)，可作為云端服務(wù)部署。對(duì)于擁有專有 LLM 的AI 企業(yè)或存在內(nèi)部數(shù)據(jù)隱私與安全需求的專業(yè)部門，Orion 也能夠以本地解決方案的形式進(jìn)行安裝。Orion 能夠處理以下工作負(fù)載/應(yīng)用：

客戶服務(wù)：通過虛擬聊天機(jī)器人和虛擬助手實(shí)時(shí)處理查詢，因此人工客服將有時(shí)間處理更復(fù)雜的問題。

人機(jī)界面：在自助服務(wù)終端、機(jī)器人和其它設(shè)備中支持與語言相關(guān)的功能，以增強(qiáng)客戶互動(dòng)體驗(yàn)。

文本生成：協(xié)助生產(chǎn)、總結(jié)和精煉復(fù)雜的文本內(nèi)容，為用戶提供便利。

語言翻譯：翻譯客戶查詢和回復(fù)信息，打破語言障礙，擴(kuò)大企業(yè)的全球影響力。

問答：根據(jù)大量數(shù)據(jù)以及此前的互動(dòng)和偏好記錄，定制針對(duì)個(gè)別客戶的回復(fù)，以提高客戶滿意度。

進(jìn)一步了解AMD Virtex UltraScale+ FPGA和Alveo U55C 加速卡，請(qǐng)?jiān)L問產(chǎn)品專區(qū)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴