chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

?如何提高HPC SoC的可靠性、可用性和可維護(hù)性級(jí)別

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來(lái)源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2023-02-15 11:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

通過(guò)芯片生命周期管理可以確保數(shù)據(jù)中心系統(tǒng)正常運(yùn)行時(shí)間。

在大型數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)的領(lǐng)域,高性能計(jì)算 (HPC) 已經(jīng)變得相當(dāng)普遍,并且在某些情況下,在我們的日常生活中必不可少。正因?yàn)槿绱?,可靠性、可用性和可維護(hù)性(reliability, availability, and serviceability,或稱(chēng)RAS),是更多 HPC SoC 設(shè)計(jì)人員應(yīng)該熟悉的概念。

RAS 聽(tīng)起來(lái)像是一個(gè)不言自明的術(shù)語(yǔ),但在涉及 HPC SoC 時(shí)它真正涉及什么?數(shù)據(jù)中心運(yùn)營(yíng)商長(zhǎng)期與客戶(hù)保持服務(wù)水平協(xié)議,以保證系統(tǒng)正常運(yùn)行時(shí)間。RAS 補(bǔ)充了這些協(xié)議,現(xiàn)在可以得到新技術(shù)的支持,最終產(chǎn)生可操作的見(jiàn)解。在這篇最初發(fā)表于“從芯片到軟件”博客上的文章中,您將了解為什么芯片生命周期管理 (SLM)、嵌入式監(jiān)控 IP 以及正確的設(shè)計(jì)和驗(yàn)證工具可以在您的HPC 設(shè)計(jì)中實(shí)現(xiàn)高水平 RAS。

3個(gè)關(guān)鍵的高性能計(jì)算組件

家庭安全門(mén)鈴或建筑物監(jiān)控系統(tǒng)捕獲的視頻片段、財(cái)務(wù)和業(yè)務(wù)運(yùn)營(yíng)建模、科學(xué)和醫(yī)學(xué)研究、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等應(yīng)用都需要依賴(lài) HPC。隨著我們的設(shè)備和系統(tǒng)收集的數(shù)據(jù)激增、AI 驅(qū)動(dòng)的分析、大量計(jì)算資源的可用性以及云的融合,使快速獲得有用、可操作的見(jiàn)解成為可能,使 HPC 成為許多領(lǐng)域不可或缺的一部分。它與 1940 年代第一臺(tái)超級(jí)計(jì)算機(jī)出現(xiàn)時(shí)相比,應(yīng)用范圍更廣。

當(dāng)今典型的 HPC 基礎(chǔ)設(shè)施由三個(gè)關(guān)鍵要素組成:計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)。每個(gè)都需要一定水平的性能、延遲、電源效率、可擴(kuò)展性、生產(chǎn)力和安全性。讓我們仔細(xì)看看每個(gè)元素:

計(jì)算由 CPUGPU、加速器、片上網(wǎng)絡(luò) (NoC) 和計(jì)算服務(wù)器組成。這是進(jìn)行高性能數(shù)據(jù)處理的地方。復(fù)雜的多核甚至多芯片系統(tǒng)架構(gòu)、具有快速訪(fǎng)問(wèn)的大內(nèi)存、高帶寬 I/O 接口、電源/冷卻管理和安全性是其關(guān)鍵特性。片內(nèi)監(jiān)控和分析還可以支持 RAS 目標(biāo)。

網(wǎng)絡(luò)由交換機(jī)和路由器、適配器、網(wǎng)橋、中繼器、網(wǎng)絡(luò)接口卡(如 SmartNIC)以及光學(xué)電氣互連組成。該元素提供高性能連接,理想情況下具有高吞吐量、低延遲、能源效率、可配置性和可擴(kuò)展性、實(shí)時(shí)監(jiān)控和報(bào)告以及安全性。調(diào)試功能、前向糾錯(cuò) (FEC) 和 IP 可以支持 RAS 要求。

存儲(chǔ)包括固態(tài)驅(qū)動(dòng)器 (SSD) 或硬盤(pán)驅(qū)動(dòng)器 (HDD)、存儲(chǔ)區(qū)域網(wǎng)絡(luò) (SAN) 和網(wǎng)絡(luò)附加存儲(chǔ) (NAS)。理想情況下,存儲(chǔ)元件應(yīng)提供高帶寬存儲(chǔ)、減少數(shù)據(jù)傳輸能量和延遲、靈活性、可擴(kuò)展性、可靠性和安全性。內(nèi)置自測(cè)試 (BIST)、糾錯(cuò)碼 (ECC) 和冗余等功能可以促進(jìn)高水平的 RAS。

有兩種主要類(lèi)型的 HPC 系統(tǒng):同類(lèi)機(jī)器和混合機(jī)器。同類(lèi)機(jī)器只有 CPU。相比之下,混合動(dòng)力車(chē)同時(shí)擁有 GPU 和 CPU,其中 GPU 運(yùn)行任務(wù)而 CPU 監(jiān)督計(jì)算。

HPC 集群可以由大量服務(wù)器組成,其中計(jì)算集群的總物理尺寸、能源使用或熱輸出可能成為一個(gè)嚴(yán)重的問(wèn)題。此外,還需要在服務(wù)器之間進(jìn)行專(zhuān)用通信,這對(duì)于集群來(lái)說(shuō)有些獨(dú)特。

由于微小的設(shè)計(jì)差異乘以集群中的服務(wù)器數(shù)量會(huì)帶來(lái)巨大的收益,因此我們看到了針對(duì) HPC 優(yōu)化的服務(wù)器設(shè)計(jì)的出現(xiàn)。有時(shí),這些是針對(duì)大型公共 Web 運(yùn)營(yíng)商(例如搜索引擎公司)的設(shè)計(jì),它們?cè)?HPC 集群中提供類(lèi)似的優(yōu)勢(shì)。但是,它們也可以提供僅適合 HPC 用戶(hù)的功能。例如,如果系統(tǒng)設(shè)計(jì)為以不同方式提供集群互連,則可能會(huì)顯著減少布線(xiàn)。

通過(guò)片內(nèi)監(jiān)控和分析獲得可操作的見(jiàn)解

HPC 的實(shí)用性在于它能夠處理海量數(shù)據(jù)(PB 甚至 zettabytes)并實(shí)時(shí)(或接近實(shí)時(shí))運(yùn)行復(fù)雜模型。不用說(shuō),只要 HPC 系統(tǒng)出現(xiàn)故障,就會(huì)導(dǎo)致資金損失和業(yè)務(wù)中斷。任務(wù)關(guān)鍵型應(yīng)用程序的影響變得更加陡峭。在高級(jí)節(jié)點(diǎn),使用大型單片芯片或復(fù)雜架構(gòu)(如多芯片),可以滿(mǎn)足 RAS 要求并變得更具挑戰(zhàn)性。

根據(jù)手頭應(yīng)用程序的重要性,系統(tǒng)可以構(gòu)建備份,以在發(fā)生故障時(shí)提供冗余。除了冗余之外,您還可以在系統(tǒng)和芯片級(jí)別做更多的事情來(lái)滿(mǎn)足 RAS 目標(biāo)。這就是 SLM 發(fā)揮重要作用的地方,它提供智能、自動(dòng)化的片內(nèi)監(jiān)控 IP 和方法,以在系統(tǒng)生命周期的每個(gè)階段生成可操作的見(jiàn)解。

幾十年來(lái),設(shè)計(jì)人員一直在將監(jiān)視器和傳感器嵌入到他們的芯片中。但是,該技術(shù)已經(jīng)發(fā)展到現(xiàn)在可以提供更準(zhǔn)確的數(shù)據(jù)。這樣可以更好地了解設(shè)備的實(shí)時(shí)環(huán)境、結(jié)構(gòu)和功能狀況。示例包括工藝變化和電壓供應(yīng)的監(jiān)控,以及時(shí)序裕度的準(zhǔn)確測(cè)量等。

由于嵌入式和基于云的分析,以及統(tǒng)一 SLM 解決方案的可用性,設(shè)計(jì)團(tuán)隊(duì)將能夠建立一個(gè)連續(xù)的、實(shí)時(shí)的設(shè)備硅健康狀況圖,而不僅僅是在設(shè)計(jì)期間,在生產(chǎn)階段以及現(xiàn)場(chǎng)操作期間。他們可以更好地了解根本原因并立即進(jìn)行調(diào)試和修復(fù),從而降低成本和潛在危害。SLM 可以解決的問(wèn)題包括晶體管老化和延遲故障。要了解這帶來(lái)的好處,請(qǐng)考慮一顆有缺陷的衛(wèi)星。通常情況下,從實(shí)驗(yàn)室取回修復(fù)后的電路板安裝到衛(wèi)星上可能需要數(shù)周的時(shí)間,將其長(zhǎng)時(shí)間停用以進(jìn)行故障排除和維修。通過(guò)SLM技術(shù)在現(xiàn)場(chǎng)進(jìn)行故障檢測(cè)和故障修復(fù)。

看看數(shù)據(jù)中心,我們可以看到另一個(gè)突出 SLM 如何促進(jìn)滿(mǎn)足 RAS 要求的示例。

在芯片層面,現(xiàn)場(chǎng)遠(yuǎn)程調(diào)試的能力對(duì)于超大規(guī)模數(shù)據(jù)中心的團(tuán)隊(duì)來(lái)說(shuō)至關(guān)重要。SLM 提供遠(yuǎn)程遙測(cè)和監(jiān)控使這成為可能。

在系統(tǒng)級(jí)別,精確的時(shí)鐘節(jié)流(SLM 的另一項(xiàng)功能)對(duì)于最大化數(shù)據(jù)吞吐量和 CPU、GPU 和 AI 引擎利用率至關(guān)重要。

在數(shù)據(jù)中心級(jí)別,使用 SLM 工具監(jiān)控服務(wù)器性能、網(wǎng)絡(luò)擁塞和磁盤(pán)利用率是檢測(cè)和預(yù)測(cè)數(shù)據(jù)中斷的關(guān)鍵,這可以增加正常運(yùn)行時(shí)間。

在超大規(guī)模級(jí)別,團(tuán)隊(duì)可以利用 SLM 來(lái)最大限度地減少片上熱和電源壓力,從而提高可靠性。

對(duì)于 die-to-die 高速接口,SLM 提供信號(hào)完整性監(jiān)控,連同接口完整性冗余,有助于確保小芯片設(shè)計(jì)的穩(wěn)健性。

概括

一個(gè)端到端的解決方案將設(shè)計(jì)校準(zhǔn)分析、片內(nèi)監(jiān)控和系統(tǒng)性能優(yōu)化等一切結(jié)合在一起,而不是一組互不關(guān)聯(lián)的單點(diǎn)工具,可以使解決 RAS 目標(biāo)的過(guò)程更加無(wú)縫。

鑒于現(xiàn)在依賴(lài) HPC 的應(yīng)用程序范圍越來(lái)越廣,保持這些系統(tǒng)的高水平可靠性、可用性和可服務(wù)性是一個(gè)全面的關(guān)鍵考慮因素。實(shí)現(xiàn)最佳 RAS 水平以支持從流媒體視頻到氣候變化建模的一切是保持?jǐn)?shù)字化、智能化萬(wàn)物世界高速運(yùn)行的另一個(gè)重要因素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • soc
    soc
    +關(guān)注

    關(guān)注

    40

    文章

    4619

    瀏覽量

    230062
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    3147

    瀏覽量

    122581
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    348

    瀏覽量

    25061

原文標(biāo)題:?如何提高 HPC SoC 的可靠性、可用性和可維護(hù)性級(jí)別?

文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    知識(shí)分享-嵌入式系統(tǒng)可靠性模型

    嵌入式系統(tǒng)可靠性設(shè)計(jì)技術(shù)及案例解析1.3嵌入式系統(tǒng)可靠性模型嵌入式系統(tǒng)可靠性模型分為兩種:串聯(lián)結(jié)構(gòu)模型和并聯(lián)結(jié)構(gòu)模型。在進(jìn)行嵌入式系統(tǒng)設(shè)計(jì)時(shí),為了保證部分關(guān)鍵環(huán)節(jié)的可靠性,會(huì)采取并聯(lián)備
    的頭像 發(fā)表于 03-11 16:43 ?358次閱讀
    知識(shí)分享-嵌入式系統(tǒng)<b class='flag-5'>可靠性</b>模型

    什么是高可靠性?

    越來(lái)越高。 高可靠性PCB可以發(fā)揮穩(wěn)健的載體作用,實(shí)現(xiàn)PCBA的長(zhǎng)期、穩(wěn)定運(yùn)作,從而保證終端產(chǎn)品的安全、穩(wěn)定性和使用壽命,企業(yè)進(jìn)而得以增強(qiáng)競(jìng)爭(zhēng)力、提升信譽(yù)、擴(kuò)大市場(chǎng)份額、提高經(jīng)濟(jì)效益。 三
    發(fā)表于 01-29 14:49

    芯片可靠性面臨哪些挑戰(zhàn)

    芯片可靠性是一門(mén)研究芯片如何在規(guī)定的時(shí)間和環(huán)境條件下保持正常功能的科學(xué)。它關(guān)注的核心不是芯片能否工作,而是能在高溫、高電壓、持續(xù)運(yùn)行等壓力下穩(wěn)定工作多久。隨著晶體管尺寸進(jìn)入納米級(jí)別,芯片內(nèi)部猶如一個(gè)承受著巨大電、熱、機(jī)械應(yīng)力考驗(yàn)的微觀世界,其
    的頭像 發(fā)表于 01-20 15:32 ?518次閱讀
    芯片<b class='flag-5'>可靠性</b>面臨哪些挑戰(zhàn)

    如何測(cè)試單片機(jī)MCU系統(tǒng)的可靠性

    用什么方法來(lái)測(cè)試單片機(jī)系統(tǒng)的可靠性,當(dāng)一個(gè)單片機(jī)系統(tǒng)設(shè)計(jì)完成,對(duì)于不同的單片機(jī)系統(tǒng)產(chǎn)品會(huì)有不同的測(cè)試項(xiàng)目和方法,但是有一些是必須測(cè)試的。 下面分享我的一些經(jīng)驗(yàn): 1、測(cè)試單片機(jī)軟件功能的完善
    發(fā)表于 01-08 07:50

    霍爾開(kāi)關(guān)如何保證自身的可靠性和實(shí)用

    霍爾開(kāi)關(guān)的可靠性(穩(wěn)定工作、不易失效)和實(shí)用(適配場(chǎng)景、易集成、低使用成本),核心依賴(lài) “環(huán)境適配設(shè)計(jì)、電氣防護(hù)、低功耗優(yōu)化、標(biāo)準(zhǔn)化集成”四大方向,
    的頭像 發(fā)表于 12-02 16:53 ?1525次閱讀
    霍爾開(kāi)關(guān)如何保證自身的<b class='flag-5'>可靠性</b>和實(shí)用<b class='flag-5'>性</b>

    單片機(jī)應(yīng)用系統(tǒng)的可靠性設(shè)計(jì)介紹

    是緊密相關(guān)的。要使整個(gè)系統(tǒng)具有較高的可靠性,除了在盡可能提高硬件可靠性的前提下,軟件的可靠性設(shè)計(jì)也是必不可少的,必須從設(shè)計(jì)、測(cè)試及長(zhǎng)期使用等方面來(lái)解決軟件
    發(fā)表于 11-25 06:21

    化繁為簡(jiǎn):直線(xiàn)電機(jī)如何通過(guò)結(jié)構(gòu)簡(jiǎn)化提升可靠性

    在工業(yè)領(lǐng)域,設(shè)備的 可靠性 和 平均無(wú)故障時(shí)間 是衡量其價(jià)值的重要指標(biāo)。復(fù)雜的機(jī)械結(jié)構(gòu)往往意味著更多的故障點(diǎn)和更高的維護(hù)成本。直線(xiàn)電機(jī)以其極具革命的 簡(jiǎn)潔結(jié)構(gòu) ,從設(shè)計(jì)源頭大幅提升了系統(tǒng)的
    的頭像 發(fā)表于 08-29 09:49 ?750次閱讀

    可靠性設(shè)計(jì)的十個(gè)重點(diǎn)

    專(zhuān)注于光電半導(dǎo)體芯片與器件可靠性領(lǐng)域的科研檢測(cè)機(jī)構(gòu),能夠?qū)ED、激光器、功率器件等關(guān)鍵部件進(jìn)行嚴(yán)格的檢測(cè),致力于為客戶(hù)提供高質(zhì)量的測(cè)試服務(wù),為光電產(chǎn)品在各種高可靠性場(chǎng)景中的穩(wěn)定應(yīng)用提供堅(jiān)實(shí)的質(zhì)量
    的頭像 發(fā)表于 08-01 22:55 ?1169次閱讀
    <b class='flag-5'>可靠性</b>設(shè)計(jì)的十個(gè)重點(diǎn)

    太誘MLCC電容的可靠性如何?

    穩(wěn)定在0.1ppm級(jí)別,成為高端市場(chǎng)的首選。 一、材料技術(shù):納米級(jí)控制奠定可靠性基礎(chǔ) 太誘MLCC的可靠性源于對(duì)材料體系的深度掌控。其自主研發(fā)的陶瓷介質(zhì)材料通過(guò)納米級(jí)粉末微細(xì)化、粒子形狀均勻化及沙漏結(jié)構(gòu)控制,實(shí)現(xiàn)了介質(zhì)層厚度僅0
    的頭像 發(fā)表于 07-09 15:35 ?1159次閱讀

    如何提高電路板組件環(huán)境可靠性

    電路板組件PCBA(Printed Circuit Board Assembly)的可靠性特別是多水汽、多粉塵、有化學(xué)污染物的室外工作環(huán)境的可靠性,直接決定了電子產(chǎn)品的品質(zhì)或應(yīng)用范圍。
    的頭像 發(fā)表于 06-18 15:22 ?1093次閱讀

    關(guān)于LED燈具的9種可靠性測(cè)試方案

    LED燈具的可靠性試驗(yàn),與傳統(tǒng)燈具有顯著區(qū)別。作為新一代光源,LED燈具正在逐漸取代傳統(tǒng)節(jié)能燈的市場(chǎng),因此無(wú)法簡(jiǎn)單地沿用傳統(tǒng)燈具的測(cè)試方法。那么,LED燈具需要進(jìn)行哪些可靠性試驗(yàn)?zāi)???biāo)準(zhǔn)名稱(chēng):LED
    的頭像 發(fā)表于 06-18 14:48 ?1275次閱讀
    關(guān)于LED燈具的9種<b class='flag-5'>可靠性</b>測(cè)試方案

    可靠性測(cè)試包括哪些測(cè)試和設(shè)備?

    在當(dāng)今競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境中,產(chǎn)品質(zhì)量的可靠性成為了企業(yè)立足的根本。無(wú)論是電子產(chǎn)品、汽車(chē)零部件,還是智能家居設(shè)備,都需要經(jīng)過(guò)嚴(yán)格的可靠性測(cè)試,以確保在各種復(fù)雜環(huán)境下都能穩(wěn)定運(yùn)行,為用戶(hù)提供可靠的使用體驗(yàn)。那么,
    的頭像 發(fā)表于 06-03 10:52 ?1598次閱讀
    <b class='flag-5'>可靠性</b>測(cè)試包括哪些測(cè)試和設(shè)備?

    提供半導(dǎo)體工藝可靠性測(cè)試-WLR晶圓可靠性測(cè)試

    隨著半導(dǎo)體工藝復(fù)雜度提升,可靠性要求與測(cè)試成本及時(shí)間之間的矛盾日益凸顯。晶圓級(jí)可靠性(Wafer Level Reliability, WLR)技術(shù)通過(guò)直接在未封裝晶圓上施加加速應(yīng)力,實(shí)現(xiàn)快速
    發(fā)表于 05-07 20:34

    電機(jī)微機(jī)控制系統(tǒng)可靠性分析

    針對(duì)性地研究提高電機(jī)微機(jī)控制系統(tǒng)可靠性的途徑及技術(shù)措施:硬件上,方法包括合理選擇篩選元器件、選擇合適的電源、采用保護(hù)電路以及制作可靠的印制電路板等;軟件上,則采用了固化程序和保護(hù) RAM 區(qū)重要數(shù)據(jù)等
    發(fā)表于 04-29 16:14

    IGBT的應(yīng)用可靠性與失效分析

    包括器件固有可靠性和使用可靠性。固有可靠性問(wèn)題包括安全工作區(qū)、閂鎖效應(yīng)、雪崩耐量、短路能力及功耗等,使用可靠性問(wèn)題包括并聯(lián)均流、軟關(guān)斷、電磁干擾及散熱等。
    的頭像 發(fā)表于 04-25 09:38 ?3591次閱讀
    IGBT的應(yīng)用<b class='flag-5'>可靠性</b>與失效分析