chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開(kāi)發(fā)

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 2025-08-20 14:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡(jiǎn)介

Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工具,高效構(gòu)建了精準(zhǔn)的方言及小語(yǔ)種大語(yǔ)言模型 (LLM)。此舉成功解決了數(shù)據(jù)稀缺、語(yǔ)言復(fù)雜及計(jì)算效率等挑戰(zhàn),為全球數(shù)以百萬(wàn)計(jì)、缺乏數(shù)字化資源的語(yǔ)言使用者提供了技術(shù)支持。

用技術(shù)打破小眾語(yǔ)言數(shù)字化障礙

Votee AI 是一家致力于通過(guò)人工智能推動(dòng)語(yǔ)言多樣性發(fā)展與文化遺產(chǎn)保護(hù)的初創(chuàng)公司。全球有超過(guò) 6000 種語(yǔ)言,其中大量是缺乏數(shù)字化資源的方言和小語(yǔ)種(如粵語(yǔ)、伊班語(yǔ)、爪哇語(yǔ)等)。Votee AI 的使命是“讓 AI 技術(shù)以用戶的母語(yǔ)服務(wù)社區(qū)”,專注于為這些語(yǔ)言開(kāi)發(fā)先進(jìn)的 LLM。

Votee AI 提供定制化的 AI 語(yǔ)言解決方案,服務(wù)范圍覆蓋教育、媒體、金融、零售、公共服務(wù)和文化遺產(chǎn)保護(hù)等多個(gè)領(lǐng)域。公司自主研發(fā)的粵語(yǔ) LLM,是一個(gè)開(kāi)源、開(kāi)放數(shù)據(jù)和開(kāi)放模型的項(xiàng)目,旨在服務(wù)全球的粵語(yǔ)使用者。通過(guò)技術(shù)創(chuàng)新,Votee AI 希望打破小眾語(yǔ)言面臨的數(shù)字化障礙,不僅為這些語(yǔ)言社群提供更貼近本土需求的 AI 工具,更以科技力量守護(hù)全球的語(yǔ)言多樣性。

小語(yǔ)種 LLM 構(gòu)建的嚴(yán)峻挑戰(zhàn)

為粵語(yǔ)等方言和小語(yǔ)種構(gòu)建高性能的 LLM,面臨著幾大嚴(yán)峻挑戰(zhàn):

嚴(yán)重的數(shù)據(jù)稀缺性與質(zhì)量問(wèn)題:與英語(yǔ)或普通話等資源豐富的語(yǔ)言相比,粵語(yǔ)等方言和小語(yǔ)種的高質(zhì)量、適用于計(jì)算處理的文本數(shù)據(jù)極其有限?,F(xiàn)有的網(wǎng)絡(luò)爬取數(shù)據(jù)往往充滿噪聲、格式不一致,甚至包含錯(cuò)誤信息,且可能存在地域或主題偏差,影響模型訓(xùn)練的基礎(chǔ)和泛化能力。

語(yǔ)言本身的復(fù)雜性:粵語(yǔ)等語(yǔ)言擁有豐富的俚語(yǔ)、口語(yǔ)化表達(dá)、網(wǎng)絡(luò)用語(yǔ)以及獨(dú)特的語(yǔ)法結(jié)構(gòu)和聲調(diào)系統(tǒng)(例如粵語(yǔ)的“水文化”習(xí)語(yǔ))。傳統(tǒng) NLP 模型和分詞器難以準(zhǔn)確捕捉這些細(xì)微差別,容易導(dǎo)致理解錯(cuò)誤、生成不自然甚至完全錯(cuò)誤的“幻覺(jué)”內(nèi)容。

巨大的計(jì)算需求:訓(xùn)練能夠理解復(fù)雜語(yǔ)言細(xì)微差別的大規(guī)模 LLM 需要強(qiáng)大的計(jì)算能力。傳統(tǒng)的 CPU 計(jì)算方案或資源不足的 GPU 環(huán)境會(huì)導(dǎo)致訓(xùn)練周期過(guò)長(zhǎng)(數(shù)周甚至數(shù)月),使得模型迭代、實(shí)驗(yàn)和優(yōu)化變得極其緩慢和昂貴,難以快速響應(yīng)需求或改進(jìn)模型。

評(píng)估困難:標(biāo)準(zhǔn)的 NLP 評(píng)估指標(biāo)(如 BLEU、ROUGE)可能不足以全面衡量模型在方言和小語(yǔ)種上的真實(shí)表現(xiàn),特別是在理解文化背景和口語(yǔ)地道性方面。需要結(jié)合語(yǔ)言特定指標(biāo)和成本高昂的人工評(píng)估。

NVIDIA 技術(shù)加速方言小語(yǔ)種 LLM 開(kāi)發(fā)

面對(duì)這些挑戰(zhàn),Votee AI 選擇采用端到端的 NVIDIA 技術(shù)進(jìn)行賦能,利用其硬件和軟件堆棧來(lái)加速和優(yōu)化方言和小語(yǔ)種語(yǔ)言 LLM 的開(kāi)發(fā)流程:

硬件基礎(chǔ):Votee AI 借助 NVIDIA GPU 所具備的大規(guī)模并行計(jì)算能力,為數(shù)據(jù)處理與模型訓(xùn)練提供了核心支撐,成為應(yīng)對(duì)計(jì)算密集型任務(wù)的底層技術(shù)基礎(chǔ)。

數(shù)據(jù)準(zhǔn)備與清洗:為了解決數(shù)據(jù)稀缺和質(zhì)量問(wèn)題,Votee AI 利用NVIDIA NeMo Curator進(jìn)行高效的數(shù)據(jù)準(zhǔn)備。NeMo Curator 是一個(gè) GPU 加速的數(shù)據(jù)整理庫(kù),能夠處理從數(shù)據(jù)下載、提?。ㄖС?Common Crawl, Wikipedia 等)、清洗(語(yǔ)言識(shí)別、格式化、去噪、自定義規(guī)則處理粵語(yǔ)特定字符和表達(dá))、過(guò)濾到去重(精確/模糊)的全流程。結(jié)合 NVIDIA RAPIDS cuDF 進(jìn)行底層加速,數(shù)據(jù)清洗和分詞等預(yù)處理任務(wù)速度提升了 20 倍,例如,處理 1TB 的粵語(yǔ)語(yǔ)料庫(kù),清理時(shí)間從數(shù)周縮短至僅需 2 小時(shí),確保了輸入模型的數(shù)據(jù)質(zhì)量和處理效率。

模型訓(xùn)練:Votee AI 采用NVIDIA NeMo Framework,這是一個(gè)端到端的平臺(tái),用于開(kāi)發(fā)和訓(xùn)練大規(guī)模語(yǔ)言模型。利用其 NeMo Megatron 組件,Votee AI 能夠:

a. 高效分布式訓(xùn)練:在多 GPU 和多節(jié)點(diǎn)環(huán)境上高效擴(kuò)展訓(xùn)練,支持張量并行 (TP)、流水線并行 (PP) 等多種并行策略。

b. 混合精度訓(xùn)練:使用 BF16 混合精度進(jìn)行訓(xùn)練,顯著減少內(nèi)存占用并加速計(jì)算,使 Votee AI 的 120 億參數(shù)粵語(yǔ)模型訓(xùn)練時(shí)間縮短了 40%(從預(yù)計(jì) 14 天減少到 8.4 天)。

c. 靈活架構(gòu)與優(yōu)化:支持多種 Transformer 架構(gòu),并允許針對(duì)方言和小語(yǔ)種進(jìn)行調(diào)整(如模型大小、正則化策略、遷移學(xué)習(xí))。

優(yōu)化與評(píng)估:

a. 自動(dòng)配置優(yōu)化:使用NVIDIA Auto Configurator自動(dòng)搜索和推薦影響訓(xùn)練吞吐量和效率的最佳超參數(shù)組合(如并行策略 TP/PP、微批量大小 MBS 等),簡(jiǎn)化了復(fù)雜的配置過(guò)程,幫助快速找到最優(yōu)訓(xùn)練方案。

b. 超參數(shù)調(diào)優(yōu):利用NVIDIA cuML(RAPIDS 的一部分)進(jìn)行加速的自動(dòng)化超參數(shù)調(diào)優(yōu),以提升模型在下游任務(wù)上的性能。這使得模型的困惑度 (Perplexity) 降低了 15%,并在粵語(yǔ)特定評(píng)估任務(wù)中(如 BLEU 分?jǐn)?shù))提升了 22%,顯著增強(qiáng)了模型對(duì)粵語(yǔ)俚語(yǔ)和口語(yǔ)化表達(dá)的理解能力。

通過(guò)整合這些 NVIDIA 技術(shù),Votee AI 建立了一個(gè)高效、可擴(kuò)展的工作流程,專用于應(yīng)對(duì)方言和小語(yǔ)種語(yǔ)言 LLM 開(kāi)發(fā)的獨(dú)特挑戰(zhàn)。

使用效果及影響

通過(guò)采用 NVIDIA AI 技術(shù),Votee AI 在為方言和小語(yǔ)種(以粵語(yǔ)為起點(diǎn))構(gòu)建 LLM 方面取得了顯著的成果:

大幅提升研發(fā)效率:借助 NVIDIA GPU和 NeMo 軟件棧,Votee AI 的模型迭代周期縮短了 50%,從原來(lái)的平均 6 周減少到僅需 3 周。這使得團(tuán)隊(duì)能夠更快地進(jìn)行實(shí)驗(yàn)、優(yōu)化模型并響應(yīng)社區(qū)需求。

顯著提高模型準(zhǔn)確性與魯棒性:通過(guò) NeMo Curator 精心準(zhǔn)備數(shù)據(jù)和 NeMo Framework 以及 Nemo Megatron 進(jìn)行優(yōu)化訓(xùn)練,結(jié)合 cuML 進(jìn)行超參數(shù)調(diào)優(yōu),所構(gòu)建的粵語(yǔ) LLM 在理解復(fù)雜粵語(yǔ)(包括俚語(yǔ)和口語(yǔ))方面的準(zhǔn)確率從基線的 68% 提高到了 89%。這確保了模型在實(shí)際應(yīng)用中能提供更自然、更精準(zhǔn)的交互。

增強(qiáng)應(yīng)用性能與用戶體驗(yàn):GPU 的高效計(jì)算能力不僅加速了訓(xùn)練,還將模型推理速度提高了 3 倍。這意味著基于該 LLM 的應(yīng)用(如智慧客服、教育工具、媒體內(nèi)容生成)能夠?qū)崟r(shí)響應(yīng)用戶查詢,提供更流暢、更自然的交互體驗(yàn)。

推動(dòng)語(yǔ)言包容性與文化傳承:Votee AI 構(gòu)建的高質(zhì)量粵語(yǔ) LLM 為全球粵語(yǔ)使用者提供先進(jìn) AI 工具,既彌合數(shù)字鴻溝,也助力粵語(yǔ)文化遺產(chǎn)保護(hù)與傳承。

奠定可擴(kuò)展的基礎(chǔ):Votee AI 使用 NVIDIA 技術(shù)構(gòu)建的這套方法論和技術(shù)架構(gòu)具有高度可擴(kuò)展性,正在被應(yīng)用于開(kāi)發(fā)其他方言和小語(yǔ)種(如伊班語(yǔ)、爪哇語(yǔ))的 LLM,推動(dòng) AI 技術(shù)在全球多語(yǔ)言環(huán)境中的公平普及和創(chuàng)新應(yīng)用。

Votee AICTO陳豪杰表示:“借助NVIDIA GPU和NeMo Framework,我們成功克服了方言和小語(yǔ)種建模中數(shù)據(jù)稀缺性和語(yǔ)言復(fù)雜性的挑戰(zhàn)。這使得我們能夠高效、精準(zhǔn)地開(kāi)發(fā)AI應(yīng)用,并使粵語(yǔ)及其他語(yǔ)言的大模型和AI場(chǎng)景能夠真正在世界各地落地應(yīng)用,賦能全球使用這些語(yǔ)言的社區(qū)?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5682

    瀏覽量

    110086
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40908

    瀏覽量

    302481
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3810

    瀏覽量

    52249
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1390

原文標(biāo)題:初創(chuàng)加速計(jì)劃 | NVIDIA 助力 Votee AI 構(gòu)建方言及小語(yǔ)種語(yǔ)言大模型

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN標(biāo)準(zhǔn)嵌入式開(kāi)發(fā)

    LLM-8850KitLLM-8850Kit是一款面向邊緣AI與嵌入式計(jì)算場(chǎng)景的高性能AI加速卡套件,由LLM-8850CardAI
    的頭像 發(fā)表于 01-30 16:11 ?1341次閱讀
    新品 | <b class='flag-5'>LLM</b>-8850 Kit,高性能<b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡套件 DinMeter v1.1,1/32DIN標(biāo)準(zhǔn)嵌入式<b class='flag-5'>開(kāi)發(fā)</b>板

    利用NVIDIA Cosmos開(kāi)放世界基礎(chǔ)模型加速物理AI開(kāi)發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開(kāi)放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?1370次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一
    的頭像 發(fā)表于 10-21 11:04 ?1378次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的
    的頭像 發(fā)表于 09-23 14:45 ?1082次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion<b class='flag-5'>技術(shù)</b>提升<b class='flag-5'>AI</b>推理性能

    Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)

    [1]? 利用搭載 DGX GB200 系統(tǒng)的 NVIDIA DGX SuperPOD[2]?數(shù)字孿生系統(tǒng)實(shí)現(xiàn)了庫(kù)的重大擴(kuò)展 。借助 NVIDIA 高性能加速計(jì)算平臺(tái)的新模型,數(shù)據(jù)中
    的頭像 發(fā)表于 09-15 15:19 ?1643次閱讀

    全球知名品牌借助NVIDIA技術(shù)規(guī)?;桓秱€(gè)性化廣告

    營(yíng)銷(xiāo)領(lǐng)先者正借助使用 OpenUSD、NVIDIA Omniverse 和代理式 AI 技術(shù)開(kāi)發(fā)的解決方案,加速內(nèi)容創(chuàng)作管線。
    的頭像 發(fā)表于 08-12 15:15 ?1506次閱讀

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和
    的頭像 發(fā)表于 07-16 09:16 ?2149次閱讀

    NVIDIA全棧加速代理式AI應(yīng)用落地

    在近期舉辦的 AWS 中國(guó)峰會(huì)上,NVIDIA 聚焦于“NVIDIA 全棧加速代理式 AI 應(yīng)用落地”,深入探討了代理式 AI (Agent
    的頭像 發(fā)表于 07-14 11:41 ?1443次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新
    的頭像 發(fā)表于 07-04 14:38 ?2393次閱讀

    NVIDIA技術(shù)助力企業(yè)創(chuàng)建主權(quán)AI智能體

    AI Factory 的經(jīng)驗(yàn)證設(shè)計(jì)將加速基礎(chǔ)設(shè)施與軟件(包括全新 NVIDIA NIM 微服務(wù)和經(jīng)擴(kuò)展的 NVIDIA Blueprint)相結(jié)合,為各國(guó)和企業(yè)簡(jiǎn)化了全棧式
    的頭像 發(fā)表于 06-16 14:28 ?1504次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發(fā)

    NVIDIA 宣布與諾和諾德開(kāi)展合作,借助創(chuàng)新 AI 應(yīng)用加速藥物研發(fā)。此次合作也將支持諾和諾德與丹麥 AI 創(chuàng)新中心 (DCAI) 關(guān)于使
    的頭像 發(fā)表于 06-12 15:49 ?1455次閱讀

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語(yǔ)言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語(yǔ)言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI
    的頭像 發(fā)表于 06-12 15:42 ?1365次閱讀

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開(kāi)發(fā)者和技術(shù)愛(ài)好者正在尋求以更 快、更靈活的方式來(lái)運(yùn)行大語(yǔ)言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1363次閱讀
    LM Studio使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>技術(shù)</b><b class='flag-5'>加速</b><b class='flag-5'>LLM</b>性能

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學(xué)探索,推動(dòng)各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過(guò)深化合作提供先進(jìn)的技術(shù),從云到 PC 加速代理式 A
    的頭像 發(fā)表于 05-27 14:03 ?1198次閱讀

    Wandercraft借助NVIDIA技術(shù)開(kāi)發(fā)個(gè)人外骨骼設(shè)備

    初創(chuàng)公司 Wandercraft 正借助 NVIDIA AINVIDIA Omniverse 仿真技術(shù),
    的頭像 發(fā)表于 05-15 10:43 ?951次閱讀