chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開源大模型DeepSeek的開放內(nèi)容詳析

AI科技大本營 ? 來源:AI科技大本營 ? 2025-02-19 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺(tái)都集成之時(shí),「開源」成為了最大的關(guān)鍵詞之一,圖靈獎(jiǎng)得主 Yann LeCun 稱其是「開源的勝利」。模型開源一直備受關(guān)注,從代碼、數(shù)據(jù)到模型的完全開源是人們渴求的方向。那么 DeepSeek 的開源究竟開放了什么?開放到了何種程度?本文作者——資深程序員+資深律師,一起為大家拆解 DeepSeek 的開源之道。

【寫在前面】DeepSeek 是目前可以和閉源大模型媲美的開源大模型,DeepSeek 許可證是負(fù)責(zé)任的人工智能許可證。按照 Linux 基金會(huì)的模型開放架構(gòu),DeepSeek 的開放層級(jí)尚未完全達(dá)到第三級(jí)。使用或者分發(fā) DeepSeek 大模型應(yīng)當(dāng)遵從 DeepSeek 許可證,包括對(duì)于使用場景的限制等。美中不足的是 DeepSeek 可能自己也沒有完全遵守其應(yīng)當(dāng)遵守的開源許可證。

08ab87fa-ede0-11ef-9310-92fbcf53809c.png

DeepSeek 到底有多牛?

DeepSeek 的演進(jìn)包括了 V2、V2.5、V3、R1-Zero、R1 等版本。其中,用于評(píng)估 V3 模型的基準(zhǔn)測試包括 MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中國全國中學(xué)生數(shù)學(xué)奧林匹克競賽(CMO),以及美國數(shù)學(xué)邀請(qǐng)賽(AIME)。V3 的測試比對(duì)結(jié)果顯示 V3 是性能最佳的開源模型,并且與前沿閉源模型相比也表現(xiàn)出了競爭力。測試對(duì)比結(jié)果如下[1]:

08c24d64-ede0-11ef-9310-92fbcf53809c.png

圖 1 DeepSeek-V3 模型測試對(duì)比結(jié)果

R1 里程碑式的貢獻(xiàn)在于其主要采用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)而非監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)提升了大模型的能力。R1 的測試結(jié)果在某些測試項(xiàng)的表現(xiàn)優(yōu)于 OpenAI 的 o1。R1 的測試比對(duì)結(jié)果如下[2]:

08d97250-ede0-11ef-9310-92fbcf53809c.png

圖 2 DeepSeek-R1 模型測試對(duì)比結(jié)果

就在看似閉源 OpenAI 遙遙領(lǐng)先之時(shí),DeepSeek 開源大模型的出圈又帶來了巨大的不確定性。對(duì)于開源我們?nèi)匀粷M懷期待,就像 PC 時(shí)代的 Linux,移動(dòng)終端時(shí)代的 Android,人類期待 AI 時(shí)代的「待定」(可參見《萬字長文!深入大模型版權(quán)歸屬問題》一文)。

08fa291e-ede0-11ef-9310-92fbcf53809c.png

DeepSeek 是什么開源許可證?

DeepSeek 在 Hugging Face 上一共開放了 68 個(gè)模型以及一個(gè)數(shù)據(jù)集[3]。DeepSeek-R1、DeepSeek-R1-Zero 模型的代碼和模型權(quán)重都采用的是 MIT 許可證。其余的模型采用的是 DeepSeek 許可證,但代碼采用的是 MIT 許可證。各模型采用的開放許可證如下:

表 1 DeepSeek 模型許可證

090ec02c-ede0-11ef-9310-92fbcf53809c.jpg

注:序號(hào)按照 Hugging Face 上的時(shí)間順序,序號(hào)越小時(shí)間越在前。

除了以上大模型之外,DeepSeek 還從 Qwen 和 Llama 蒸餾了 6 個(gè)模型,蒸餾模型的許可證為 MIT 許可證,Qwen 基礎(chǔ)模型許可證為 Apache 2.0,而 Llama 的許可證為 llama 許可證。

表 2 蒸餾模型許可證

09318a8a-ede0-11ef-9310-92fbcf53809c.jpg

09493d9c-ede0-11ef-9310-92fbcf53809c.png

DeepSeek 的開源/開放到了什么層級(jí)?

根據(jù) LF AI&Data 基金會(huì)引入的模型開放框架(Model Openness Framework,MOF),大模型的開放分為以下三個(gè)層次[4]:

0957b43a-ede0-11ef-9310-92fbcf53809c.jpg

圖 3 模型開放框架

以 DeepSeek-R1 和 DeepSeek-V3 為例,筆者理解的 DeepSeek 開放層級(jí)如下:

表 3 DeepSeek 模型開放層級(jí)

0969bf68-ede0-11ef-9310-92fbcf53809c.jpg

由上表可知,DeepSeek 開放了模型架構(gòu)、模型卡、模型參數(shù)、技術(shù)報(bào)告、評(píng)估結(jié)果等,因此,DeepSeek 的開放層次至多屬于第三級(jí)。DeepSeek 并未開放訓(xùn)練代碼、推理代碼、評(píng)估代碼、數(shù)據(jù)集等更為重要的組件。

0987d818-ede0-11ef-9310-92fbcf53809c.png

使用及分發(fā) DeepSeek 大模型有哪些限制及條件?

除了 R1 系列模型之外的其他 DeepSeek 模型都采用 DeepSeek 許可證。

正如前文所述,DeepSeek 幾乎沒有開放任何數(shù)據(jù)?!皵?shù)據(jù)”是指從模型使用的用于訓(xùn)練、預(yù)訓(xùn)練或以其他方式評(píng)估模型的數(shù)據(jù)集中提取的信息和/或內(nèi)容的集合。因此,DeepSeek 許可證中也明確寫明數(shù)據(jù)未根據(jù)該許可證獲得許可。

DeepSeek 模型許可證的原型是負(fù)責(zé)任的人工智能許可證(Responsible AI License,RAIL)的模型許可證[5]。當(dāng)然 RAIL 的原型應(yīng)該是 Apache 2.0 許可證[6]。

(一)使用限制

RAIL 旨在防止不負(fù)責(zé)任和有害的應(yīng)用程序。為此,在 RAIL 許可證中加入了使用限制條款,具體而言,采用 DeepSeek 許可證的模型不得用于以下情形:

以任何方式違反任何適用的國家或國際法律或法規(guī)或侵犯任何第三方的合法權(quán)益;

以任何方式用于軍事用途;

以任何方式剝削、傷害或試圖剝削或傷害未成年人;

生成或傳播可驗(yàn)證的虛假信息和/或內(nèi)容,以傷害他人為目的;

根據(jù)適用的監(jiān)管要求生成或傳播不適當(dāng)內(nèi)容;

未經(jīng)授權(quán)或者不合理使用而生成或傳播個(gè)人身份信息;

誹謗、貶損或以其他方式騷擾他人;

對(duì)于完全自動(dòng)化的決策,對(duì)個(gè)人的合法權(quán)利產(chǎn)生不利影響或以其他方式產(chǎn)生或修改具有約束力、可執(zhí)行的義務(wù);

任何基于線上或線下社交行為或已知或預(yù)測的個(gè)人或性格特征,旨在或具有歧視或傷害個(gè)人或團(tuán)體的效果的使用;

利用特定群體基于其年齡、社會(huì)、身體或精神特征的任何弱點(diǎn),以實(shí)質(zhì)性扭曲該群體成員的行為,從而造成或可能造成該人或他人身體或心理傷害;

對(duì)于任何旨在或具有基于受法律保護(hù)的特征或類別歧視個(gè)人或群體的效果的使用。

R1 模型采用的 MIT 許可證沒有列出任何限制。雖然看起來 DeepSeek 許可證比 MIT 許可證增加了很多限制,但是具有實(shí)質(zhì)意義的限制大概只有“以任何方式用于軍事用途”這一條,其他限制,無論是否列出,根據(jù)現(xiàn)代國家的法律,基本上都是不符合法律規(guī)定的。

除了以上的限制情形,使用者可以使用 DeepSeek 模型創(chuàng)建任何內(nèi)容、微調(diào)、更新、運(yùn)行、訓(xùn)練、評(píng)估和/或重新參數(shù)化模型。

(二)知識(shí)產(chǎn)權(quán)許可

DeepSeek 針對(duì)模型、模型衍生品和補(bǔ)充材料授予的許可包括版權(quán)許可和專利許可。許可條款如下:

2.授予版權(quán)許可。根據(jù)本許可的條款和條件,DeepSeek 特此授予您永久、全球、非排他、免費(fèi)、免版稅、不可撤銷的版權(quán)許可,以復(fù)制、準(zhǔn)備、公開展示、公開表演、再授權(quán)和分發(fā)補(bǔ)充材料、模型和模型的衍生品。

3.授予專利許可。根據(jù)本許可的條款和條件以及適用情況, DeepSeek 在此授予您永久、全球、非排他、免費(fèi)、免版稅、不可撤銷(本段所述情況除外)的專利許可,以制作、委托制作、使用、提供銷售、銷售、進(jìn)口和以其他方式傳遞模型和補(bǔ)充材料,但此類許可僅適用于 DeepSeek 可授權(quán)且因其貢獻(xiàn)而必然被侵權(quán)的專利權(quán)利要求。如果您對(duì)任何實(shí)體提起專利訴訟(包括訴訟中的交叉訴訟或反訴),聲稱模型和/或補(bǔ)充材料構(gòu)成直接或共同專利侵權(quán),則根據(jù)本許可授予您的模型和/或作品的任何專利許可應(yīng)在該訴訟主張或提交之日起終止。

授予版權(quán)和專利權(quán)的條款和最常見的 Apache 2.0 許可證的許可條款幾無二致。

(三)分發(fā)和再分發(fā)的條件

如果想把 DeepSeek 模型為第三方遠(yuǎn)程訪問目的(例如 SaaS)而托管、復(fù)制和分發(fā)模型或其衍生品的副本(無論是否經(jīng)過修改),分發(fā)者或者再分發(fā)者(統(tǒng)稱“傳播方”)必須滿足以下條件:

a. 傳播方必須將以上使用限制作為可執(zhí)行條款納入任何類型的法律協(xié)議(例如許可證)中,以管理模型或模型衍生品的使用和/或分發(fā),并且應(yīng)當(dāng)通知第三方接收者,模型或模型衍生品均受使用限制的約束。該條件不適用于補(bǔ)充材料的使用?!把a(bǔ)充材料”是指用于定義、運(yùn)行、加載、基準(zhǔn)測試或評(píng)估模型的隨附源代碼和腳本,以及用于準(zhǔn)備用于訓(xùn)練或評(píng)估的數(shù)據(jù)(如有),包括任何隨附文檔、教程、示例等(如有)。

b. 傳播方必須向模型或模型衍生品的任何第三方接收者提供 DeepSeek 許可證的副本;

c. 傳播方如果又進(jìn)行了修改,則必須在任何修改過的文件上附加顯著的聲明,說明更改了這些文件;

d. 傳播方必須保留所有版權(quán)、專利、商標(biāo)和歸屬聲明,但不包括與模型、模型衍生品的任何部分無關(guān)的聲明。

e. 傳播方如果進(jìn)行了修改,傳播方可以在修改中添加自己的版權(quán)聲明,并且為使用、復(fù)制或分發(fā)其修改部分,或整體上為修改后的模型衍生品,提供額外的或不同的許可條款和條件(前提是符合 a 項(xiàng)的使用限制),前提是傳播方對(duì) DeepSeek 模型的使用、復(fù)制和分發(fā)符合 DeepSeek 許可證中規(guī)定的條件。

如果傳播方在分發(fā)或者再分發(fā)時(shí)沒有滿足這些條件,那么傳播方就會(huì)構(gòu)成違約(對(duì) DeepSeek 許可證這一合同的違反)或者侵權(quán)(侵犯了 DeepSeek 許可證中授予的著作權(quán)以及專利權(quán))。根據(jù)各國法律普遍面臨著停止侵權(quán)、賠償損失的法律責(zé)任。

099c57ac-ede0-11ef-9310-92fbcf53809c.png

使用及分發(fā)蒸餾模型有哪些進(jìn)一步的限制及條件?

DeepSeek 分別基于 Qwen 以及 Llama 模型得出了蒸餾模型。如果需要使用或分發(fā)這些蒸餾模型,除了需要滿足蒸餾模型本身的 MIT 許可證的要求外,還需要滿足基礎(chǔ)模型的許可證要求。Qwen 模型的許可證為 Apache 2.0 許可證,而 Llama 模型為 Llama 許可證。對(duì)于傳統(tǒng)的 MIT 和 Apache 2.0 許可證的許可條件此處不再贅述。以 Llama 3.3 許可證為例,許可證第 1 條對(duì)于使用和分發(fā)的限制包括:

i.如果您分發(fā)或提供 Llama 材料(或其任何衍生作品)或包含其中任何內(nèi)容的產(chǎn)品或服務(wù)(包括另一個(gè) AI 模型),您應(yīng) (A) 隨任何此類 Llama 材料提供本協(xié)議的副本;以及(B)在相關(guān)網(wǎng)站、用戶界面、博客文章、關(guān)于頁面或產(chǎn)品文檔上突出顯示“使用 Llama 構(gòu)建” 。如果您使用 Llama 材料或 Llama 材料的任何輸出或結(jié)果來創(chuàng)建、訓(xùn)練、微調(diào)或以其他方式改進(jìn)已分發(fā)或提供的 AI 模型,您還應(yīng)在任何此類 AI 模型名稱的開頭包含“Llama”。

ii. 如果您從被許可方處收到 Llama 材料或其任何衍生作品作為集成最終用戶產(chǎn)品的一部分,則本許可證第 2 條不適用于您。

iii. 您必須在分發(fā)的所有 Llama 材料副本中保留以下歸屬聲明,這些聲明應(yīng)在作為此類副本的一部分而分發(fā)的“聲明”文本文件中發(fā)布:“Llama 3.3 已根據(jù) Llama 3.3 社區(qū)許可獲得許可,版權(quán)所有 Meta Platforms, Inc.保留所有權(quán)利?!?/p>

iv. 您對(duì) Llama 材料的使用必須遵守適用法律和法規(guī)(包括貿(mào)易合規(guī)法律和法規(guī)),并遵守 Llama 材料的可接受使用政策(可在 https://www.llama.com/llama3_3/use-policy 上找到),該政策特此通過引用納入本協(xié)議。

該許可證的第 2 條為附加商業(yè)條款,即對(duì)于商業(yè)使用施加的限制:

如果在 Llama 3.3 版本發(fā)布之日,由被許可方或被許可方的關(guān)聯(lián)方提供的產(chǎn)品或服務(wù)的月活躍用戶數(shù)在前一個(gè)日歷月超過 7 億月活躍用戶數(shù),則您必須向 Meta 申請(qǐng)?jiān)S可,Meta 可自行決定是否授予您許可,并且您無權(quán)行使本協(xié)議項(xiàng)下的任何權(quán)利,除非或直到 Meta 明確授予您此類權(quán)利。

09b44722-ede0-11ef-9310-92fbcf53809c.png

DeepSeek 自己是否完全遵守了開源許可證?

DeepSeek-V3 和 DeepSeek-R1 的模型代碼文件 modeling_deepseek.py[7]文件來自 EleutherAI 的 GPT-NeoX 庫以及庫中的 GPT-NeoX 和 OPT 實(shí)現(xiàn),且原始形式上進(jìn)行了修改,以適應(yīng)與訓(xùn)練該模型的 Meta AI 團(tuán)隊(duì)使用的 GPT-NeoX 和 OPT 相比細(xì)微的架構(gòu)差異。在 modeling_deepseek.py 文件中,也有多處類似于“# Copied from transformers.models.llama.modeling_llama.LlamaDynamicNTKScalingRotaryEmbedding with Llama->DeepseekV3”的注釋。EleutherAI 的 GPT-NeoX 庫采用 Apache 2.0 許可證[8]。

因此,如果 DeepSeek 集成了按照 Apache2.0 許可證分發(fā)的模型材料,也應(yīng)當(dāng)遵守 Apache 2.0 許可證的規(guī)定;如果 DeepSeek 集成了按照 Llama 許可證分發(fā)的模型材料,也應(yīng)當(dāng)遵守 Llama 許可證的規(guī)定。

DeepSeek 對(duì) Qwen 大模型以及 Llama 大模型進(jìn)行蒸餾,顯然也應(yīng)當(dāng)遵守 Qwen 大模型所采用的 Apache 2.0 許可證以及 Llama 大模型采用的 Llama 許可證。

按照 Llama 許可證(以 Llama 3.1 為例)的規(guī)定,對(duì)于作為分發(fā)者的 DeepSeek,還應(yīng)當(dāng)(A)附隨 Llama 材料提供 Llama 許可證副本;并且(B)在相關(guān)網(wǎng)站、用戶界面、博客文章、關(guān)于頁面、或產(chǎn)品文檔上突出顯示“使用 Llama 構(gòu)建”。從 Llama 模型蒸餾毫無疑問使用了 Llama 模型材料,因此還應(yīng)在任何此類蒸餾模型名稱的開頭包含“Llama”。此外,還應(yīng)當(dāng)在聲明文本文件中保留以下署名聲明:“Llama 3.1 是根據(jù) Llama 3.1 社區(qū)許可證授權(quán),版權(quán)所有 Meta Platforms, Inc.,保留所有權(quán)利?!?/p>

根據(jù)以上的分析,DeepSeek 并未完全遵循開源許可證,主要表現(xiàn)在沒有在相應(yīng)的大模型分發(fā)材料中附隨分發(fā)許可證副本,沒有突出顯示“使用 Llama 構(gòu)建”,也沒有保留署名聲明。

09caaeea-ede0-11ef-9310-92fbcf53809c.png

總結(jié)

盡管 DeepSeek 自己本身可能也并未完全遵守開源許可證。但是,白璧微瑕,DeepSeek 驚人的表現(xiàn)又讓世界對(duì)于開源大模型有了更高的期待。這也并不代表著其他人在使用和分發(fā) DeepSeek 大模型時(shí)就可以有樣學(xué)樣。恰恰相反,使用者或者分發(fā)者更應(yīng)該本著不讓雷鋒吃虧的精神,認(rèn)真遵循開源許可證中規(guī)定的使用限制條件和分發(fā)條件,構(gòu)建負(fù)責(zé)任的人工智能世界。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4323

    瀏覽量

    46424
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3746

    瀏覽量

    5268
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    837

    瀏覽量

    3392

原文標(biāo)題:開源大模型 DeepSeek 到底開放了什么?

文章出處:【微信號(hào):AI科技大本營,微信公眾號(hào):AI科技大本營】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    百度騰訊搶灘布局!DeepSeek-R1升級(jí)和開源背后,國產(chǎn)AI的逆襲之路

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級(jí),當(dāng)前版本為DeepSeek-R1-0528。次日,
    的頭像 發(fā)表于 06-03 06:34 ?6347次閱讀

    DeepSeek開源Engram:讓大模型擁有"過目不忘"的類腦記憶

    of Sparsity for Large Language Models》,并同步開源記憶模塊Engram。這一機(jī)制通過可擴(kuò)展查找結(jié)構(gòu),讓大模型實(shí)現(xiàn)O(1)時(shí)間復(fù)雜度的"條件反射式"記憶檢索,被業(yè)界視為破解
    的頭像 發(fā)表于 01-14 16:07 ?446次閱讀
    <b class='flag-5'>DeepSeek</b><b class='flag-5'>開源</b>Engram:讓大<b class='flag-5'>模型</b>擁有&quot;過目不忘&quot;的類腦記憶

    如何在ZYNQ本地部署DeepSeek模型

    一個(gè)將最小號(hào) DeepSeek 模型部署到 AMD Zynq UltraScale+ MPSoC 處理系統(tǒng)的項(xiàng)目。
    的頭像 發(fā)表于 12-19 15:43 ?7793次閱讀
    如何在ZYNQ本地部署<b class='flag-5'>DeepSeek</b><b class='flag-5'>模型</b>

    DeepSeek模型如何在云服務(wù)器上部署?

    隨著大型語言模型(LLM)的應(yīng)用日益普及,許多開發(fā)者和企業(yè)希望將像DeepSeek這樣的優(yōu)秀模型部署到自己的云服務(wù)器上,以實(shí)現(xiàn)私有化、定制化服務(wù)并保障數(shù)據(jù)安全。本文將詳細(xì)闡述部署DeepSee
    的頭像 發(fā)表于 10-13 16:52 ?1114次閱讀

    寒武紀(jì)成功適配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武紀(jì)已同步實(shí)現(xiàn)對(duì)深度求索公司最新模型DeepSeek-V3.2-Exp的適配,并開源模型推理引擎vLLM-MLU源代碼。代碼地址和測試步驟見文末,開發(fā)者可以在
    的頭像 發(fā)表于 10-11 17:14 ?1848次閱讀
    寒武紀(jì)成功適配<b class='flag-5'>DeepSeek</b>-V3.2-Exp<b class='flag-5'>模型</b>

    曙光AI超集群系統(tǒng)全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式發(fā)布并開源,引入創(chuàng)新的稀疏Attention架構(gòu)?;谥袊讉€(gè)AI計(jì)算開放架構(gòu),芯片層、軟件層、模型層實(shí)現(xiàn)“跨層協(xié)同”,使得曙光AI超
    的頭像 發(fā)表于 09-30 16:18 ?1848次閱讀

    亞馬遜云科技宣布推出Qwen3與DeepSeek-V3.1模型的完全托管服務(wù)

    的多種模型選項(xiàng)。DeepSeek-V3.1在數(shù)學(xué)、編程和Agentic任務(wù)方面展現(xiàn)出卓越性能。 · 與專有模型不同,開放權(quán)重模型讓開發(fā)者能夠
    的頭像 發(fā)表于 09-19 10:11 ?1002次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+混合專家

    -V3的版本區(qū)別, 深入了解Deepseek的技術(shù)細(xì)節(jié),快速掌握大模型領(lǐng)域的前沿知識(shí),洞察對(duì)行業(yè)應(yīng)用的影響,提升自身在該領(lǐng)域的專業(yè)水平和競爭力。 本書流程非常清晰,先認(rèn)識(shí)Deepseek性能,然后講解原理,底層
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】--全書概覽

    DeepSeek對(duì)人工智能技術(shù)格局的一個(gè)影響 第六章 DeepSeek開源技術(shù)剖析 第七章 大模型發(fā)展未來展望 全書圖文并茂,對(duì)專業(yè)技術(shù)屬于進(jìn)行了講解,也有對(duì)流程、框架、參數(shù)的展示,結(jié)
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    的協(xié)同運(yùn)作 。這些組件并非孤立存在,而是像精密齒輪般相互咬合,構(gòu)建起 DeepSeek 的運(yùn)行基礎(chǔ)。 前饋神經(jīng)網(wǎng)絡(luò)的信息傳遞、注意力機(jī)制對(duì)關(guān)鍵內(nèi)容的聚焦,讓我理解到模型是如何對(duì)輸入進(jìn)行層層處理,從海量
    發(fā)表于 07-20 15:07

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語言模型部署

    1、ollama平臺(tái)搭建 ollama可以快速地部署開源模型,網(wǎng)址為https://ollama.com, 試用該平臺(tái),可以在多平臺(tái)上部署 Deepseek-R1, Qwen3, Llama
    發(fā)表于 07-19 15:45

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    可能大家耳熟能的是DeepSeek-R1,這是在網(wǎng)頁端開啟了“深度思考”模式后調(diào)用的模型,如果不開,則是用的V3模型。但是,DeepSeek
    發(fā)表于 07-17 11:59

    【書籍評(píng)測活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    MoE 訓(xùn)練中的通信瓶頸,實(shí)現(xiàn)了高效穩(wěn)定的訓(xùn)練。DeepSeek-V3 是業(yè)界率先使用 FP8 進(jìn)行混合精度訓(xùn)練的開源模型。 在推理部署方面,DeepSeek-V3 采用 預(yù)填充(P
    發(fā)表于 06-09 14:38

    DeepSeek開源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了一個(gè)大招,DeepSeek開源了R1最新0528版本。盡管DeepSeek目前還沒有對(duì)該版本進(jìn)行任何說明,但是根據(jù)著名代碼測試平臺(tái)Live CodeBe
    的頭像 發(fā)表于 05-29 11:23 ?1451次閱讀

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計(jì)算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對(duì)差異化AI 應(yīng)用場景,自己采集樣本數(shù)據(jù),進(jìn)行AI特征標(biāo)定,AI模型訓(xùn)練,AI應(yīng)用部署的系統(tǒng),用戶
    發(fā)表于 04-28 11:05