chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【免費送書】DeepSeek 核心技術(shù)揭秘免費申請體驗

電子發(fā)燒友論壇 ? 2025-06-10 08:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年年初,DeepSeek成為全球人工智能AI)領(lǐng)域的焦點,其DeepSeek-V3和DeepSeek-R1版本在行業(yè)內(nèi)引發(fā)了結(jié)構(gòu)性震動。

DeepSeek-V3是一個擁有6710億個參數(shù)的混合專家模型(MoE),每個token(模型處理文本的基本單位)激活370億個參數(shù)。該模型在14.8萬億個高質(zhì)量token上進行預(yù)訓(xùn)練,采用MLA和MoE架構(gòu)。DeepSeek-V3的發(fā)布幾乎沒有預(yù)熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。

DeepSeek-R1則是在DeepSeek-V3的基礎(chǔ)上構(gòu)建的推理模型,它在后訓(xùn)練階段大規(guī)模使用強化學(xué)習(xí)技術(shù),僅憑極少標(biāo)注數(shù)據(jù)便大幅提升了模型的推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,DeepSeek-R1的效果已可比肩OpenAI-o1正式版。

ae1529ca-458e-11f0-986f-92fbcf53809c.png

DeepSeek-R1 在基準(zhǔn)測試中的表現(xiàn)


DeepSeek-V3技術(shù)突破

DeepSeek-V3的模型架構(gòu)整體上基于Transformer的MoE架構(gòu),并在細(xì)節(jié)實現(xiàn)上做了大量的創(chuàng)新和優(yōu)化,如大量小專家模型、多頭潛在注意力、無輔助損失的負(fù)載平衡、多token預(yù)測技術(shù)(MTP)等,大幅提升了模型的性能。

在模型訓(xùn)練方面,DeepSeek依托自研的輕量級分布式訓(xùn)練框架HAI-LLM,通過算法、框架和硬件的緊密配合,突破了跨節(jié)點MoE訓(xùn)練中的通信瓶頸,實現(xiàn)了高效穩(wěn)定的訓(xùn)練。DeepSeek-V3 是業(yè)界率先使用FP8進行混合精度訓(xùn)練的開源模型。

在推理部署方面,DeepSeek-V3采用預(yù)填充(Prefilling)和解碼(Decoding)分離的策略,以及冗余專家策略,在提高推理速度的同時確保了系統(tǒng)的穩(wěn)定性和可靠性。

ae2d1c6a-458e-11f0-986f-92fbcf53809c.png

DeepSeek 架構(gòu)圖

DeepSeek-R1技術(shù)突破
01.純強化學(xué)習(xí)訓(xùn)練

DeepSeek-R1-Zero的核心創(chuàng)新之一是采用純強化學(xué)習(xí)(Reinforcement Learning,RL)進行訓(xùn)練。這一方法顛覆了傳統(tǒng)的依賴有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)和人類反饋強化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)的訓(xùn)練模式,首次驗證了無須任何SFT數(shù)據(jù),僅通過強化學(xué)習(xí)即可實現(xiàn)推理能力的自主進化。

02.GRPO 算法GRPO算法是DeepSeek-R1-Zero使用的另一個重要的創(chuàng)新算法。與傳統(tǒng)的強化學(xué)習(xí)算法(如PPO、DPO)不同,GRPO算法通過組內(nèi)獎勵對比直接優(yōu)化策略網(wǎng)絡(luò)。具體而言,GRPO 算法將同一問題生成的N條候選答案劃為一組,以組內(nèi)平均獎勵為基線,計算相對優(yōu)勢值。這種方法不需要額外訓(xùn)練價值模型,降低了訓(xùn)練復(fù)雜度,提高了訓(xùn)練效率。ae517f56-458e-11f0-986f-92fbcf53809c.png

GRPO 與 PPO 對比示意圖

03.獎勵模型的創(chuàng)新在強化學(xué)習(xí)的訓(xùn)練過程中,DeepSeek研究團隊選擇面向結(jié)果的獎勵模型,而不是通常的面向過程的獎勵模型。這種方式可以較好地避免獎勵欺騙,同時,由于不需要大量標(biāo)注數(shù)據(jù),可以降低訓(xùn)練復(fù)雜度。ae6eaee6-458e-11f0-986f-92fbcf53809c.png

結(jié)果獎勵和過程獎勵

“冷啟動+多階段RL”

為了解決純強化學(xué)習(xí)訓(xùn)練帶來的可讀性差和多語言混雜等問題,DeepSeek-R1采用“冷啟動+多階段RL”的訓(xùn)練策略。在冷啟動階段,引入數(shù)千條高質(zhì)量的長思維鏈數(shù)據(jù)對基礎(chǔ)模型進行微調(diào),強制規(guī)范輸出格式,提高可讀性。隨后,通過兩階段強化學(xué)習(xí)進一步優(yōu)化模型的性能。

推理導(dǎo)向RL:結(jié)合規(guī)則獎勵(如答案準(zhǔn)確性、語言一致性),優(yōu)化模型在數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù)中的表現(xiàn)。

通用對齊RL:融入人類偏好獎勵模型,確保模型在開放域任務(wù)中的安全性與實用性。

  • aec6626c-458e-11f0-986f-92fbcf53809c.png

DeepSeek-R1 的訓(xùn)練過程



DeepSeek-R1-Zero在訓(xùn)練初期沒有人工示范,完全靠自己摸索。就像讓小孩自己解謎題,結(jié)果他居然悟出了很多強大的解題技巧!但僅靠自我摸索的 DeepSeek-R1-Zero 給出的答案有時很難讀懂,甚至?xí)杏⑽幕祀s,或者偏離人們習(xí)慣的表達方式。


因此,在訓(xùn)練 DeepSeek-R1 時,DeepSeek 研究團隊對模型進行了兩次額外的調(diào)整:第一次是喂給它一些冷啟動的例子,相當(dāng)于給模型打好基礎(chǔ),讓它知道回答時的基本禮儀和清晰度;第二次是在強化學(xué)習(xí)之后,收集在訓(xùn)練中表現(xiàn)優(yōu)秀的解題示例,再混合一些人工整理的題目,重新訓(xùn)練模型。通過這樣的流程,DeepSeek-R1 就像一個經(jīng)歷了自學(xué)、糾錯、再學(xué)習(xí)、再實戰(zhàn)的學(xué)生,已成長為解題高手。


上述過程還揭示了一個少有人注意的基本原則,那就是要讓模型自由地思考。在許多 AI實驗中,模型的結(jié)構(gòu)約束越少,則當(dāng)計算資源增加時,最終性能的上限越高。反之,如果在早期給模型添加過多的結(jié)構(gòu)約束,則它的最終表現(xiàn)可能會受到限制,失去了更多自主探索的可能性。在各種訓(xùn)練模型推理能力的范式中,基于結(jié)果獎勵的強化學(xué)習(xí)給模型的約束最少。以結(jié)果為導(dǎo)向,用結(jié)果來激勵——“Don’t teach, incentivize.”也就是說,不要去“教”模型,而要“激勵”它自主探索。




《DeepSeek核心技術(shù)揭秘》是剖析DeepSeek技術(shù)原理的專業(yè)技術(shù)書,以全面的內(nèi)容、深入的技術(shù)原理解析和前瞻性的行業(yè)洞察,為技術(shù)人員、研究人員和大模型相關(guān)技術(shù)愛好者提供了寶貴的學(xué)習(xí)資料。

本書目錄結(jié)構(gòu) 第1章介紹DeepSeek的一系列技術(shù)突破與創(chuàng)新,如架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化、推理與部署優(yōu)化等,讓讀者對DeepSeek的性能突破形成直觀的認(rèn)識。同時,介紹DeepSeek的模型家族,涵蓋通用語言模型、多模態(tài)模型、代碼生成與理解等領(lǐng)域,展現(xiàn)了DeepSeek在大模型的不同細(xì)分領(lǐng)域取得的成就。

第2章為初學(xué)者深入淺出地講解DeepSeek的使用方法。從推理模型與通用模型的差異,到具體的使用案例,讀者可以直觀地感受DeepSeek在實際應(yīng)用中的強大功能。對提示工程的詳細(xì)介紹,可以幫助讀者了解如何通過精心設(shè)計的提示詞更好地發(fā)揮DeepSeek的能力。對提示詞鏈的高級使用技巧的介紹,為讀者進一步提升DeepSeek使用效果提供參考。

第3章和第4章是本書的核心與精華。

第3章深入剖析DeepSeek-V3的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型(MoE)的起源與發(fā)展,到DeepSeek-V3的MoE優(yōu)化,再到對多頭潛在注意力(MLA)機制和多token預(yù)測的詳細(xì)解讀,幫助讀者全面了解DeepSeek-V3在技術(shù)上的先進性和創(chuàng)新性。同時,對訓(xùn)練框架的并行策略、FP8混合精度訓(xùn)練及推理階段的優(yōu)化等內(nèi)容的深入分析,展示了DeepSeek在提升效率和性能方面的不懈追求。

第4章關(guān)于DeepSeek-R1的技術(shù)剖析同樣精彩紛呈。預(yù)備知識的介紹為讀者理解后續(xù)內(nèi)容打下了堅實的基礎(chǔ)。對DeepSeek-R1-Zero的組相對策略優(yōu)化(GRPO)算法、獎勵模型等關(guān)鍵技術(shù)的深入剖析,可以幫助讀者了解DeepSeek在強化學(xué)習(xí)領(lǐng)域的創(chuàng)新性探索。對DeepSeek-R1 的訓(xùn)練過程和推理能力的蒸餾等內(nèi)容的詳細(xì)闡述,能讓讀者對這一創(chuàng)新技術(shù)的特點有全面的認(rèn)知。

第5章從宏觀的角度分析DeepSeek對人工智能技術(shù)格局的影響,包括打破硬件依賴迷思、沖擊英偉達CUDA護城河、引發(fā)大模型技術(shù)路線的重新思考等多個方面。同時,總結(jié)了DeepSeek 成功背后的啟示,如領(lǐng)導(dǎo)者敏銳的技術(shù)直覺、長期主義的堅持、極致的工程優(yōu)化等,為讀者提供了寶貴的經(jīng)驗和啟示。

第6章對DeepSeek“開源周”的多個技術(shù)項目進行了深入的分析。通過對FlashMLA、DeepEP、DeepGEMM、DualPipe與EPLB、3FS等項目的介紹,展示了DeepSeek在開源領(lǐng)域的積極探索,體現(xiàn)了其推動大模型技術(shù)普及和發(fā)展的決心。這些技術(shù)項目的詳細(xì)解讀,能讓讀者了解DeepSeek在降低人工智能技術(shù)門檻、促進技術(shù)交流與合作方面的巨大貢獻。

第7章對大模型的發(fā)展進行了討論。從MoE的發(fā)展趨勢、MLA的展望,大模型的訓(xùn)練方法、推理部署,到GPU硬件及推理模型的發(fā)展趨勢,以前瞻性的視角為讀者描繪了大模型的發(fā)展藍圖。

af033ffc-458e-11f0-986f-92fbcf53809c.jpgDeepSeek核心+配套視頻課程

本書由一線資深技術(shù)人員編寫,知識點講解清晰。內(nèi)容完全圍繞DeepSeek核心技術(shù)展開,提煉精華,不討論與DeepSeek有關(guān)的大模型基礎(chǔ),而是關(guān)注DeepSeek本身。

盧菁,北京科技大學(xué)博士,北京大學(xué)博士后,B站、視頻號優(yōu)秀科技博主。曾任職于騰訊、愛奇藝等知名互聯(lián)網(wǎng)公司,主要從事人工智能技術(shù)的應(yīng)用和研發(fā)工作,主要研究方向為大模型、多模態(tài)、自然語言處理、知識圖譜、推薦系統(tǒng)等。著有《速通機器學(xué)習(xí)》《速通深度學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》。

戴志仕,資深A(yù)I架構(gòu)師,“寒武紀(jì)人工智能”公眾號的創(chuàng)立者。2024年CCF國際AIOps挑戰(zhàn)賽優(yōu)秀獎獲得者。擁有十余年人工智能算法研究和產(chǎn)業(yè)落地經(jīng)驗,成功實施過多個人工智能項目。

申請時間

2025年6月9日——2025年7月11日

活動參與方式

1、在本帖下方留言回帖說說你想要這本書的理由15字以上。

2、我們將從本帖留言中挑選3位幸運者贈送此書籍,共贈送4本。

3、請在收到書籍后2個星期內(nèi)提交不少于2篇試讀報告要求300字以上圖文并茂。

4、試讀報告發(fā)表在電子發(fā)燒友論壇>>社區(qū)活動專版標(biāo)題名稱必須包含【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+自擬標(biāo)題

注意事項

1、活動期間如有作弊、灌水等違反電子發(fā)燒友論壇規(guī)則的行為一經(jīng)發(fā)現(xiàn)將立即取消獲獎資格

2、活動結(jié)束后獲獎名單將在論壇公示請活動參與者盡量完善個人信息如管理員無法聯(lián)系到選中的評測者則視為自動放棄。

3、申請人收貨后14天內(nèi)未完成書評無權(quán)將書籍出售或轉(zhuǎn)贈給他人。如無法在收貨后14天內(nèi)提交書評請將書籍退回電子發(fā)燒友論壇運費自理。

4、如有問題請咨詢工作人員(微信:elecfans123)。


af363966-458e-11f0-986f-92fbcf53809c.png

af4633c0-458e-11f0-986f-92fbcf53809c.png

聲明:本文由電子發(fā)燒友社區(qū)發(fā)布,轉(zhuǎn)載請注明以上來源。如需平臺(包括:試用+專欄+企業(yè)號+學(xué)院+技術(shù)直播+共建社區(qū))合作及入群交流,請咨詢18925255684(微信同號:elecfans123),謝謝!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1816

    文章

    50060

    瀏覽量

    264922
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    833

    瀏覽量

    3223
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    有源晶振的核心技術(shù)優(yōu)勢與應(yīng)用價值?

    有源晶振的核心技術(shù)優(yōu)勢與應(yīng)用價值? 在高速發(fā)展的數(shù)字時代,精準(zhǔn)、穩(wěn)定的時鐘信號是各類電子系統(tǒng)正常運行的“心臟”。有源晶振(Active Crystal Oscillator)作為核心時鐘源之一,憑借
    的頭像 發(fā)表于 01-20 12:47 ?151次閱讀
    有源晶振的<b class='flag-5'>核心技術(shù)</b>優(yōu)勢與應(yīng)用價值?

    免費送】玩轉(zhuǎn)高速電路:基于ANSYS HFSS的無源仿真實例

    設(shè)計師可以分成兩類,一類已經(jīng)遇到了信號完整性問題,另一類即將遇到信號完整性問題。申請鏈接>>>【書籍評測活動NO.66】玩轉(zhuǎn)高速電路:基于ANSYSHFSS的無源仿真實例申請時間
    的頭像 發(fā)表于 11-11 08:08 ?1246次閱讀
    【<b class='flag-5'>免費送</b><b class='flag-5'>書</b>】玩轉(zhuǎn)高速電路:基于ANSYS HFSS的無源仿真實例

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+看視頻+看書籍+國產(chǎn)開源大模型DeepSeekV3技術(shù)詳解--1

    Cache 瓶頸問題。 我們將結(jié)合左側(cè)的架構(gòu)圖和右側(cè)的數(shù)學(xué)公式,一步步進行推導(dǎo)和解釋。 1. 技術(shù)背景和核心思想 問題: 標(biāo)準(zhǔn)的 Transformer 在處理長文本時,需要緩存所有過去 token
    發(fā)表于 08-23 15:20

    免費送】AI芯片,從過去走向未來:《AI芯片:前沿技術(shù)與創(chuàng)新未來》

    最重大的技術(shù)變革無疑就是大模型的橫空出世,人類的時間仿佛被裝上了加速器,從ChatGPT到DeepSeek,大模型應(yīng)用密集出現(xiàn)、頻繁升級,這讓作者意識到有必要撰寫一本新的AI芯片圖書,以緊跟時代
    的頭像 發(fā)表于 07-29 08:06 ?1132次閱讀
    【<b class='flag-5'>免費送</b><b class='flag-5'>書</b>】AI芯片,從過去走向未來:《AI芯片:前沿<b class='flag-5'>技術(shù)</b>與創(chuàng)新未來》

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+混合專家

    感謝電子發(fā)燒友提供學(xué)習(xí)Deepseek核心技術(shù)這本書的機會。 讀完《Deepseek核心技術(shù)揭秘》,我深受觸動,對人工智能領(lǐng)域有了全新的認(rèn)識
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】--全書概覽

    感謝平臺提供的書籍,實物如下 這本書主講從年前開始火熱的DeepSeek 。書籍看起來輕薄,但言簡意賅,通俗易懂,總覽全局,比較精煉。 第一章 介紹DeepSeek的一系列技術(shù)突破與創(chuàng)新。 第二章
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時,我仿佛打開了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力機制等模塊
    發(fā)表于 07-20 15:07

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    前言 非常感謝發(fā)燒友論壇提供的《DeepSeek 核心技術(shù)揭秘》書籍試讀活動!Deepseek-V3從去年年底出來之后,我就在密切關(guān)注著。今年春節(jié)前,
    發(fā)表于 07-17 11:59

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發(fā)個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI、騰訊AI,哪個能用、好用?沒找到安裝包,都是在線搜索?想要Windows版本和IOS版本或者安卓版本
    發(fā)表于 07-09 18:30

    【書籍評測活動NO.62】一本讀懂 DeepSeek 全家桶核心技術(shù)DeepSeek 核心技術(shù)揭秘

    , incentivize.”也就是說,不要去“教”模型,而要“激勵”它自主探索。 《DeepSeek核心技術(shù)揭秘》是剖析 DeepSeek 技術(shù)
    發(fā)表于 06-09 14:38

    比亞迪 · 超級e平臺 · 技術(shù)方案的全面揭秘 | 第三曲: 30000轉(zhuǎn)驅(qū)動電機 · 12項核心技術(shù)揭秘

    比亞迪 · 超級e平臺 · 技術(shù)方案的全面揭秘 | 第三曲: 30000轉(zhuǎn)驅(qū)動電機 · 12項核心技術(shù)揭秘
    的頭像 發(fā)表于 06-08 07:20 ?2227次閱讀
    比亞迪 · 超級e平臺 · <b class='flag-5'>技術(shù)</b>方案的全面<b class='flag-5'>揭秘</b> | 第三曲: 30000轉(zhuǎn)驅(qū)動電機 · 12項<b class='flag-5'>核心技術(shù)</b><b class='flag-5'>揭秘</b>

    【干貨】開關(guān)電源相關(guān)設(shè)計資料46篇--3

    重磅消息,開關(guān)電源相關(guān)設(shè)計資料46篇免費送,需要可點擊附件下載查看哦!
    發(fā)表于 03-07 16:22

    【干貨】開關(guān)電源相關(guān)設(shè)計資料46篇--2

    重磅消息,開關(guān)電源相關(guān)設(shè)計資料46篇免費送,需要可點擊附件下載查看哦! 由于上傳受限,資料分次上傳,大家可點擊下一篇進行下載查看哦。
    發(fā)表于 03-07 16:21

    【干貨】開關(guān)電源相關(guān)設(shè)計資料46篇--1

    重磅消息,開關(guān)電源相關(guān)設(shè)計資料46篇免費送,需要可點擊附件下載查看哦! 由于上傳受限,資料分次上傳,大家可點擊下一篇進行下載查看哦。
    發(fā)表于 03-07 16:15

    算力筑基!揭秘DeepSeek爆火的“心跳密碼”——時鐘同步

    當(dāng)《哪吒2》登頂全球動畫票房第一,DeepSeek也正在全球科技圈鑄就新神話!作為國內(nèi)時鐘同步領(lǐng)域領(lǐng)銜者,賽思將以DeepSeek為例,從專業(yè)角度揭秘AI背后的“心跳密碼”——時鐘同步。
    的頭像 發(fā)表于 03-03 13:59 ?985次閱讀
    算力筑基!<b class='flag-5'>揭秘</b><b class='flag-5'>DeepSeek</b>爆火的“心跳密碼”——時鐘同步