chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook AI發(fā)布了一個包含編碼問題和代碼片段答案的數(shù)據(jù)集

倩倩 ? 來源:新經(jīng)網(wǎng) ? 2020-03-22 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Facebook AI發(fā)布了一個包含編碼問題和代碼片段答案的數(shù)據(jù)集,旨在評估基于AI的自然語言代碼搜索系統(tǒng)。該版本還包括Facebook自己的幾種代碼搜索模型的基準測試結(jié)果,以及來自24,000個GitHub存儲庫的超過400萬種Java方法的訓(xùn)練語料庫。

在arXiv上發(fā)表的一篇論文中,研究人員描述了他們收集數(shù)據(jù)的技術(shù)。訓(xùn)練數(shù)據(jù)語料庫是從最受歡迎的GitHub Android代碼存儲庫中收集的,按星數(shù)排序。解析存儲庫中的每個Java文件,以標識各個方法。Facebook在培訓(xùn)代碼搜索系統(tǒng)的研究中使用了所得的語料庫。為了創(chuàng)建評估數(shù)據(jù)集,他們從Stack Overflow 的問答數(shù)據(jù)轉(zhuǎn)儲開始,僅選擇同時具有“ Java”和“ Android”的問題研究人員說:“其中,他們只保留答案被投票的問題,這些問題也與訓(xùn)練數(shù)據(jù)語料庫中確定的一種方法相匹配。結(jié)果將518個問題手動過濾為最終的287個問題。研究人員表示:

我們的數(shù)據(jù)集不僅是當前可用于Java的最大數(shù)據(jù)集,而且還是唯一以自動化(一致)方式針對Stack Overflow的真實答案進行驗證的數(shù)據(jù)集。

Facebook最近發(fā)表了幾篇關(guān)于神經(jīng)代碼搜索的論文,這是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)回答“如何”編碼問題的機器學(xué)習(xí)技術(shù)。軟件開發(fā)人員通常會使用Stack Overflow來學(xué)習(xí)如何解決特定的編碼問題,例如,如何解決 Android應(yīng)用程序中的錯誤。但是,在處理使用專有API或較不常見的編程語言的代碼時,這不是一個選擇。在這種情況下,程序員自己的組織之外的專家很少(或沒有)。相反,F(xiàn)acebook和其他公司探索了使用源代碼本身作為培訓(xùn)數(shù)據(jù)來產(chǎn)生可以回答編碼問題的自然語言處理(NLP)系統(tǒng)的想法。

去年,F(xiàn)acebook發(fā)表了一篇關(guān)于無監(jiān)督學(xué)習(xí)方法的論文,稱為神經(jīng)代碼搜索(NCS),該方法接受了從GitHub收集的數(shù)據(jù)的培訓(xùn)。該技術(shù)從源代碼中提取單詞,并學(xué)習(xí)將每個單詞映射到高維空間中的向量的嵌入。嵌入通常具有向量的性質(zhì),向量在向量空間中彼此“接近”,表示具有相似含義的詞,并且詞之間的關(guān)系可用向量算術(shù)表示。一個例子是在Wikipedia上訓(xùn)練的word2vec模型,當給定向量表達式“ Paris-France + Spain”時,該模型將返回“ Madrid”。

學(xué)習(xí)了嵌入之后,使用“ 詞袋 ”模型將語料庫中的每個Java方法轉(zhuǎn)換為嵌入空間中的向量;通過嵌入將代碼中的每個單詞轉(zhuǎn)換為向量,并將向量的加權(quán)總和分配給該方法作為其索引。這會將每個Java方法映射到嵌入空間中的一個點。為了回答編碼問題,通過將查詢中的每個單詞都通過嵌入轉(zhuǎn)換并產(chǎn)生加權(quán)和,可以將該問題類似地映射到嵌入空間中的某個點。問題的“答案”是Java方法,其索引最接近該點。關(guān)鍵思想是查詢和代碼都使用相同的嵌入,并且訓(xùn)練不需要在輸入數(shù)據(jù)中出現(xiàn)任何問題;它僅從源代碼中學(xué)習(xí)。

這種技術(shù)的一個缺點是它不會學(xué)習(xí)源代碼中沒有的單詞的嵌入。Facebook研究人員發(fā)現(xiàn),在Stack Overflow上,有問題的單詞中也只有不到一半的單詞包含在源代碼中。這促使研究人員通過監(jiān)督學(xué)習(xí)擴展了NCS,“以彌合自然語言單詞和源代碼單詞之間的鴻溝”。產(chǎn)生的系統(tǒng)稱為嵌入統(tǒng)一(UNIF),學(xué)習(xí)查詢詞的單獨嵌入。在此培訓(xùn)過程中,團隊使用類似于收集基準數(shù)據(jù)集的過程從Stack Overflow中提取了一組問題標題和代碼段。該訓(xùn)練數(shù)據(jù)集包含451k個問題-答案對,但都不在基準測試中。在基準上進行評估時,對這一數(shù)據(jù)進行培訓(xùn)的聯(lián)合國系統(tǒng)的性能略優(yōu)于NCS。兩種系統(tǒng)都以大約三分之一的時間作為最高結(jié)果返回“正確”答案,并以一半的時間以“前五項”結(jié)果返回“正確”答案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1432

    瀏覽量

    59323
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4975

    瀏覽量

    74336
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26258
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【誠邀體驗】 安利AI使用工具!

    已經(jīng)可以幫忙編寫代碼、解釋函數(shù)、分析錯誤甚至獨立完成項目,但是在實際開發(fā)中,常見的問題仍然存在:通用AI雖然能力強大,但在更專業(yè)更細分的嵌入式領(lǐng)域仍然需要足夠
    的頭像 發(fā)表于 04-10 18:25 ?82次閱讀
    【誠邀體驗】 安利<b class='flag-5'>一</b><b class='flag-5'>個</b><b class='flag-5'>AI</b>使用工具!

    AI輔助編程設(shè)計之道:從Spec到Code工程實踐

    設(shè)計、模塊接口定義、數(shù)據(jù)結(jié)構(gòu)設(shè)計等。這些文檔的價值,在于將模糊的想法逐步細化,最終形成可供編碼實現(xiàn)的藍圖。 AI編程的誤區(qū)在于,很多人試圖用句話替代整個設(shè)計過程,直接跳到
    發(fā)表于 03-16 13:33

    還在手動拼接 AI 代碼?你的 IDE 早就該升級

    : 拼接過程中,很容易出現(xiàn)代碼片段與硬件平臺、現(xiàn)有項目架構(gòu)不兼容的問題,進而引發(fā)系統(tǒng)報錯,影響設(shè)備正常運行。 ▌ 維護性風(fēng)險: 不同來源的 AI 代碼
    發(fā)表于 03-11 10:25

    AI代碼之爭忽略什么

    人工智能的興起讓 COBOL 重新成為話題焦點,市場上也涌現(xiàn)出不少號稱能轉(zhuǎn)換遺留代碼、破解現(xiàn)代化難題的工具。但關(guān)鍵在于厘清這究竟意味著什么,以及它不包含什么。代碼轉(zhuǎn)換是回事,平臺現(xiàn)代
    的頭像 發(fā)表于 03-02 15:20 ?649次閱讀

    Transformer 入門:從零理解 AI 大模型的核心原理

    : 身高:175cm 體重:70kg 年齡:25歲 我們可以把這些數(shù)字排成排:[175, 70, 25],這就是向量! arduino 體驗AI
    發(fā)表于 02-10 16:33

    瑞芯微SOC智能視覺AI處理器

    能力。核心升級: 增加了高規(guī)格的視頻編碼能力,支持H.264/H.265格式的4K@60fps編碼。目標: 解決RK1126只能“分析”不能“錄制”的短板,成為
    發(fā)表于 12-19 13:44

    risc-v P擴展() P指令簡介

    =17.3333px]二、指令詳細介紹 [size=17.3333px]P擴展包含指令數(shù)量較大,可以按照:SIMD數(shù)據(jù)處理指令、部分SIMD數(shù)據(jù)處理指令、64位
    發(fā)表于 10-23 07:40

    NVIDIA推出多語種語音AI開放數(shù)據(jù)與模型

    發(fā)布的 Granary 數(shù)據(jù)包含約 100 萬小時音頻,可用于訓(xùn)練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。
    的頭像 發(fā)表于 09-23 15:34 ?1113次閱讀

    HarmonyOSAI編程智能代碼解讀

    CodeGenie提供智能AI能力對框選的代碼片段進行逐條解釋,總結(jié)代碼段含義,幫助開發(fā)者提升閱讀代碼的速度和效率。 選中.ets文件或者.
    發(fā)表于 09-02 16:29

    HarmonyOSAI編程編輯區(qū)代碼續(xù)寫

    利用AI大模型分析并理解開發(fā)者在代碼編輯區(qū)的上下文信息或自然語言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使模型對編程場
    發(fā)表于 08-21 15:43

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    圖像的快速鑒別,滿足實時或準實時的應(yīng)用需求。 3. 數(shù)據(jù)采集 AI圖片數(shù)據(jù),本項目使用gemini生成圖片,使用的是gem來實現(xiàn)的。 提示詞如下 你是
    發(fā)表于 08-21 13:59

    AI Cube如何導(dǎo)入數(shù)據(jù)

    我從在線平臺標注完并且下載數(shù)據(jù),也按照ai cube的要求修改了文件夾名稱,但是導(dǎo)入提示 不知道是什么原因,我該怎么辦? 以下是我修改后的文件夾目錄
    發(fā)表于 08-11 08:12

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    本功能從DevEco CodeGenie 5.1.0 Beta版本開始支持。 CodeGenie提供智能AI能力對框選的代碼片段進行逐條解釋,總結(jié)代碼段含義,幫助開發(fā)者提升閱讀
    發(fā)表于 07-17 17:02

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫

    利用AI大模型分析并理解開發(fā)者在代碼編輯區(qū)的上下文信息或自然語言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 、使用約束 建
    發(fā)表于 07-15 16:15

    【HarmonyOS 5】鴻蒙CodeGenie AI輔助編程工具詳解

    菜單View布局。主界面主要由編碼助手的介紹和知識問答與生成代碼入門組成。 當我們點擊兩入門其中
    發(fā)表于 06-11 16:34