chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ML項(xiàng)目的6個基本步驟

倩倩 ? 來源:AI科技大本營 ? 2020-04-15 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

每個機(jī)器學(xué)習(xí)項(xiàng)目都有自己獨(dú)特的形式。對于每個項(xiàng)目,都可以遵循一組預(yù)定義的步驟。盡管沒有嚴(yán)格的流程,但是可以提出一個通用模板。

準(zhǔn)備問題

不僅是機(jī)器學(xué)習(xí),任何項(xiàng)目的第一步都是簡單地定義當(dāng)前的問題。您首先需要了解背景和需要解決的問題。然后設(shè)計(jì)機(jī)器學(xué)習(xí)算法來有效地解決這一問題。一旦清楚地了解了問題,就可以解決它。

加載庫

我將繼續(xù)使用Python。第一步是加載或?qū)胨璧乃袔旌桶R恍┓浅;厩規(guī)缀醣匾臋C(jī)器學(xué)習(xí)軟件包是-NumPy,Pandas,Matplotlib和Scikit-Learn。

加載數(shù)據(jù)集

加載庫后,您需要加載數(shù)據(jù)。Pandas具有執(zhí)行此任務(wù)的非常簡單的功能-pandas.read_csv。read.csv函數(shù)不僅限于csv文件,而且還可以讀取其他基于文本的文件。其他格式也可以使用pandas讀取功能(例如html,json,pickled文件等)讀取。需要牢記的一件事是,您的數(shù)據(jù)需要與當(dāng)前工作目錄位于同一工作目錄中,否則您將需要在函數(shù)中提供以“ /”為前綴的完整路徑。

匯總數(shù)據(jù)

現(xiàn)在數(shù)據(jù)已加載并準(zhǔn)備好進(jìn)行操作。但是,您需要先檢查數(shù)據(jù)的外觀以及內(nèi)容。首先,您需要查看數(shù)據(jù)具有多少行和列,以及每一列的數(shù)據(jù)類型都是什么(pandas認(rèn)為它們是什么類型)。

快速查看數(shù)據(jù)類型和形狀的方法是— pandas.DataFrame.info。這將告訴您數(shù)據(jù)框具有多少行和列以及它們包含哪些數(shù)據(jù)類型和值。

描述性統(tǒng)計(jì)

顧名思義,描述性統(tǒng)計(jì)數(shù)據(jù)以統(tǒng)計(jì)數(shù)據(jù)的形式描述數(shù)據(jù)-均值,標(biāo)準(zhǔn)差,四分位數(shù)等。獲得完整描述的最簡單方法是pandas.DataFrame.describe。您可以輕松確定數(shù)據(jù)是否需要縮放或需要添加缺失值,等等。(稍后會對此進(jìn)行更多介紹)。

數(shù)據(jù)可視化

數(shù)據(jù)可視化非常重要,因?yàn)樗鼈兪橇私鈹?shù)據(jù)和規(guī)律(即使它們不存在)的最快方法。您的數(shù)據(jù)可能具有數(shù)千個樣本,甚至更多。無法直接分析所有數(shù)值數(shù)據(jù)。如果需要可視化,可以使用Matplotlib和Seaborn這樣強(qiáng)大的可視化程序包。

使用Seaborn的Matplotlib進(jìn)行可視化可用于檢查特征內(nèi)的相關(guān)性以及與目標(biāo)的關(guān)系,可以使用散點(diǎn)圖,直方圖和箱形圖來檢查分布和偏度等。甚至pandas都有自己的內(nèi)置可視化庫-pandas.DataFrame.plot,其中包含條形圖,散點(diǎn)圖,直方圖等。

Seaborn本質(zhì)上是經(jīng)過改造的matplotlib,因?yàn)樗⒃趍atplotlib的基礎(chǔ)上,使繪圖更加美觀,并且繪圖速度更快。熱圖和對圖(pairplot)是Seaborn快速繪制整個數(shù)據(jù)的可視化以檢查多重共線性,缺失值等特征的示例。

一種獲取大多數(shù)上述數(shù)據(jù)描述性和推斷性信息的統(tǒng)計(jì)數(shù)據(jù)的非常有效的方法是Pandas Profiling。它會生成數(shù)據(jù)的精美報(bào)告,其中包含上述所有詳細(xì)信息,使您能夠一次分析所有數(shù)據(jù)。

準(zhǔn)備數(shù)據(jù)

知道了數(shù)據(jù)的內(nèi)容和規(guī)律,就需要對其進(jìn)行轉(zhuǎn)換,以使其適合算法來更有效地工作,以便提供更準(zhǔn)確,更精確的結(jié)果。這就是數(shù)據(jù)預(yù)處理,這是任何ML項(xiàng)目中最重要,最耗時的階段。

數(shù)據(jù)清洗

現(xiàn)實(shí)生活中的數(shù)據(jù)不能很好地安排在沒有異常的數(shù)據(jù)框中并呈現(xiàn)給您。數(shù)據(jù)通常具有很多所謂的異常,例如缺失值,許多格式不正確的特征,不同比例的特征等。所有這些都需要手動處理,這需要大量時間和編碼技巧(主要是python和pandas:D )!

Pandas具有各種功能來檢查異常,例如pandas.DataFrame.isna以檢查NaN等值。您可能還需要轉(zhuǎn)換數(shù)據(jù)格式以擺脫無用的信息,例如刪除“ Mr.”和“ Mrs” ”(如果存在單獨(dú)的性別特征)。您可能需要使用pandas.DataFrame.replace函數(shù)以整個數(shù)據(jù)框的標(biāo)準(zhǔn)格式獲取它,或使用pandas.DataFrame.drop刪除不相關(guān)的特征。

特征選擇

特征選擇是選擇一定數(shù)量的最有用特征的過程,這些特征將用于訓(xùn)練模型。這樣做是為了在大多數(shù)特征對整體差異的貢獻(xiàn)不足時縮小尺寸。如果您的數(shù)據(jù)中有300個特征,而前120個特征可以解釋97%的方差,那么用這么多無用的特征來充實(shí)您的算法是沒有意義的。減少特征不僅可以節(jié)省時間,還可以節(jié)省成本。

一些流行的特征選擇技術(shù)包括SelectKBest,特征消除方法(例如RFE(遞歸特征消除))和嵌入式方法(例如LassoCV)。

特征工程

所有功能可能都不處于最佳狀態(tài)。特征工程的意思是通過使用一組函數(shù)可以將它們轉(zhuǎn)換為不同的相關(guān)的數(shù)據(jù)。這是為了增加與目標(biāo)的相關(guān)性,從而增加準(zhǔn)確性/分?jǐn)?shù)。其中一些轉(zhuǎn)換與縮放有關(guān),例如StandardScaler,Normalizer,MinMaxScaler等。甚至可以通過將一些特征進(jìn)行線性/二次組合來增加特征,以提高性能。對數(shù)轉(zhuǎn)換,交互作用和Box-Cox轉(zhuǎn)換是數(shù)字?jǐn)?shù)據(jù)的一些有用轉(zhuǎn)換。

對于分類數(shù)據(jù),有必要將類別編碼為數(shù)字,以便算法可以從中識別出來。一些最有用的編碼技術(shù)是– LabelEncoder,OneHotEncoder和Binarizer。

評估算法

數(shù)據(jù)準(zhǔn)備就緒后,請繼續(xù)檢查各種回歸/分類算法的性能(基于問題的類型)。您可以首先創(chuàng)建一個基本模型來設(shè)置要進(jìn)行比較的基準(zhǔn)。

拆分驗(yàn)證數(shù)據(jù)集

訓(xùn)練完模型后,還需要對其進(jìn)行驗(yàn)證,以查看它是否真的對數(shù)據(jù)進(jìn)行了概括或擬合過度/不足。手中的數(shù)據(jù)可以預(yù)先分為訓(xùn)練集和驗(yàn)證集。這種拆分具有多種技術(shù)-訓(xùn)練測試拆分,隨機(jī)排序等。您還可以對整個數(shù)據(jù)集運(yùn)行交叉驗(yàn)證,以進(jìn)行更可靠的驗(yàn)證。KFold交叉驗(yàn)證,Leave-One-Out-CV是最流行的方法。

測試選項(xiàng)和評估指標(biāo)

基于一組需要定義的評估指標(biāo)來評估模型。對于回歸算法,一些常用指標(biāo)是MSE和R Square。

與分類有關(guān)的評估指標(biāo)要多樣化得多-混淆矩陣,F(xiàn)1得分,AUC / ROC曲線等。對每種算法的這些得分進(jìn)行比較,以檢查哪些算法的性能優(yōu)于其余算法。

抽查算法

拆分?jǐn)?shù)據(jù)并定義評估指標(biāo)后,您需要在for循環(huán)中運(yùn)行一組算法,以檢查哪個算法表現(xiàn)最佳。簡短的算法列表可以很好地解決您的問題,這是一個反復(fù)的嘗試,這樣您便可以加速研究并進(jìn)一步調(diào)優(yōu)它們。

可以制作流水線,并可以混合使用線性和非線性算法來檢查性能。

比較算法

現(xiàn)場運(yùn)行測試工具后,您可以輕松查看哪些工具最適合您的數(shù)據(jù)。始終獲得高分的算法應(yīng)該是您的目標(biāo)。然后,您可以選擇最好的,并對其進(jìn)行進(jìn)一步調(diào)整以提高其性能。

提高準(zhǔn)確性

擁有性能最佳的算法之后,可以調(diào)整它們的參數(shù)和超參數(shù)以提供最好的結(jié)果。也可以連接多種算法。

算法調(diào)整

維基百科指出“超參數(shù)調(diào)整是為機(jī)器學(xué)習(xí)算法選擇一組最佳超參數(shù)”。超參數(shù)是無法學(xué)習(xí)的參數(shù),必須在運(yùn)行算法之前進(jìn)行設(shè)置。超參數(shù)的一些例子包括邏輯回歸的損失,隨機(jī)梯度下降的損失以及SVM的核。

這些參數(shù)可以在數(shù)組中傳遞,并且算法可以遞歸運(yùn)行,直到找到完美的超參數(shù)。這可以通過諸如網(wǎng)格搜索和隨機(jī)搜索之類的方法來實(shí)現(xiàn)。

組合

可以將多種機(jī)器學(xué)習(xí)算法組合在一起,以形成一個更健壯和更優(yōu)化的模型,該模型相比于單個算法可以提供更好的預(yù)測。這被稱為合奏。

有2種類型常見的合奏-套袋(Bootstrap-Aggregating)和Boosting。例如,“隨機(jī)森林”是一種Bagging集成體,它組合了多個決策樹并獲取輸出的總和。

另一方面,Boosting通過適應(yīng)性學(xué)習(xí)的方式組合了一組弱學(xué)習(xí)方式:集合中的每個模型都得到了擬合,從而更加重視數(shù)據(jù)集中實(shí)例中序列中先前模型存在較大錯誤的實(shí)例。XGBoost,AdaBoost,CatBoost是一些例子。

完成模型

驗(yàn)證數(shù)據(jù)集的預(yù)測

當(dāng)您獲得具有最佳超參數(shù)和合奏的最佳性能模型時,可以在未知的測試數(shù)據(jù)集上對其進(jìn)行驗(yàn)證。

在訓(xùn)練集上創(chuàng)建獨(dú)立模型

驗(yàn)證后,對整個數(shù)據(jù)集運(yùn)行一次模型,以確保在訓(xùn)練/測試時不會遺漏任何數(shù)據(jù)點(diǎn)。現(xiàn)在,您的模型處于最佳狀態(tài)。

保存模型以備后用

有了準(zhǔn)確的模型后,您仍然需要保存并加載它,以備將來需要時使用。完成此操作的最常用方法是Pickle。

以上就是本文的內(nèi)容。當(dāng)然,在機(jī)器學(xué)習(xí)方面,這還不是全部。但這可以用作良好的路線圖。對于不同類型的數(shù)據(jù)/問題,需要自己發(fā)揮。在下面評論您的想法,或說一說您是否了解更好和更關(guān)鍵的技術(shù)。

半小時訓(xùn)練億級規(guī)模知識圖譜,亞馬遜AI開源知識圖譜嵌入表示框架DGL-KE

中國頂尖的技術(shù)社區(qū)們在一個群里,會聊什么…

京東智能內(nèi)容創(chuàng)作算法的演進(jìn)與實(shí)踐:基于關(guān)鍵詞自動生成摘要

馬化騰、馬云并列成為中國首富;百度回應(yīng)“將上線電商直播”;.NET 5 Preview 2 發(fā)布 | 極客頭條

程序員職場背鍋甩鍋指南

警惕!新騙術(shù)出現(xiàn):這些虛假二維碼生成器已成功盜取 4.6 萬美元!

“出道” 5 年采用率達(dá) 78%,Kubernetes 的成功秘訣是什么?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4781

    瀏覽量

    97964
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8551

    瀏覽量

    136823
  • 數(shù)據(jù)可視化

    關(guān)注

    0

    文章

    500

    瀏覽量

    11439
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    天合儲能深度解析歐洲多國儲能項(xiàng)目的真實(shí)部署經(jīng)驗(yàn)

    。研討會圍繞歐洲多國儲能項(xiàng)目的真實(shí)部署經(jīng)驗(yàn),梳理了不同市場在系統(tǒng)設(shè)計(jì)、并網(wǎng)要求、交付模式與產(chǎn)品演進(jìn)方面的關(guān)鍵差異與共性趨勢。
    的頭像 發(fā)表于 12-30 10:05 ?428次閱讀

    合科泰MOSFET選型的四核心步驟

    面對數(shù)據(jù)手冊中繁雜的參數(shù),如何快速鎖定適合應(yīng)用的 MOSFET?遵循以下四核心步驟,您能系統(tǒng)化地完成選型,避免因關(guān)鍵參數(shù)遺漏導(dǎo)致的設(shè)計(jì)風(fēng)險(xiǎn)。
    的頭像 發(fā)表于 12-19 10:33 ?707次閱讀

    開放原子開源基金會與11項(xiàng)目完成捐贈簽約

    11月21日,在2025開放原子開發(fā)者大會開幕式上,開放原子開源基金會與11開源項(xiàng)目完成捐贈簽約,涵蓋人工智能、量子計(jì)算、機(jī)器人、操作系統(tǒng)、物聯(lián)網(wǎng)等多個關(guān)鍵技術(shù)方向。此舉既是基金會完善孵化體系、吸納優(yōu)質(zhì)項(xiàng)目的重要舉措,更標(biāo)志著
    的頭像 發(fā)表于 11-25 17:26 ?879次閱讀

    使用RT-Thread studio 開發(fā)RT-Thread Nano項(xiàng)目的時候 串口的驅(qū)動是要自己寫嗎?

    剛?cè)肟?。使用RT-Thread studio 開發(fā)RT-Thread 標(biāo)準(zhǔn)板項(xiàng)目的時候直接使用里邊的串口uart_dev=rt_device_find(“uart5”);然后操作設(shè)備,在開發(fā)RT-Thread Nano項(xiàng)目的時候,串口的驅(qū)動是需要自己寫嗎。
    發(fā)表于 09-26 08:14

    如何將“同步scons 配置至項(xiàng)目”功能添加到編譯步驟中?

    我想將rt-thread studio的“同步scons配置至項(xiàng)目”功能添加到編譯前步驟中 但是我不知道這個功能執(zhí)行了什么指令,在構(gòu)建前步驟中應(yīng)該輸入什么指令,用”scons”命令無法實(shí)現(xiàn)
    發(fā)表于 09-22 07:39

    AT_DEVICE支持ML307嗎?

    這個到底支不支持ML305 ML307,圖形界面有 ,但是保存配置后并沒有這個文件,如果沒有就在介紹上刪掉吧,浪費(fèi)一天時間加這個東西
    發(fā)表于 09-11 07:42

    4G網(wǎng)絡(luò)AT模塊:ml307A 總是連接失敗,為什么?

    使用 AT client 連接 ml307A 4G網(wǎng)絡(luò),在多個地方使用網(wǎng)絡(luò),然后就經(jīng)常出現(xiàn)連接失敗或關(guān)閉失?。? [E/at.skt.ml307] ml307 device(ml
    發(fā)表于 09-11 07:05

    華中科技大學(xué)與東風(fēng)汽車首批6科研項(xiàng)目簽約

    8月30日,華中科技大學(xué)-東風(fēng)汽車聯(lián)合研究院管委會召開第一次會議,首批6科研項(xiàng)目簽約,標(biāo)志著聯(lián)合研究院在華中科技大學(xué)軍山校區(qū)正式落地校企合作進(jìn)入新階段。
    的頭像 發(fā)表于 09-01 10:12 ?811次閱讀

    如何選擇適合自己項(xiàng)目的通信協(xié)議評估工具?

    LZ-DZ200電能質(zhì)量在線監(jiān)測裝置 選擇適合項(xiàng)目的通信協(xié)議評估工具,核心是 對齊項(xiàng)目需求與工具能力 ,避免 “過度選型”(用高端工具測簡單場景)或 “功能不足”(用輕量工具測復(fù)雜協(xié)議)。以下是分步驟
    的頭像 發(fā)表于 08-27 09:19 ?677次閱讀
    如何選擇適合自己<b class='flag-5'>項(xiàng)目的</b>通信協(xié)議評估工具?

    石英晶振焊接的6步驟

    [石英晶振]用一種能把電能和機(jī)械能相互轉(zhuǎn)化的晶體在共振的狀態(tài)下工作,其晶振的穩(wěn)定性與焊接過程中也存在著很大的關(guān)系,如果焊接不當(dāng)可能會使晶振頻率發(fā)生改變,下面為大家介紹石英晶振的正確焊接的6步驟
    的頭像 發(fā)表于 08-26 17:42 ?562次閱讀

    使用aicube進(jìn)行目標(biāo)檢測識別數(shù)字項(xiàng)目的時候,在評估環(huán)節(jié)卡住了,怎么解決?

    使用aicube進(jìn)行目標(biāo)檢測識別數(shù)字項(xiàng)目的時候,前面一切正常 但是在評估環(huán)節(jié)卡住了,一直顯示正在測試,但是完全沒有測試結(jié)果, 在部署完模型后在k230上運(yùn)行也沒有任何識別結(jié)果 期待結(jié)果和實(shí)際結(jié)果
    發(fā)表于 08-13 06:45

    是否可以僅使用 Bootloader Host 來實(shí)現(xiàn)可引導(dǎo)加載項(xiàng)目的相同編程結(jié)果?

    。我知道可以使用PSoC?編程器通過 SWD 直接對目標(biāo)芯片進(jìn)行編程。 但是,我想知道是否可以僅使用 Bootloader Host 來實(shí)現(xiàn)可引導(dǎo)加載項(xiàng)目的相同編程結(jié)果,而不依賴于PSoC?編程器或
    發(fā)表于 07-18 07:39

    樹莓派項(xiàng)目實(shí)戰(zhàn):車牌識別系統(tǒng)開發(fā)全記錄!

    介紹本項(xiàng)目的目標(biāo)是設(shè)計(jì)一基于樹莓派微電腦的自動車牌識別系統(tǒng),用于控制停車場的道閘。為什么?我有一臺閑置的樹莓派,沒有參與任何項(xiàng)目,還有一臺攝像頭,以及一潛在的問題點(diǎn)——辦公室停車場
    的頭像 發(fā)表于 06-11 17:22 ?1107次閱讀
    樹莓派<b class='flag-5'>項(xiàng)目</b>實(shí)戰(zhàn):車牌識別系統(tǒng)開發(fā)全記錄!

    嵌入式AI技術(shù)漫談 如何組建一AI項(xiàng)目開發(fā)小組

    我們來談一談如何組建一AI項(xiàng)目開發(fā)小組: 為什么要為嵌入式AI項(xiàng)目 組建一專門的開發(fā)小組 相對于以往成熟的項(xiàng)目開發(fā)體系,嵌入式AI
    的頭像 發(fā)表于 06-11 16:34 ?1355次閱讀

    NanoEdge AI Studio 面向STM32開發(fā)人員機(jī)器學(xué)習(xí)(ML)技術(shù)

    NanoEdge? AI Studio*(NanoEdgeAIStudio)是一種新型機(jī)器學(xué)習(xí)(ML)技術(shù),可以讓終端用戶輕松享有真正的創(chuàng)新成果。只需幾步,開發(fā)人員便可基于最少量的數(shù)據(jù)為其項(xiàng)目創(chuàng)建
    的頭像 發(fā)表于 04-22 11:09 ?1301次閱讀
    NanoEdge AI Studio 面向STM32開發(fā)人員機(jī)器學(xué)習(xí)(<b class='flag-5'>ML</b>)技術(shù)