chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中最常見錯誤解決方案

新機器視覺 ? 來源:機器之心 ? 作者:機器之心 ? 2022-08-08 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當你構建第一個模型,注意避免這5個坑。

數(shù)據(jù)科學和機器學習正變得越來越流行,這個領域的人數(shù)每天都在增長。這意味著有很多數(shù)據(jù)科學家在構建他們的第一個機器學習模型時沒有豐富的經(jīng)驗,而這也是錯誤可能會發(fā)生的地方。

近日,軟件架構師、數(shù)據(jù)科學家、Kaggle 大師 Agnis Liukis 撰寫了一篇文章,他在文中談了談在機器學習中最常見的一些初學者錯誤的解決方案,以確保初學者了解并避免它們。

以下為文章內容:

在機器學習領域,初學者避免這 5 個坑

1、在需要的地方?jīng)]有使用數(shù)據(jù)歸一化

對數(shù)據(jù)進行歸一化操作,然后獲取特征,并將其輸入到模型中,讓模型做出預測,這種方法是很容易的。但在某些情況下,這種簡單方法的結果可能會讓人失望,因為它缺少一個非常重要的部分。

一些類型的模型需要數(shù)據(jù)歸一化,如線性回歸、經(jīng)典神經(jīng)網(wǎng)絡等。這類模型使用特征值去乘訓練值的權重。在非歸一化特征的情況下,一個特征值的可能范圍可能不同于另一個特征值的可能范圍。

假設一個特征的值在 [0,0.001] 范圍內,另一個特征的值在 [100000,200000] 范圍內。對于使兩個特征同等重要的模型,第一個特征的權重將比第二個特征的權重大 1 億倍。巨大的權重可能會給模型帶來嚴重問題,比如存在一些異常值的時候。此外,估計各種特征的重要性變得困難,因為權重大可能意味著特征很重要,但也可能只是意味著其特征值很小

歸一化后,所有特征的值都在相同的范圍內,通常為 [0,1] 或 [-1,1]。在這種情況下,權重將在相似的范圍內,并與每個特征的實際重要性密切對應。

總的來說,在需要的地方使用數(shù)據(jù)歸一化將產生更好、更準確的預測。

2、認為特征越多越好

有人可能會認為加入所有特征是一個好主意,認為模型會自動選擇并使用最好的特征。實際上,這種想法很難成真。

模型的特征越多,過擬合的風險越大。即使在完全隨機的數(shù)據(jù)中,模型也能夠找到一些特征(信號),盡管有時較弱,有時較強。當然,隨機噪聲中沒有真實信號。但如果我們有足夠多的噪聲列,則該模型有可能根據(jù)檢測到的故障信號使用其中的一部分。當這種情況發(fā)生時,模型預測質量將會降低,因為它們一定程度上基于隨機噪聲。

現(xiàn)在有許多技術幫助我們進行特征選擇。但你要記住,你需要解釋你擁有的每一個特征,以及為什么這個特征會幫助你的模型。

3. 在需要外推的情況下,使用基于樹的模型

基于樹的模型易于使用,功能強大,這也是其受歡迎的原因。然而,在某些情況下,使用基于樹的模型可能是錯誤的。

基于樹的模型無法外推,這些模型的預測值永遠不會大于訓練數(shù)據(jù)中的最大值,而且在訓練中也永遠不會輸出比最小值更小的預測值。

在某些任務中,外推能力可能非常重要。例如,如果該模型預測股票價格,那么未來股票價格可能會比以往任何時候都高。在這種情況下,基于樹的模型將無法直接使用,因為它們的預測幾乎會超過最高歷史價格。

這個問題有多種解決方案,一種解決方案是預測變化或差異,而不是直接預測價值。另一種解決方案是為此類任務使用不同類型的模型。線性回歸或神經(jīng)網(wǎng)絡就可以進行外推。

4、在不需要的地方使用數(shù)據(jù)歸一化

之前文章談到了數(shù)據(jù)歸一化的必要性,但情況并非總是如此,基于樹的模型不需要數(shù)據(jù)歸一化。神經(jīng)網(wǎng)絡可能也不需要明確的歸一化,因為有些網(wǎng)絡內部已經(jīng)包含歸一化層,例如 Keras 庫的 BatchNormalization 操作。

在某些情況下,即使是線性回歸也可能不需要數(shù)據(jù)歸一化,這是指所有特征都已處于類似的值范圍,并且具有相同的含義。例如,如果模型適用于時間序列數(shù)據(jù),并且所有特征都是同一參數(shù)的歷史值。

5. 在訓練集和驗證集 / 測試集之間泄漏信息

造成數(shù)據(jù)泄漏比人們想象的要容易,考慮以下代碼段:

67499348-165a-11ed-ba43-dac502259ad0.png

數(shù)據(jù)泄漏的示例特性

實際上,這兩種特征(sum_feature 和 diff_feature)都不正確。它們正在泄漏信息,因為在拆分到訓練集 / 測試集后,具有訓練數(shù)據(jù)的部分將包含來自測試的一些信息。這將導致更高的驗證分數(shù),但當應用于實際的數(shù)據(jù)模型時,性能會更差。

正確的方法是首先將訓練集 / 測試集分開,然后才應用特征生成功能。通常,分別處理訓練集和測試集是一種很好的特征工程模式。

在某些情況下,可能需要在兩者之間傳遞一些信息 —— 例如,我們可能希望在測試集和訓練集上使用相同的 StandardScaler。

總而言之,從錯誤中吸取教訓是件好事,希望上述所提供的錯誤示例能幫助到你。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:機器學習初學者易踩的5個坑

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    UPS電源維修故障大全:常見問題排查與解決方案

    UPS電源作為機房、工業(yè)產線、精密設備的“電力保鏢”,一旦出現(xiàn)故障,輕則設備重啟、數(shù)據(jù)丟失,重則引發(fā)生產中斷、硬件損壞。本文梳理UPS電源高頻故障現(xiàn)象、成因及可落地解決方案,覆蓋開機異常、報警、續(xù)航
    的頭像 發(fā)表于 03-28 13:48 ?1600次閱讀
    UPS電源維修故障大全:<b class='flag-5'>常見</b>問題排查與<b class='flag-5'>解決方案</b>

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經(jīng)從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些
    的頭像 發(fā)表于 01-07 15:37 ?333次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個<b class='flag-5'>常見</b><b class='flag-5'>錯誤</b>與局限性

    三防漆應用失?。堪藗€常見問題與解決方案一文搞定 | 東莞 鉻銳特實業(yè)

    東莞三防漆|鉻銳特實業(yè)官網(wǎng) | 三防漆涂覆失敗怎么辦?本文總結8個最常見問題(如起泡、不均勻、發(fā)白、附著力差等)及實用解決方案,一文幫您避開三防漆應用坑點,提升電子產品防護成功率。
    的頭像 發(fā)表于 12-24 00:36 ?636次閱讀
    三防漆應用失???八個<b class='flag-5'>常見</b>問題與<b class='flag-5'>解決方案</b>一文搞定 | 東莞 鉻銳特實業(yè)

    程序員最常見謊言

    前任留下的 Bug。 14這個問題可能是由于客戶端的錯誤引起的。 15我已經(jīng)檢查了所有的服務器配置,沒有發(fā)現(xiàn)任何問題。 16在我機器上是好好的! 17你清緩存了嗎?瀏覽器是谷歌瀏覽器嗎? 18這個
    發(fā)表于 12-10 08:24

    分析負載特性時,有哪些常見錯誤或誤區(qū)?

    分析負載特性時,很多人會因 “想當然套用經(jīng)驗”“忽略實際場景細節(jié)” 或 “混淆概念” 導致判斷偏差,進而讓報警閾值調整失效(如誤報、漏報)。以下是 6 個最常見錯誤 / 誤區(qū),附錯誤表現(xiàn)、危害
    的頭像 發(fā)表于 10-10 17:03 ?1059次閱讀

    Nginx常見故障案例總結

    在互聯(lián)網(wǎng)公司的運維生涯中,Nginx故障可以說是最常見也最讓人頭疼的問題之一。從簡單的配置錯誤到復雜的性能瓶頸,從偶發(fā)的502到持續(xù)的高延遲,每一個故障背后都有其獨特的原因和解決方案。
    的頭像 發(fā)表于 09-18 14:51 ?1489次閱讀

    吉時利源表2400故障排查常見問題與解決方案

    吉時利源表2400作為一款廣泛應用于通信、半導體、計算機、汽車與醫(yī)療行業(yè)的測試儀器,其穩(wěn)定性和準確性對于各類研究與生產活動至關重要。以下是該設備在使用過程中常見的一些故障及其相應的解決方案,旨在
    的頭像 發(fā)表于 09-17 16:48 ?837次閱讀
    吉時利源表2400故障排查<b class='flag-5'>常見</b>問題與<b class='flag-5'>解決方案</b>

    規(guī)避生產陷阱:PCB設計中常見錯誤解決方案

    生產階段造成嚴重問題,導致設計報廢、生產延誤和成本增加。原型的成功并不意味著量產也能成功,因此 在設計早期階段就應考慮生產可行性的重要性。 ? 本文總結了常見的與生產相關的設計缺陷并提供了解決方案。 缺乏關鍵信號測試點 ? 問題 : 這是最
    的頭像 發(fā)表于 09-08 11:15 ?5859次閱讀
    規(guī)避生產陷阱:PCB設計中<b class='flag-5'>常見</b>的<b class='flag-5'>錯誤</b>及<b class='flag-5'>解決方案</b>

    國巨貼片電容的電壓標識有哪些常見錯誤?

    國巨貼片電容的電壓標識在識別和使用過程中可能存在一些常見錯誤,這些錯誤可能源于標識本身的模糊性、不同系列產品的差異、對標識規(guī)則的誤解,或使用環(huán)境的影響。以下是具體分析: 一、標識模糊或
    的頭像 發(fā)表于 08-28 16:51 ?913次閱讀

    在使用示波器探測時,你犯過這7大錯誤嗎?

    不盡相同,每次探測設備,需要選擇對測量影響最小的探頭,這是成功測量的關鍵。以下這些錯誤,是大家在測量過程中最常見的,請牢記它們并在平時的測量中規(guī)避這些錯誤,以便獲
    的頭像 發(fā)表于 07-23 17:33 ?838次閱讀
    在使用示波器探測時,你犯過這7大<b class='flag-5'>錯誤</b>嗎?

    NCS放大器DAD3350常見錯誤碼及解決方案

    NCS放大器DAD3350在工業(yè)應用中可能出現(xiàn)的錯誤碼及解決方案如下: ? 一、常見錯誤碼及原因 ? ? 過載報警(如LV低電壓報警、OVC過電流報警) ? ? 原因 ?: 電源電壓異
    的頭像 發(fā)表于 07-12 09:41 ?1118次閱讀

    電商API常見錯誤排查指南:避免集成陷阱

    ? 在電商平臺開發(fā)中,API集成是連接系統(tǒng)、實現(xiàn)數(shù)據(jù)交換的核心環(huán)節(jié)。然而,許多開發(fā)者在集成過程中常遇到錯誤,導致項目延遲、數(shù)據(jù)丟失或用戶體驗下降。本文將逐步介紹常見錯誤類型、排查方法以及預防策略
    的頭像 發(fā)表于 07-11 14:21 ?2266次閱讀
    電商API<b class='flag-5'>常見</b><b class='flag-5'>錯誤</b>排查指南:避免集成陷阱

    PCBA代工避坑指南:常見問題+解決方案全解析

    一站式PCBA加工廠家今天為大家講講PCBA代工代購元器件常見問題有哪些?PCBA代工代購元器件常見問題及解決方案。隨著科技的不斷發(fā)展和市場需求的變化,越來越多的企業(yè)選擇通過外包方式進行PCBA生產
    的頭像 發(fā)表于 07-09 09:38 ?958次閱讀

    內網(wǎng)穿透避坑指南 6 大常見錯誤 + 保姆級解決方案!

    在內網(wǎng)穿透部署中,哪怕是老手也可能踩坑!今天整理了6大高頻錯誤場景+實戰(zhàn)解決方案,幫你少走彎路,效率翻倍 1.端口映射失?。涸L問顯示「連接超時」 ?錯誤原因: 本地服務未啟動或端口被占用 防火墻
    的頭像 發(fā)表于 05-20 12:14 ?916次閱讀

    原理圖和PCB設計中的常見錯誤

    在電子設計領域,原理圖和PCB設計是產品開發(fā)的基石,但設計過程中難免遇到各種問題,若不及時排查可能影響電路板的性能及可靠性,本文將列出原理圖和PCB設計中的常見錯誤,整理成一份實用的速查清單,以供參考。
    的頭像 發(fā)表于 05-15 14:34 ?1378次閱讀