Q
我在向客戶介紹如何使用AI方法設計一款客戶產品時,客戶理解,AI嵌入式項目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經常會被問到這樣的問題:客戶的工程師需要采集多少數(shù)據(jù),才能形成合適的樣本集,進而開始訓練模型呢?
此時,回答“按需提供”或者“先試試看”似乎會變成一句車轱轆話,看似回答了問題,但客戶還是無從下手。
AI數(shù)據(jù)樣本的三個原則
這里,我以教孩子認識蘋果和鴨梨為例進行說明。假設一個小孩子不認識蘋果和鴨梨,在對真正的水果和鴨梨做判斷之前,我們只有一些蘋果和鴨梨的圖片可供孩子學習,此時可以做類比:
孩子用來記憶知識的大腦就是AI
預先準備好的圖片就是樣本
通過照片學習的過程就是訓練
脫離照片之后真的在一推水果里能挑選出蘋果和鴨梨的過程,就是推理過程。
好了,我們開始分析。
合適的AI數(shù)據(jù)集中的樣本數(shù)據(jù),需要滿足如下的三個原則:
獨立性。在訓練的初期,盡量選擇用正常的蘋果鴨梨的照片給孩子用于學習,盡量避免使用各種畸形或者怪異的樣本影響孩子的第一印象。如果客觀存在似是而非的情況,我們甚至可以專門為這些特殊的樣本設計第三個分類“不確定”,從而避免對正常樣本的判斷。
平衡性。在提供樣本數(shù)量上,盡量讓不同分類的樣本平均分配,例如,如果提供100張?zhí)O果和100張鴨梨的照片,孩子能夠公平地對蘋果和鴨梨都建立相當?shù)挠∠?。但如果?00張?zhí)O果和1張鴨梨的照片提供給孩子學習,孩子對蘋果的印象更加深刻而忽略掉那唯一的一張鴨梨的照片。在實際判別時,也會更傾向于將他看到的任何類似的水果判定為蘋果。
顯著統(tǒng)計性。由于樣本是人工或者外力參與標定的,在反應客觀規(guī)律的時候,也可能存在系統(tǒng)偏差,出現(xiàn)少量的異常,或者在信號分析的領域里稱為“噪聲點”。因此,在用于訓練AI模型之前對數(shù)據(jù)進行預處理的環(huán)節(jié),也會利用統(tǒng)計學規(guī)律對數(shù)據(jù)進行初步篩選,例如,使用正態(tài)分布的規(guī)律,對某一分類下的所有樣本中,遠離平均水平(明顯不靠譜)的數(shù)據(jù)剔除,否則在后期訓練中容易出現(xiàn)“過擬合”的情況,從而導致最終訓練的AI模型的規(guī)模異常增大,并且也有可能偏離實際的規(guī)律。
在具體實踐過程中,需要系統(tǒng)專家設計好標定環(huán)境,需要人工標注樣本數(shù)據(jù)的分類,相當于,先為測試考核提供提供參考答案。這涉及到硬件電路系統(tǒng)和軟件工具鏈的搭建工作。
然后,在滿足這三個的基礎上,可以根據(jù)實際情況采集少量樣本。實際上,嵌入式系統(tǒng)的數(shù)據(jù)量通常都比較大產生速度也比較快,例如,在使用AI方法在拉弧檢測的應用中,使用500KSps的ADC采樣率,每秒鐘就可以采集到一條包含50萬個數(shù)據(jù)點的,而用于判定拉弧的采樣窗口大多在1ms以內,500個采樣點就可以構成一個標定為“有拉弧”或者“無拉弧”的樣本,如果不考慮窗口重疊的情況,每秒鐘就至少可以產生1千條樣本。如此可以看出,在初期很容易獲得數(shù)量相當?shù)臉颖尽?/p>
之后,算法工程師使用獲取的樣本集構建AI模型并訓練,試著描述樣本數(shù)據(jù)的規(guī)律,通過分析模型的訓練結果(例如準確率、推理時間等性能),對進一步采集數(shù)據(jù)提供指導。
如此反復多次,直到AI模型的準確率、性能等指標達到預期,即可收斂。
通過迭代摸索數(shù)據(jù)的門道
所以,簡而言之的回答,還是“先采集數(shù)據(jù),試試看訓練模型,然后逐漸摸索出門道,在循環(huán)迭代的過程中完善數(shù)據(jù)集,最終達到產品要求即可”。
-
嵌入式AI
+關注
關注
0文章
42瀏覽量
1518 -
AI大模型
+關注
關注
0文章
404瀏覽量
1038
發(fā)布評論請先 登錄
嵌入式AI技術漫談:怎么為訓練AI模型采集樣本數(shù)據(jù)
評論