來源 | 數(shù)據(jù)派THU
作者 | Francesca Lazzeri
翻譯 | 王琦
責(zé)編 | Carol
去年11月,我寫了一篇關(guān)于使用自動(dòng)機(jī)器學(xué)習(xí)來進(jìn)行AI民主化(democratization)的文章(見下面鏈接)。
在今天這篇文章中,我將會(huì)向你展示 自動(dòng)機(jī)器學(xué)習(xí)的用例(發(fā)布在Github上了,見下面鏈接)。本文介紹了在零售商工作的數(shù)據(jù)科學(xué)家、項(xiàng)目經(jīng)理和業(yè)務(wù)主管利用自動(dòng)機(jī)器學(xué)習(xí)和Azure機(jī)器學(xué)習(xí)服務(wù)來減少產(chǎn)品庫存過剩的具體過程。
附鏈接:
https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/automated-machine-learning/forecasting-orange-juice-sales/auto-ml-forecasting-orange-juice-sales.ipynb?WT.mc_id=azuremedium-blog-lazzeri
此外,本文還介紹了數(shù)據(jù)科學(xué)家、項(xiàng)目經(jīng)理和業(yè)務(wù)主管各自如何使用自動(dòng)機(jī)器學(xué)習(xí)來改進(jìn)團(tuán)隊(duì)合作和學(xué)習(xí),并促進(jìn)數(shù)據(jù)科學(xué)新方案的成功實(shí)現(xiàn)。
在這個(gè)用例中(該用例對(duì)公眾開放,發(fā)布在GitHub上),我們將會(huì)看到在零售商工作的數(shù)據(jù)科學(xué)家、項(xiàng)目經(jīng)理和業(yè)務(wù)主管如何利用自動(dòng)機(jī)器學(xué)習(xí)和Azure機(jī)器學(xué)習(xí)服務(wù)來減少商品的庫存過剩。 Azure機(jī)器學(xué)習(xí)服務(wù)是一個(gè)你可以用來訓(xùn)練、部署、自動(dòng)化和管理機(jī)器學(xué)習(xí)模型的云服務(wù),所有這些都可以在云提供的范圍內(nèi)進(jìn)行。Azure機(jī)器學(xué)習(xí)服務(wù)中的自動(dòng)機(jī)器學(xué)習(xí)是獲取已定義目標(biāo)特征的訓(xùn)練數(shù)據(jù),并通過算法組合和特征選擇進(jìn)行迭代,從而基于訓(xùn)練分?jǐn)?shù)來為你的數(shù)據(jù)自動(dòng)選擇最好模型的過程。
多余的庫存很快就變成了一個(gè)流動(dòng)性問題,除非我們通過折扣和促銷來減少利潤(rùn),否則它就不能轉(zhuǎn)換成現(xiàn)金?;蛘吒愀獾氖?,當(dāng)其累計(jì)到一定程度被送到其他渠道比如經(jīng)銷店,這會(huì)延遲其銷售。提前確定哪些產(chǎn)品不會(huì)達(dá)到他們期望的周轉(zhuǎn)水平,并通過與銷售預(yù)測(cè)相符的庫存補(bǔ)給來控制補(bǔ)貨,這是幫助零售商實(shí)現(xiàn)投資回報(bào)率(ROI)的關(guān)鍵因素。 讓我們看看團(tuán)隊(duì)如何著手解決這個(gè)問題以及自動(dòng)機(jī)器學(xué)習(xí)如何使整個(gè)公司的AI民主化。
為公司確定正確的業(yè)務(wù)目標(biāo)
正確的產(chǎn)品組合和庫存水平可以取得豐厚的銷售額和利潤(rùn)。要實(shí)現(xiàn)這一理想組合,就需要擁有最近的、準(zhǔn)確的庫存信息。手動(dòng)處理不僅花費(fèi)時(shí)間,導(dǎo)致當(dāng)前的、準(zhǔn)確的庫存信息的延遲,而且增加了出錯(cuò)的可能性。這些延遲和錯(cuò)誤很可能會(huì)由于庫存過剩、庫存不足和缺貨而導(dǎo)致收入損失。
庫存過剩也可能占用寶貴的倉庫空間,并占用本應(yīng)用于購買新庫存的現(xiàn)金。但以清算模式出售過剩的庫存可能會(huì)引起一系列問題,例如損害聲譽(yù)和沖擊其他現(xiàn)有同類產(chǎn)品的銷售。
作為數(shù)據(jù)科學(xué)家與業(yè)務(wù)運(yùn)營(yíng)之間橋梁的項(xiàng)目經(jīng)理,與業(yè)務(wù)主管聯(lián)系,討論使用其內(nèi)部的、以往的銷售額中的一部分來解決其庫存過剩問題的可能性。 項(xiàng)目經(jīng)理和業(yè)務(wù)主管通過詢問和完善與業(yè)務(wù)目標(biāo)相關(guān)的具體問題來定義項(xiàng)目目標(biāo)。
此階段主要有兩個(gè)任務(wù):
定義目標(biāo):項(xiàng)目經(jīng)理和業(yè)務(wù)主管需要識(shí)別業(yè)務(wù)問題,最重要的是,提出問題以定義數(shù)據(jù)科學(xué)技術(shù)可以針對(duì)的業(yè)務(wù)目標(biāo);
識(shí)別數(shù)據(jù)源:項(xiàng)目經(jīng)理和數(shù)據(jù)科學(xué)家需要找到相關(guān)數(shù)據(jù)來幫助回答定義項(xiàng)目目標(biāo)的問題。
尋找正確的數(shù)據(jù)和流水線
這一切都要從找數(shù)據(jù)開始。項(xiàng)目經(jīng)理和數(shù)據(jù)科學(xué)家需要識(shí)別包含業(yè)務(wù)問題答案的已知示例的數(shù)據(jù)源。 他們尋找以下類型的數(shù)據(jù):
與問題相關(guān)的數(shù)據(jù)。他們是否有針對(duì)目標(biāo)的指標(biāo)以及與目標(biāo)相關(guān)的特征?
可以準(zhǔn)確衡量其模型目標(biāo)和感興趣特征的數(shù)據(jù)。
在此階段,數(shù)據(jù)科學(xué)家需要解決三個(gè)主要的任務(wù):
將數(shù)據(jù)應(yīng)用到目標(biāo)的分析環(huán)境中;
探索數(shù)據(jù)以確定數(shù)據(jù)質(zhì)量是否足以回答問題;
建立數(shù)據(jù)流水線以對(duì)新數(shù)據(jù)或定期刷新的數(shù)據(jù)進(jìn)行評(píng)分。
在將數(shù)據(jù)從源位置移動(dòng)到可以運(yùn)行分析操作的目標(biāo)位置之后,數(shù)據(jù)科學(xué)家開始處理原始數(shù)據(jù)來產(chǎn)生干凈的、高質(zhì)量的數(shù)據(jù)集,該數(shù)據(jù)集與目標(biāo)變量的關(guān)系是被充分理解的。在訓(xùn)練機(jī)器學(xué)習(xí)模型之前,數(shù)據(jù)科學(xué)家需要對(duì)數(shù)據(jù)有充分的了解,通過創(chuàng)建數(shù)據(jù)摘要和可視化來審核數(shù)據(jù)的質(zhì)量,并在準(zhǔn)備好建模之前提供處理數(shù)據(jù)所需的信息。
最后,數(shù)據(jù)科學(xué)家還負(fù)責(zé)開發(fā)數(shù)據(jù)流水線解決方案的架構(gòu),該架構(gòu)會(huì)定期對(duì)數(shù)據(jù)進(jìn)行刷新和評(píng)分。
通過自動(dòng)機(jī)器學(xué)習(xí)預(yù)測(cè)橙汁的銷售
數(shù)據(jù)科學(xué)家和項(xiàng)目經(jīng)理決定使用自動(dòng)機(jī)器學(xué)習(xí)有以下幾個(gè)原因:自動(dòng)機(jī)器學(xué)習(xí)讓有或沒有數(shù)據(jù)科學(xué)專業(yè)知識(shí)的客戶都能針對(duì)任何問題來確定端到端機(jī)器學(xué)習(xí)的流水線,從而在花費(fèi)更少時(shí)間的同時(shí)來取得更高的準(zhǔn)確性。 而且,它還可以運(yùn)行大量實(shí)驗(yàn),從而加快了面向生產(chǎn)就緒型的智能經(jīng)驗(yàn)的迭代。
讓我們看看使用自動(dòng)機(jī)器學(xué)習(xí)進(jìn)行橙汁銷售預(yù)測(cè)的過程如何實(shí)現(xiàn)這些好處。
在對(duì)業(yè)務(wù)目標(biāo)以及應(yīng)使用哪種類型的內(nèi)部的以往數(shù)據(jù)來達(dá)成目標(biāo)達(dá)成一致后,數(shù)據(jù)科學(xué)家將創(chuàng)建一個(gè)工作區(qū)。該工作區(qū)是該服務(wù)的頂級(jí)資源,為數(shù)據(jù)科學(xué)家提供了一個(gè)集中的地方來處理他們需要?jiǎng)?chuàng)建的所有工件。在Azure機(jī)器學(xué)習(xí)服務(wù)中創(chuàng)建工作區(qū)時(shí),會(huì)自動(dòng)添加以下Azure資源(如果它們?cè)趨^(qū)域中可用):
Azure容器注冊(cè)表
Azure存儲(chǔ)
Azure應(yīng)用程序洞見
Azure密鑰保管庫
要運(yùn)行自動(dòng)機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué)家還需要做一個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)是工作區(qū)中的一個(gè)命名對(duì)象,它代表一個(gè)預(yù)測(cè)性任務(wù),該任務(wù)的輸出是經(jīng)過訓(xùn)練的模型和該模型的一組評(píng)估指標(biāo)。
數(shù)據(jù)科學(xué)家現(xiàn)在已經(jīng)準(zhǔn)備好加載以往的橙汁銷售數(shù)據(jù),并將CSV文件加載到簡(jiǎn)單的pandas 中的DataFrame類型中。CSV中的時(shí)間列稱為WeekStarting ,因此它會(huì)被專門地解析為日期時(shí)間類型。
DataFrame中的每一行表示某個(gè)商店中某個(gè)橙汁品牌的每周銷售量。數(shù)據(jù)還包括銷售價(jià)格、用來顯示橙汁品牌每周是否在商店中做廣告的標(biāo)記以及基于商店位置的一些客戶人口統(tǒng)計(jì)信息。由于歷史原因,該數(shù)據(jù)還包括銷售數(shù)量的對(duì)數(shù)。
我們目前的任務(wù)是為“數(shù)量”列構(gòu)建時(shí)間序列模型。重要的是我們要注意到該數(shù)據(jù)集由許多單獨(dú)的時(shí)間序列組成;每個(gè)時(shí)間序列都是針對(duì)商店和品牌的唯一組合。 為了區(qū)分各個(gè)時(shí)間序列,我們定義了grain,grain是其值能夠確定時(shí)間序列之間邊界的列。
為了以后的預(yù)測(cè)效果評(píng)估,我們將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。在這之后,數(shù)據(jù)科學(xué)家開始建模來執(zhí)行預(yù)測(cè)任務(wù),并且自動(dòng)機(jī)器學(xué)習(xí)使用針對(duì)時(shí)間序列的預(yù)處理和估計(jì)步驟。 自動(dòng)機(jī)器學(xué)習(xí)將執(zhí)行以下預(yù)處理步驟:
檢測(cè)時(shí)間序列樣本的頻率(例如每小時(shí)、每天、每周),并為不存在的時(shí)間點(diǎn)創(chuàng)建新記錄來讓序列變得有規(guī)律。 有規(guī)律的時(shí)間序列具有定義明確的頻率,并且在連續(xù)的時(shí)間間隔中的每個(gè)采樣點(diǎn)都有一個(gè)值;
通過正向填充(forward-fill)和特征列的列中位數(shù)來估算目標(biāo)中的缺失值;
創(chuàng)建基于grain的特征來實(shí)現(xiàn)不同序列之間的固定效應(yīng);
創(chuàng)建基于時(shí)間的特征來協(xié)助季節(jié)性模式的學(xué)習(xí);
將分類變量編碼為數(shù)字量。
對(duì)于一個(gè)自動(dòng)機(jī)器學(xué)習(xí)訓(xùn)練任務(wù),AutoMLConfig對(duì)象定義了設(shè)置和數(shù)據(jù)。以下是用于訓(xùn)練橙汁銷售預(yù)測(cè)模型的自動(dòng)機(jī)器學(xué)習(xí)配置參數(shù)的概要:
訪問GitHub以獲取有關(guān)預(yù)測(cè)的更多信息(見下面鏈接)。每次迭代都在實(shí)驗(yàn)中運(yùn)行,并存儲(chǔ)來自自動(dòng)機(jī)器學(xué)習(xí)迭代的序列化的流水線,直到它們找到在驗(yàn)證集上表現(xiàn)最佳的流水線為止。
附鏈接:
https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/automated-machine-learning/forecasting-orange-juice-sales/auto-ml-forecasting-orange-juice-sales.ipynb?WT.mc_id=azuremedium-blog-lazzeri
評(píng)估完成后,數(shù)據(jù)科學(xué)家、項(xiàng)目經(jīng)理和業(yè)務(wù)主管再次會(huì)面以檢查預(yù)測(cè)結(jié)果。項(xiàng)目經(jīng)理和業(yè)務(wù)主管的工作是了解輸出并根據(jù)這些結(jié)果選擇實(shí)際步驟。 業(yè)務(wù)主管需要確認(rèn)最佳模型和流水線以滿足業(yè)務(wù)目標(biāo)。此外,機(jī)器學(xué)習(xí)解決方案以可接受的準(zhǔn)確性回答了把系統(tǒng)部署到生產(chǎn)中的各種問題,以供內(nèi)部銷售的預(yù)測(cè)應(yīng)用程序使用。
微軟在自動(dòng)機(jī)器學(xué)習(xí)上的投資
自動(dòng)機(jī)器學(xué)習(xí)基于Microsoft Research部門的一項(xiàng)突破。該方法結(jié)合了協(xié)同過濾和貝葉斯優(yōu)化的思想,可以智能、高效地搜索可能的機(jī)器學(xué)習(xí)流水線的巨大空間。
現(xiàn)在,它作為Azure機(jī)器學(xué)習(xí)服務(wù)的一部分提供給你。正如你在此處所看到的,無論有無數(shù)據(jù)科學(xué)專業(yè)知識(shí),自動(dòng)機(jī)器學(xué)習(xí)都可以使客戶確定端到端機(jī)器學(xué)習(xí)流水線,以解決任何問題,并在提高準(zhǔn)確性的同時(shí)節(jié)省時(shí)間。它還可以運(yùn)行大量實(shí)驗(yàn)并加快迭代速度。自動(dòng)機(jī)器學(xué)習(xí)如何使你的組織受益?你的團(tuán)隊(duì)如何使用機(jī)器學(xué)習(xí)來更緊密地合作從而達(dá)到業(yè)務(wù)目標(biāo)?
作者簡(jiǎn)介:
Francesca Lazzeri是一位機(jī)器學(xué)習(xí)科學(xué)家、作家和演講者。 她領(lǐng)導(dǎo)著一支由微軟的云倡導(dǎo)者、數(shù)據(jù)科學(xué)家和開發(fā)人員組成的國(guó)際團(tuán)隊(duì)。 加入微軟之前,她是哈佛大學(xué)技術(shù)與運(yùn)營(yíng)管理部門的研究員。 她還是微軟“Women@NERD”協(xié)會(huì)的董事會(huì)成員、麻省理工學(xué)院和哥倫比亞大學(xué)的數(shù)據(jù)科學(xué)導(dǎo)師以及AI社區(qū)的活躍成員。
電子發(fā)燒友App




















評(píng)論