對于在業(yè)務(wù)中將機器學(xué)習(xí)作為核心技術(shù)的初創(chuàng)公司來說,能否獲得高質(zhì)量的訓(xùn)練數(shù)據(jù)極為關(guān)鍵。雖然很多算法和軟件工具都是開源和共享的,但好的數(shù)據(jù)集通常是專有的,且很難創(chuàng)建。因此,擁有針對特定領(lǐng)域的龐大數(shù)據(jù)集,能夠成為競爭優(yōu)勢的一個重要來源,尤其是在初創(chuàng)公司能夠快速引發(fā)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)的情況下(更多的用戶→更多的數(shù)據(jù)→更智能的算法→更好的產(chǎn)品→更多的用戶)。
所以,如何創(chuàng)建高質(zhì)量數(shù)據(jù)集以用于訓(xùn)練學(xué)習(xí)算法,這是機器學(xué)習(xí)初創(chuàng)公司必須作出的一個重要的戰(zhàn)略決定。不幸的是,在剛開始的時候,初創(chuàng)公司的標記數(shù)據(jù)常常十分有限,甚至缺失,為他們在數(shù)據(jù)驅(qū)動型產(chǎn)品的打造上取得重大進展增添了阻礙。因此,在聘請數(shù)據(jù)科學(xué)團隊或者部署昂貴的核心設(shè)施之前,有必要從一開始就研究制定好數(shù)據(jù)采集的策略。
很多方法都可以幫助初創(chuàng)公司克服數(shù)據(jù)采集的冷啟動問題。數(shù)據(jù)策略/來源的選擇通常與商業(yè)模式的選擇、公司的關(guān)注點(消費者或企業(yè),水平或垂直,等等)以及融資的情況息息相關(guān)。以下是五種數(shù)據(jù)采集策略,雖然并不詳盡,且多少互有重疊,但能讓你對很多可用的方法有一個直觀的感受。
策略一:人工作業(yè)
從零開始創(chuàng)建好的專有數(shù)據(jù)集,幾乎永遠意味著預(yù)先投入大量人力采集數(shù)據(jù),執(zhí)行難以規(guī)?;娜斯と蝿?wù)??啃U力開路的初創(chuàng)公司有很多。例如,很多聊天機器人初創(chuàng)公司聘請人類擔任“AI訓(xùn)練師”,讓他們手動創(chuàng)建或核實虛擬助手作出的預(yù)測(實際效果各異,且員工流動率高)。就連科技巨頭都采用這種策略:Facebook虛擬助手M的所有回答,都由一支合同工隊伍進行檢查和編輯。
只要數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)在某個時候生效,所需人力不再跟隨客戶數(shù)量同步增加,那么用蠻力來手動標記數(shù)據(jù)點的策略就能取得成功。一旦AI系統(tǒng)的進步速度夠快,不明確的異常值就會變得更少,進行手動標記的人員數(shù)量就可以減少或者保持不變。
適用于:幾乎所有的機器學(xué)習(xí)初創(chuàng)公司
例子:
*很多聊天機器人初創(chuàng)公司(包括Magic、GoButler、x.ai和Clara)
*MetaMind(手動采集和標記的食物分類數(shù)據(jù)集)
*BuildingRadar(由員工/實習(xí)生手動標記建筑物圖片)
策略二:縮小范圍
大多數(shù)初創(chuàng)公司都會試圖從用戶那里直接采集數(shù)據(jù),但問題在于,在機器學(xué)習(xí)的好處尚未全部體現(xiàn)出來之前,會很難說服早期采用者使用產(chǎn)品(因為先要有數(shù)據(jù)才能訓(xùn)練和改進算法)。避開這種兩難處境的一個方法是大幅縮小問題域(如果以后有需要再擴大范圍)??死锼?middot;迪克森(ChrisDixon)說:“你需要的數(shù)據(jù)量與你試圖解決的問題廣度有關(guān)。”
關(guān)于縮小范圍的好處,聊天機器人再次成為很好的例子。這個領(lǐng)域的初創(chuàng)公司可以在兩個市場進入策略之間做出選擇:一種是打造水平型虛擬助手,也就是幫助解答很多問題并響應(yīng)即時請求的機器人,例如Viv、Magic、Awesome、Maluuba和Jam;一種是打造垂直型虛擬助手,也就是力求極為出色地完成某項明確具體工作的機器人,例如x.ai、Clara、DigitalGenius、Kasisto、Meekan和近期的GoButler。雖然兩個方法都可行,但解決閉域問題的初創(chuàng)公司在數(shù)據(jù)的采集上要容易許多。
適用于:垂直整合型公司
例子:
*高度專業(yè)化的垂直型聊天機器人(比如x.ai、Clara和GoButler)
*DeepGenomics(利用深度學(xué)習(xí)技術(shù)對基因變異進行分類和解讀)
*QuantifiedSkin(利用客戶自拍照進行皮膚分析)