電磁流量計(jì) 庫(kù)存庫(kù)號(hào):D333393
電磁流量計(jì) 庫(kù)存庫(kù)號(hào):D333393互聯(lián)網(wǎng)上早期的數(shù)據(jù)產(chǎn)品之一就是CDDB數(shù)據(jù)庫(kù)。CDDB數(shù)據(jù)庫(kù)的意識(shí)到基于CD(音頻光盤(pán))里面的每首歌曲的確切長(zhǎng)度,任何CD都有一個(gè)的數(shù)字簽名。Gracenote公司創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù),記錄著歌曲的長(zhǎng)度,并和專輯的元數(shù)據(jù)(歌曲名稱、歌手和專輯名稱)數(shù)據(jù)庫(kù)關(guān)聯(lián)。如果你曾經(jīng)使用iTunes來(lái)找CD,你就是在使用這個(gè)數(shù)據(jù)庫(kù)服務(wù)。iTunes會(huì)先獲取每首歌的長(zhǎng)度,然后發(fā)給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自制的CD)在數(shù)據(jù)庫(kù)里沒(méi)有記錄,你也可以在CDDB里創(chuàng)造一個(gè)無(wú)名專輯的題目。盡管看起來(lái)很簡(jiǎn)單,但這是革命性的。CDDB把音樂(lè)看成是數(shù)據(jù),而不僅僅是聲音,并從中創(chuàng)造了新的價(jià)值。他們的商業(yè)模式和傳統(tǒng)的銷(xiāo)售音樂(lè)、共享音樂(lè)或者分析音樂(lè)口味等業(yè)務(wù)的模式截然不同,盡管這些業(yè)務(wù)也可以是“數(shù)據(jù)產(chǎn)品”。CDDB完全是視音樂(lè)的問(wèn)題為數(shù)據(jù)的問(wèn)題。
谷歌是創(chuàng)造數(shù)據(jù)產(chǎn)品的專家,這里列幾個(gè)例子。
谷歌的創(chuàng)新是在于其意識(shí)到搜索引擎可以使用入鏈接而不是網(wǎng)頁(yè)上的文字。谷歌的PageRank算法是早一批使用網(wǎng)頁(yè)以外的數(shù)據(jù)的算法之一,特別是網(wǎng)頁(yè)的入鏈接數(shù),即其他網(wǎng)頁(yè)指向某網(wǎng)頁(yè)的數(shù)量。記錄鏈接讓谷歌的搜索引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關(guān)鍵的一條。
拼寫(xiě)檢查不是一個(gè)非常難的任務(wù),但是通過(guò)在用戶輸入搜索關(guān)鍵詞時(shí),向錯(cuò)誤拼寫(xiě)推薦正確的用法并查看用戶是如何回應(yīng)推薦,谷歌讓拼寫(xiě)檢查的準(zhǔn)確率大幅提高。他們還建立起了常見(jiàn)錯(cuò)誤拼寫(xiě)的字典,其中還包括對(duì)應(yīng)的正確拼寫(xiě)以及錯(cuò)誤拼寫(xiě)常見(jiàn)的上下文。
語(yǔ)音識(shí)別也是一個(gè)非常艱難的任務(wù),而且也還沒(méi)有完全被解決。但谷歌通過(guò)使用自己收集的語(yǔ)音數(shù)據(jù),已經(jīng)開(kāi)始了針對(duì)這個(gè)難題的一個(gè)宏大的嘗試。并已把語(yǔ)音搜索集成到了核心搜索引擎里。
在2009年豬流感的傳播期,谷歌能夠通過(guò)跟蹤與流感相關(guān)的搜索來(lái)跟蹤這次豬流感的爆發(fā)和傳播過(guò)程。
通過(guò)分析搜索跟流感相關(guān)的用戶在不同地區(qū)的情況,谷歌能夠比美國(guó)國(guó)家疾病控制中心提前兩周發(fā)現(xiàn)豬流感的爆發(fā)和傳播趨勢(shì)。
谷歌并不是一家知道如何使用數(shù)據(jù)的公司。臉書(shū)和領(lǐng)英都是用朋友關(guān)系來(lái)建議用戶他們可能認(rèn)識(shí)或應(yīng)該認(rèn)識(shí)的其他人。亞馬遜會(huì)保存你的搜素關(guān)鍵詞,并使用別人的搜索詞來(lái)關(guān)聯(lián)你的搜索,從而能令人驚訝地做出恰當(dāng)?shù)纳唐吠扑]。這些推薦就是數(shù)據(jù)產(chǎn)品,能幫助推進(jìn)亞馬遜的傳統(tǒng)的零售業(yè)務(wù)。所有這些都是因?yàn)閬嗰R遜明白書(shū)不僅僅是書(shū),而相機(jī)也不僅僅是相機(jī),用戶也不僅僅就是一個(gè)用戶。用戶會(huì)產(chǎn)生一連串“數(shù)據(jù)排氣”,挖據(jù)它并使用它,那么相機(jī)就變成了一堆數(shù)據(jù)可以用來(lái)和用戶的行為進(jìn)行關(guān)聯(lián)。每次用戶訪問(wèn)他們的網(wǎng)站就會(huì)留下數(shù)據(jù)。
把所有這些應(yīng)用聯(lián)系到一起的紐帶就是從用戶那里采集的數(shù)據(jù)來(lái)提供附加價(jià)值。無(wú)論這個(gè)數(shù)據(jù)是搜索關(guān)鍵詞、語(yǔ)音樣本或者產(chǎn)品評(píng)價(jià),現(xiàn)在用戶已經(jīng)成為他們所使用的產(chǎn)品的反饋環(huán)中重要的一環(huán)。這就是數(shù)據(jù)科學(xué)的開(kāi)端。
在過(guò)去的幾年里,可用的數(shù)據(jù)量呈爆炸性的增長(zhǎng)。不管是網(wǎng)頁(yè)日志數(shù)據(jù)、推特流、在線交易數(shù)據(jù)、“公民科學(xué)”、傳感器數(shù)據(jù)、政府?dāng)?shù)據(jù)或其他什么數(shù)據(jù),現(xiàn)在找到數(shù)據(jù)已經(jīng)不再是問(wèn)題,如何使用這些數(shù)據(jù)才是關(guān)鍵。不僅僅是企業(yè)在使用它自己的數(shù)據(jù)或者用戶貢獻(xiàn)的數(shù)據(jù)。越來(lái)越常見(jiàn)的是把來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行“聚合”?!对赗里進(jìn)行數(shù)據(jù)聚合》分析了費(fèi)城郡的房屋抵押贖回權(quán)的情況。它從郡長(zhǎng)辦公室獲得了房屋抵押贖回權(quán)的公開(kāi)記錄,抽取了其中的地址信息,再使用雅虎把地址信息轉(zhuǎn)換成了經(jīng)緯度。然后使用這些地理位置信息把房屋抵押贖回權(quán)的情況繪制在地圖上(另外一個(gè)數(shù)據(jù)源)。再把它們按社區(qū)、房屋估值、社區(qū)人均收入和其他社會(huì)—-經(jīng)濟(jì)因素進(jìn)行分組。
現(xiàn)在每個(gè)企業(yè)、創(chuàng)業(yè)公司、非營(yíng)利組織或項(xiàng)目網(wǎng)站,當(dāng)他們想吸引某個(gè)社群的時(shí)候所面臨的問(wèn)題是,如何有效的使用數(shù)據(jù)。不僅僅是他們自己的數(shù)據(jù),還包括所有可用的和相關(guān)的數(shù)據(jù)。有效的使用數(shù)據(jù)需要與傳統(tǒng)的統(tǒng)計(jì)不同的技能。傳統(tǒng)的穿職業(yè)西裝的精算師們進(jìn)行著神秘但其實(shí)是早已明確定義的分析。而數(shù)據(jù)科學(xué)與統(tǒng)計(jì)的不同是數(shù)據(jù)科學(xué)是一種全盤(pán)考慮的方法。我們?cè)絹?lái)越多的在非正規(guī)的渠道里找到數(shù)據(jù),數(shù)據(jù)科學(xué)正隨著數(shù)據(jù)的不斷收集、把數(shù)據(jù)轉(zhuǎn)換為可處理的形式、讓數(shù)據(jù)自己講故事以及把故事展現(xiàn)給別人不斷演進(jìn)。
為了能感受到什么樣的技術(shù)是數(shù)據(jù)科學(xué)需要的,讓我們首先看看數(shù)據(jù)的生命周期:數(shù)據(jù)從哪里來(lái),如何使用,以及數(shù)據(jù)到哪里去。
數(shù)據(jù)從哪里來(lái)
數(shù)據(jù)無(wú)處不在,政府、網(wǎng)站、商業(yè)伙伴、甚至你自己的身體。雖然我們不是完全淹沒(méi)在數(shù)據(jù)的海洋里,但可以看到幾乎所有的東西都可以(甚至已經(jīng))被測(cè)量了。在O’Reilly傳媒公司,我們經(jīng)常會(huì)把來(lái)自Nielsen Book Scan的行業(yè)數(shù)據(jù)和我們自己的銷(xiāo)售數(shù)據(jù)、公開(kāi)的亞馬遜數(shù)據(jù)、甚至就業(yè)數(shù)據(jù)組合起來(lái)研究出版行業(yè)發(fā)生了什么。一些網(wǎng)站,比如Infochimps和Factual,可以提供很多大型數(shù)據(jù)集的連接,包括天氣數(shù)據(jù)、MySpace的活動(dòng)流數(shù)據(jù)、體育活動(dòng)比賽記錄等。Factual網(wǎng)站還招募用戶來(lái)更新和改進(jìn)它的數(shù)據(jù)集。這些數(shù)據(jù)集覆蓋了從內(nèi)分泌學(xué)家到徒步小道等的廣泛內(nèi)容。
很多我們現(xiàn)在所用的數(shù)據(jù)都是Web2.0的產(chǎn)物,也遵守摩爾定律。Web讓人們花更多的時(shí)間在線,同時(shí)也留下了他們的瀏覽軌跡。移動(dòng)端應(yīng)用則留下了更豐富的數(shù)據(jù)軌跡,因?yàn)楹芏鄳?yīng)用都被標(biāo)注了地理位置信息或附帶著音頻和視頻。這些數(shù)據(jù)都可以被挖據(jù)。結(jié)帳點(diǎn)設(shè)備和經(jīng)常購(gòu)物者購(gòu)物卡使得獲取消費(fèi)者的所有交易信息(不光是在線信息)成為可能。如果我們不能存儲(chǔ)這些數(shù)據(jù),那么所有這些數(shù)據(jù)就將沒(méi)有用處。這里就是摩爾定律起作用的地方。自80年代早期開(kāi)始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒(méi)考慮處理位數(shù)和核數(shù)的增加)。但是我們看到存儲(chǔ)能力的增加則更為巨大。內(nèi)存價(jià)格從1000美元每兆字節(jié)降到25美元每吉字節(jié),幾乎是40000倍的降低。這還沒(méi)考慮內(nèi)存尺寸的減少和速途的增加。日立公司在1982年制造了個(gè)吉字節(jié)的硬盤(pán),重大概250磅?,F(xiàn)在千吉字節(jié)級(jí)別的硬盤(pán)已經(jīng)是普通消費(fèi)品,而32吉字節(jié)的微存儲(chǔ)卡只有半克重。無(wú)論是每克重的比特?cái)?shù)、每美元比特?cái)?shù)或者總存儲(chǔ)量,存儲(chǔ)能力的提升已經(jīng)超過(guò)了CPU速度的增幅。
摩爾定律應(yīng)用于數(shù)據(jù)的重要性不僅是極客的技巧。數(shù)據(jù)的增長(zhǎng)總是能填充滿你的存儲(chǔ)。硬盤(pán)容量越大,也就能找到更多的數(shù)據(jù)把它填滿。瀏覽網(wǎng)頁(yè)后留下的“數(shù)據(jù)排氣”、在臉書(shū)上添加某人為朋友或是在本地超市買(mǎi)東西,這些數(shù)據(jù)都被仔細(xì)的收集下來(lái)并進(jìn)行分析。數(shù)據(jù)存儲(chǔ)的增加就要求有更精致的分析來(lái)使用這些數(shù)據(jù)。這就是數(shù)據(jù)科學(xué)的基石。