国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

      正在閱讀:解讀:數(shù)據(jù)科學(xué)含義及把數(shù)據(jù)變成產(chǎn)品的方法

      解讀:數(shù)據(jù)科學(xué)含義及把數(shù)據(jù)變成產(chǎn)品的方法

      2016-05-13 09:04:10來(lái)源:數(shù)據(jù)觀 原標(biāo)題:深解讀丨什么是數(shù)據(jù)科學(xué)?如何把數(shù)據(jù)變成產(chǎn)品? 關(guān)鍵詞:數(shù)據(jù)科學(xué)數(shù)據(jù)分析數(shù)據(jù)平臺(tái)閱讀量:33084

      導(dǎo)讀:據(jù)哈爾?瓦里安說(shuō),統(tǒng)計(jì)學(xué)家是下一個(gè)性感的工作。五年前,在《什么是Web2.0》里蒂姆?奧萊利說(shuō)“數(shù)據(jù)是下一個(gè)Intel Inside”。
        【中國(guó)智能制造網(wǎng) 學(xué)術(shù)論文】據(jù)哈爾•瓦里安說(shuō),統(tǒng)計(jì)學(xué)家是下一個(gè)性感的工作。五年前,在《什么是Web2.0》里蒂姆•奧萊利說(shuō)“數(shù)據(jù)是下一個(gè)Intel Inside”。但是這句話到底是什么意思?為什么我們突然間開(kāi)始關(guān)注統(tǒng)計(jì)學(xué)和數(shù)據(jù)?在這篇文章里,我會(huì)檢視數(shù)據(jù)科學(xué)的各個(gè)方面,技術(shù)、企業(yè)和獨(dú)特技能集合。
        解讀:數(shù)據(jù)科學(xué)含義及把數(shù)據(jù)變成產(chǎn)品的方法
       
        互聯(lián)網(wǎng)上充斥著“數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用”。幾乎任何的電子商務(wù)應(yīng)用都是數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用。這里面前端的頁(yè)面靠背后的數(shù)據(jù)庫(kù)來(lái)支持,它們兩者之間靠中間件來(lái)連接其他的數(shù)據(jù)庫(kù)和數(shù)據(jù)服務(wù)(信用卡公司、銀行等等)。但是僅僅使用數(shù)據(jù)并不是我們所說(shuō)的真正的“數(shù)據(jù)科學(xué)”。一個(gè)數(shù)據(jù)應(yīng)用從數(shù)據(jù)里獲取價(jià)值,同時(shí)創(chuàng)造更多的數(shù)據(jù)作為產(chǎn)出。它不只是帶有數(shù)據(jù)的一個(gè)應(yīng)用,它就是一個(gè)數(shù)據(jù)產(chǎn)品。而數(shù)據(jù)科學(xué)則是能創(chuàng)建這樣的數(shù)據(jù)產(chǎn)品。
        
        互聯(lián)網(wǎng)上早期的數(shù)據(jù)產(chǎn)品之一就是CDDB數(shù)據(jù)庫(kù)。CDDB數(shù)據(jù)庫(kù)的意識(shí)到基于CD(音頻光盤(pán))里面的每首歌曲的確切長(zhǎng)度,任何CD都有一個(gè)的數(shù)字簽名。Gracenote公司創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù),記錄著歌曲的長(zhǎng)度,并和專輯的元數(shù)據(jù)(歌曲名稱、歌手和專輯名稱)數(shù)據(jù)庫(kù)關(guān)聯(lián)。如果你曾經(jīng)使用iTunes來(lái)找CD,你就是在使用這個(gè)數(shù)據(jù)庫(kù)服務(wù)。iTunes會(huì)先獲取每首歌的長(zhǎng)度,然后發(fā)給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自制的CD)在數(shù)據(jù)庫(kù)里沒(méi)有記錄,你也可以在CDDB里創(chuàng)造一個(gè)無(wú)名專輯的題目。盡管看起來(lái)很簡(jiǎn)單,但這是革命性的。CDDB把音樂(lè)看成是數(shù)據(jù),而不僅僅是聲音,并從中創(chuàng)造了新的價(jià)值。他們的商業(yè)模式和傳統(tǒng)的銷(xiāo)售音樂(lè)、共享音樂(lè)或者分析音樂(lè)口味等業(yè)務(wù)的模式截然不同,盡管這些業(yè)務(wù)也可以是“數(shù)據(jù)產(chǎn)品”。CDDB完全是視音樂(lè)的問(wèn)題為數(shù)據(jù)的問(wèn)題。
        
        谷歌是創(chuàng)造數(shù)據(jù)產(chǎn)品的專家,這里列幾個(gè)例子
        
        谷歌的創(chuàng)新是在于其意識(shí)到搜索引擎可以使用入鏈接而不是網(wǎng)頁(yè)上的文字。谷歌的PageRank算法是早一批使用網(wǎng)頁(yè)以外的數(shù)據(jù)的算法之一,特別是網(wǎng)頁(yè)的入鏈接數(shù),即其他網(wǎng)頁(yè)指向某網(wǎng)頁(yè)的數(shù)量。記錄鏈接讓谷歌的搜索引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關(guān)鍵的一條。
        
        拼寫(xiě)檢查不是一個(gè)非常難的任務(wù),但是通過(guò)在用戶輸入搜索關(guān)鍵詞時(shí),向錯(cuò)誤拼寫(xiě)推薦正確的用法并查看用戶是如何回應(yīng)推薦,谷歌讓拼寫(xiě)檢查的準(zhǔn)確率大幅提高。他們還建立起了常見(jiàn)錯(cuò)誤拼寫(xiě)的字典,其中還包括對(duì)應(yīng)的正確拼寫(xiě)以及錯(cuò)誤拼寫(xiě)常見(jiàn)的上下文。
        
        語(yǔ)音識(shí)別也是一個(gè)非常艱難的任務(wù),而且也還沒(méi)有完全被解決。但谷歌通過(guò)使用自己收集的語(yǔ)音數(shù)據(jù),已經(jīng)開(kāi)始了針對(duì)這個(gè)難題的一個(gè)宏大的嘗試。并已把語(yǔ)音搜索集成到了核心搜索引擎里。
        
        在2009年豬流感的傳播期,谷歌能夠通過(guò)跟蹤與流感相關(guān)的搜索來(lái)跟蹤這次豬流感的爆發(fā)和傳播過(guò)程。
        
        通過(guò)分析搜索跟流感相關(guān)的用戶在不同地區(qū)的情況,谷歌能夠比美國(guó)國(guó)家疾病控制中心提前兩周發(fā)現(xiàn)豬流感的爆發(fā)和傳播趨勢(shì)。
        
        谷歌并不是一家知道如何使用數(shù)據(jù)的公司。臉書(shū)和領(lǐng)英都是用朋友關(guān)系來(lái)建議用戶他們可能認(rèn)識(shí)或應(yīng)該認(rèn)識(shí)的其他人。亞馬遜會(huì)保存你的搜素關(guān)鍵詞,并使用別人的搜索詞來(lái)關(guān)聯(lián)你的搜索,從而能令人驚訝地做出恰當(dāng)?shù)纳唐吠扑]。這些推薦就是數(shù)據(jù)產(chǎn)品,能幫助推進(jìn)亞馬遜的傳統(tǒng)的零售業(yè)務(wù)。所有這些都是因?yàn)閬嗰R遜明白書(shū)不僅僅是書(shū),而相機(jī)也不僅僅是相機(jī),用戶也不僅僅就是一個(gè)用戶。用戶會(huì)產(chǎn)生一連串“數(shù)據(jù)排氣”,挖據(jù)它并使用它,那么相機(jī)就變成了一堆數(shù)據(jù)可以用來(lái)和用戶的行為進(jìn)行關(guān)聯(lián)。每次用戶訪問(wèn)他們的網(wǎng)站就會(huì)留下數(shù)據(jù)。
        
        把所有這些應(yīng)用聯(lián)系到一起的紐帶就是從用戶那里采集的數(shù)據(jù)來(lái)提供附加價(jià)值。無(wú)論這個(gè)數(shù)據(jù)是搜索關(guān)鍵詞、語(yǔ)音樣本或者產(chǎn)品評(píng)價(jià),現(xiàn)在用戶已經(jīng)成為他們所使用的產(chǎn)品的反饋環(huán)中重要的一環(huán)。這就是數(shù)據(jù)科學(xué)的開(kāi)端。
        
        在過(guò)去的幾年里,可用的數(shù)據(jù)量呈爆炸性的增長(zhǎng)。不管是網(wǎng)頁(yè)日志數(shù)據(jù)、推特流、在線交易數(shù)據(jù)、“公民科學(xué)”、傳感器數(shù)據(jù)、政府?dāng)?shù)據(jù)或其他什么數(shù)據(jù),現(xiàn)在找到數(shù)據(jù)已經(jīng)不再是問(wèn)題,如何使用這些數(shù)據(jù)才是關(guān)鍵。不僅僅是企業(yè)在使用它自己的數(shù)據(jù)或者用戶貢獻(xiàn)的數(shù)據(jù)。越來(lái)越常見(jiàn)的是把來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行“聚合”?!对赗里進(jìn)行數(shù)據(jù)聚合》分析了費(fèi)城郡的房屋抵押贖回權(quán)的情況。它從郡長(zhǎng)辦公室獲得了房屋抵押贖回權(quán)的公開(kāi)記錄,抽取了其中的地址信息,再使用雅虎把地址信息轉(zhuǎn)換成了經(jīng)緯度。然后使用這些地理位置信息把房屋抵押贖回權(quán)的情況繪制在地圖上(另外一個(gè)數(shù)據(jù)源)。再把它們按社區(qū)、房屋估值、社區(qū)人均收入和其他社會(huì)—-經(jīng)濟(jì)因素進(jìn)行分組。
        
        現(xiàn)在每個(gè)企業(yè)、創(chuàng)業(yè)公司、非營(yíng)利組織或項(xiàng)目網(wǎng)站,當(dāng)他們想吸引某個(gè)社群的時(shí)候所面臨的問(wèn)題是,如何有效的使用數(shù)據(jù)。不僅僅是他們自己的數(shù)據(jù),還包括所有可用的和相關(guān)的數(shù)據(jù)。有效的使用數(shù)據(jù)需要與傳統(tǒng)的統(tǒng)計(jì)不同的技能。傳統(tǒng)的穿職業(yè)西裝的精算師們進(jìn)行著神秘但其實(shí)是早已明確定義的分析。而數(shù)據(jù)科學(xué)與統(tǒng)計(jì)的不同是數(shù)據(jù)科學(xué)是一種全盤(pán)考慮的方法。我們?cè)絹?lái)越多的在非正規(guī)的渠道里找到數(shù)據(jù),數(shù)據(jù)科學(xué)正隨著數(shù)據(jù)的不斷收集、把數(shù)據(jù)轉(zhuǎn)換為可處理的形式、讓數(shù)據(jù)自己講故事以及把故事展現(xiàn)給別人不斷演進(jìn)。
        
        為了能感受到什么樣的技術(shù)是數(shù)據(jù)科學(xué)需要的,讓我們首先看看數(shù)據(jù)的生命周期:數(shù)據(jù)從哪里來(lái),如何使用,以及數(shù)據(jù)到哪里去。
        
        數(shù)據(jù)從哪里來(lái)
        
        數(shù)據(jù)無(wú)處不在,政府、網(wǎng)站、商業(yè)伙伴、甚至你自己的身體。雖然我們不是完全淹沒(méi)在數(shù)據(jù)的海洋里,但可以看到幾乎所有的東西都可以(甚至已經(jīng))被測(cè)量了。在O’Reilly傳媒公司,我們經(jīng)常會(huì)把來(lái)自Nielsen Book Scan的行業(yè)數(shù)據(jù)和我們自己的銷(xiāo)售數(shù)據(jù)、公開(kāi)的亞馬遜數(shù)據(jù)、甚至就業(yè)數(shù)據(jù)組合起來(lái)研究出版行業(yè)發(fā)生了什么。一些網(wǎng)站,比如Infochimps和Factual,可以提供很多大型數(shù)據(jù)集的連接,包括天氣數(shù)據(jù)、MySpace的活動(dòng)流數(shù)據(jù)、體育活動(dòng)比賽記錄等。Factual網(wǎng)站還招募用戶來(lái)更新和改進(jìn)它的數(shù)據(jù)集。這些數(shù)據(jù)集覆蓋了從內(nèi)分泌學(xué)家到徒步小道等的廣泛內(nèi)容。
        
        很多我們現(xiàn)在所用的數(shù)據(jù)都是Web2.0的產(chǎn)物,也遵守摩爾定律。Web讓人們花更多的時(shí)間在線,同時(shí)也留下了他們的瀏覽軌跡。移動(dòng)端應(yīng)用則留下了更豐富的數(shù)據(jù)軌跡,因?yàn)楹芏鄳?yīng)用都被標(biāo)注了地理位置信息或附帶著音頻和視頻。這些數(shù)據(jù)都可以被挖據(jù)。結(jié)帳點(diǎn)設(shè)備和經(jīng)常購(gòu)物者購(gòu)物卡使得獲取消費(fèi)者的所有交易信息(不光是在線信息)成為可能。如果我們不能存儲(chǔ)這些數(shù)據(jù),那么所有這些數(shù)據(jù)就將沒(méi)有用處。這里就是摩爾定律起作用的地方。自80年代早期開(kāi)始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒(méi)考慮處理位數(shù)和核數(shù)的增加)。但是我們看到存儲(chǔ)能力的增加則更為巨大。內(nèi)存價(jià)格從1000美元每兆字節(jié)降到25美元每吉字節(jié),幾乎是40000倍的降低。這還沒(méi)考慮內(nèi)存尺寸的減少和速途的增加。日立公司在1982年制造了個(gè)吉字節(jié)的硬盤(pán),重大概250磅?,F(xiàn)在千吉字節(jié)級(jí)別的硬盤(pán)已經(jīng)是普通消費(fèi)品,而32吉字節(jié)的微存儲(chǔ)卡只有半克重。無(wú)論是每克重的比特?cái)?shù)、每美元比特?cái)?shù)或者總存儲(chǔ)量,存儲(chǔ)能力的提升已經(jīng)超過(guò)了CPU速度的增幅。
        
        摩爾定律應(yīng)用于數(shù)據(jù)的重要性不僅是極客的技巧。數(shù)據(jù)的增長(zhǎng)總是能填充滿你的存儲(chǔ)。硬盤(pán)容量越大,也就能找到更多的數(shù)據(jù)把它填滿。瀏覽網(wǎng)頁(yè)后留下的“數(shù)據(jù)排氣”、在臉書(shū)上添加某人為朋友或是在本地超市買(mǎi)東西,這些數(shù)據(jù)都被仔細(xì)的收集下來(lái)并進(jìn)行分析。數(shù)據(jù)存儲(chǔ)的增加就要求有更精致的分析來(lái)使用這些數(shù)據(jù)。這就是數(shù)據(jù)科學(xué)的基石。
      我要評(píng)論
      版權(quán)與免責(zé)聲明:

      凡本站注明“來(lái)源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。

      本站轉(zhuǎn)載并注明自其它來(lái)源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí),必須保留本站注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來(lái)源:智能制造網(wǎng)”,本站將依法追究責(zé)任。

      鑒于本站稿件來(lái)源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

      不想錯(cuò)過(guò)行業(yè)資訊?

      訂閱 智能制造網(wǎng)APP

      一鍵篩選來(lái)訂閱

      信息更豐富

      推薦產(chǎn)品/PRODUCT 更多
      智造商城:

      PLC工控機(jī)嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機(jī)械包裝機(jī)械工程機(jī)械倉(cāng)儲(chǔ)物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機(jī)器人3D打印設(shè)備生物識(shí)別傳感器電機(jī)電線電纜輸配電設(shè)備電子元器件更多

      我要投稿
      • 投稿請(qǐng)發(fā)送郵件至:(郵件標(biāo)題請(qǐng)備注“投稿”)1271141964.qq.com
      • 聯(lián)系電話0571-89719789
      工業(yè)4.0時(shí)代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
      智能制造網(wǎng)APP

      功能豐富 實(shí)時(shí)交流

      智能制造網(wǎng)小程序

      訂閱獲取更多服務(wù)

      微信公眾號(hào)

      關(guān)注我們

      抖音

      智能制造網(wǎng)

      抖音號(hào):gkzhan

      打開(kāi)抖音 搜索頁(yè)掃一掃

      視頻號(hào)

      智能制造網(wǎng)

      公眾號(hào):智能制造網(wǎng)

      打開(kāi)微信掃碼關(guān)注視頻號(hào)

      快手

      智能制造網(wǎng)

      快手ID:gkzhan2006

      打開(kāi)快手 掃一掃關(guān)注
      意見(jiàn)反饋
      我要投稿
      我知道了