機器學(xué)習(xí)是一種由計算機自動從數(shù)據(jù)中獲得知識或規(guī)則的技術(shù)。豐田美國于2015年4月采用機器學(xué)習(xí)技術(shù)開發(fā)出了一種系統(tǒng),可由計算機根據(jù)內(nèi)容,對“推特”(Twitter)等SNS(社交網(wǎng)絡(luò)服務(wù))上用戶寫下的留言進行自動分類。
用戶在SNS上針對豐田寫下的留言是關(guān)于“豐田車性能”的,還是關(guān)于“豐田專賣店(經(jīng)銷商)服務(wù)”的,亦或是關(guān)于“豐田CM”的呢?計算機通過對大數(shù)據(jù)進行機器學(xué)習(xí),自動找出了用來進行這種判斷的“規(guī)則”。并利用Spark進行了這方面的相關(guān)處理。
Kursar稱,“SNS上的留言數(shù)據(jù)非常龐大,由人來查看這些內(nèi)容是不可能的。通過開發(fā)出這種可自動判斷出用戶留言內(nèi)容的系統(tǒng),可以從龐大的數(shù)據(jù)中找出有助于改善產(chǎn)品和服務(wù)的有益留言”。
利用存儲器進行高速處理
為什么Spark能夠高速進行機器學(xué)習(xí)處理呢?下面就介紹一下其工作原理。
機器學(xué)習(xí)可根據(jù)相關(guān)數(shù)據(jù),采用統(tǒng)計方法,針對計算機制定的“規(guī)則”與現(xiàn)實規(guī)則的相符程度進行多次驗證。Hadoop在每次進行這種驗證處理時,都會從硬盤(HDD)中讀取數(shù)據(jù),或者將數(shù)據(jù)寫入硬盤。因此,需要花費較長時間來處理。
而Spark通過將所需數(shù)據(jù)保存在存儲器上來進行這種驗證處理。由于不使用低速硬盤,因此與Hadoop相比,可以縮短處理時間。
而且,Spark還可以與Hadoop共存。原因是Spark可以對Hadoop的標準存儲器“HDFS”保存的數(shù)據(jù)進行處理。Spark的主要開發(fā)者之一、NTT DATA基礎(chǔ)系統(tǒng)業(yè)務(wù)本部的猿田浩輔表示,“Spark可對Hadoop起到補充作用”。對于現(xiàn)有Hadoop用戶而言,Spark能夠輕松導(dǎo)入,因此該軟件在短短1年內(nèi)就迅速普及開來。
在Spark峰會上,Databricks首席技術(shù)官(CTO)Matei Zaharia介紹了Spark的用戶等情況。
最大用戶為騰訊,服務(wù)器數(shù)量達到8000臺
Zaharia稱,目前Spark使用規(guī)模最大的企業(yè)是中國SNS運營商騰訊(Tencent),該公司在8000臺服務(wù)器上使用了Spark。中國EC(電商)阿里巴巴集團則使用Spark一次處理高達1PB(Peta Byte)的數(shù)據(jù)。
中國企業(yè)對使用Spark非常積極。在中國大型搜索網(wǎng)站百度的美國法人百度美國擔(dān)任資深架構(gòu)師的James Peng在2015年Spark 峰會上登臺發(fā)表主題演講,介紹了百度使用Spark的情況(照片3)。Peng表示,百度目前使用1000多臺服務(wù)器來運行Spark。在互聯(lián)網(wǎng)廣告、搜索、地圖服務(wù)、EC等業(yè)務(wù)領(lǐng)域均使用了Spark。
Peng介紹說,“對于百度的機器學(xué)習(xí)來說,Spark是不可缺少的平臺”。該公司目前正在考慮擴展Spark,使其能夠用于以人腦為模型的機器學(xué)習(xí)方法“深度學(xué)習(xí)(Deep Learning)”的處理。
Airbnb通過機器學(xué)習(xí)技術(shù)制作需求預(yù)測模型
此外,Airbnb及Uber等公司也在Spark峰會上發(fā)表演講,介紹了Spark的導(dǎo)入實例。據(jù)Airbnb介紹,該公司使用Spark開發(fā)出了一種系統(tǒng),該系統(tǒng)能以天為單位預(yù)測全世界不同城市的住宿需求,為房主確定房間價格提供幫助。
在Airbnb網(wǎng)站上,出租房間的價格每天都在發(fā)生變化。這些房間的價格是根據(jù)Airbnb向房主提供的“定價輔助系統(tǒng)”來確定的。定價輔助系統(tǒng)根據(jù)計算機對50億個住宿相關(guān)數(shù)據(jù)進行機器學(xué)習(xí)之后制作出來的需求預(yù)測模型,向房主建議合理的房間價格。
雖然Uber并未透露在什么業(yè)務(wù)中使用了Spark,但表示多個業(yè)務(wù)部門都在使用Spark,同時該公司還介紹了多個部門共同使用Spark時的技術(shù)訣竅。
在Spark峰會上大放異彩的是CIA首席信息官(CIO)道格·沃爾夫(Doug Wolfe)的主題演講(照片4)。CIA從2014年開始使用Spark,目前已有200臺服務(wù)器使用Spark。沃爾夫認為,“CIA必須從龐大的數(shù)據(jù)中及時抓住一些征兆。因此,數(shù)據(jù)分析速度非常重要”。他表示,要提高數(shù)據(jù)分析速度,必須使用Spark。
CIA需要OSS
沃爾夫還介紹了CIA積極使用Spark等OSS的情況。CIA于2014年委托Amazon Web Services(AWS)在CIA數(shù)據(jù)中心內(nèi)構(gòu)建規(guī)格與AWS的公有云完全相同的云環(huán)境。沃爾夫表示,“AWS的吸引力是可以使用包括OSS在內(nèi)的多種軟件,AWS本身已形成OSS的‘生態(tài)系統(tǒng)’。我們也需要在CIA的云中建立與AWS相同的生態(tài)系統(tǒng)”。
在此次的Spark峰會上,除了豐田的美國法人之外,并沒有其他日本企業(yè)發(fā)表演講。不過,在2014年Spark峰會上,NTT DATA發(fā)表了演講,而且在本屆Spark峰會舉行期間,NTT DATA的猿田就任Spark核心開發(fā)者“Comitta”。Spark的星星之火也已開始燃燒到日本。