回到頂部

大數(shù)據(jù)的下一個主角是“Spark” 豐田及CIA等紛紛采用(2)

來源：日經(jīng)技術(shù)在線作者：中田敦硅谷支局 2015-07-07 08:00點擊：掃描到手機

機器學(xué)習(xí)是一種由計算機自動從數(shù)據(jù)中獲得知識或規(guī)則的技術(shù)。豐田美國于2015年4月采用機器學(xué)習(xí)技術(shù)開發(fā)出了一種系統(tǒng)，可由計算機根據(jù)內(nèi)容，對“推特

機器學(xué)習(xí)是一種由計算機自動從數(shù)據(jù)中獲得知識或規(guī)則的技術(shù)。豐田美國于2015年4月采用機器學(xué)習(xí)技術(shù)開發(fā)出了一種系統(tǒng)，可由計算機根據(jù)內(nèi)容，對“推特”（Twitter）等SNS（社交網(wǎng)絡(luò)服務(wù)）上用戶寫下的留言進行自動分類。

用戶在SNS上針對豐田寫下的留言是關(guān)于“豐田車性能”的，還是關(guān)于“豐田專賣店（經(jīng)銷商）服務(wù)”的，亦或是關(guān)于“豐田CM”的呢？計算機通過對大數(shù)據(jù)進行機器學(xué)習(xí)，自動找出了用來進行這種判斷的“規(guī)則”。并利用Spark進行了這方面的相關(guān)處理。

Kursar稱，“SNS上的留言數(shù)據(jù)非常龐大，由人來查看這些內(nèi)容是不可能的。通過開發(fā)出這種可自動判斷出用戶留言內(nèi)容的系統(tǒng)，可以從龐大的數(shù)據(jù)中找出有助于改善產(chǎn)品和服務(wù)的有益留言”。

利用存儲器進行高速處理

為什么Spark能夠高速進行機器學(xué)習(xí)處理呢？下面就介紹一下其工作原理。

機器學(xué)習(xí)可根據(jù)相關(guān)數(shù)據(jù)，采用統(tǒng)計方法，針對計算機制定的“規(guī)則”與現(xiàn)實規(guī)則的相符程度進行多次驗證。Hadoop在每次進行這種驗證處理時，都會從硬盤（HDD）中讀取數(shù)據(jù)，或者將數(shù)據(jù)寫入硬盤。因此，需要花費較長時間來處理。

而Spark通過將所需數(shù)據(jù)保存在存儲器上來進行這種驗證處理。由于不使用低速硬盤，因此與Hadoop相比，可以縮短處理時間。

而且，Spark還可以與Hadoop共存。原因是Spark可以對Hadoop的標準存儲器“HDFS”保存的數(shù)據(jù)進行處理。Spark的主要開發(fā)者之一、NTT DATA基礎(chǔ)系統(tǒng)業(yè)務(wù)本部的猿田浩輔表示，“Spark可對Hadoop起到補充作用”。對于現(xiàn)有Hadoop用戶而言，Spark能夠輕松導(dǎo)入，因此該軟件在短短1年內(nèi)就迅速普及開來。

在Spark峰會上，Databricks首席技術(shù)官（CTO）Matei Zaharia介紹了Spark的用戶等情況。

最大用戶為騰訊，服務(wù)器數(shù)量達到8000臺

Zaharia稱，目前Spark使用規(guī)模最大的企業(yè)是中國SNS運營商騰訊（Tencent），該公司在8000臺服務(wù)器上使用了Spark。中國EC（電商）阿里巴巴集團則使用Spark一次處理高達1PB（Peta Byte）的數(shù)據(jù)。

中國企業(yè)對使用Spark非常積極。在中國大型搜索網(wǎng)站百度的美國法人百度美國擔(dān)任資深架構(gòu)師的James Peng在2015年Spark 峰會上登臺發(fā)表主題演講，介紹了百度使用Spark的情況（照片3）。Peng表示，百度目前使用1000多臺服務(wù)器來運行Spark。在互聯(lián)網(wǎng)廣告、搜索、地圖服務(wù)、EC等業(yè)務(wù)領(lǐng)域均使用了Spark。

Peng介紹說，“對于百度的機器學(xué)習(xí)來說，Spark是不可缺少的平臺”。該公司目前正在考慮擴展Spark，使其能夠用于以人腦為模型的機器學(xué)習(xí)方法“深度學(xué)習(xí)（Deep Learning）”的處理。

Airbnb通過機器學(xué)習(xí)技術(shù)制作需求預(yù)測模型

此外，Airbnb及Uber等公司也在Spark峰會上發(fā)表演講，介紹了Spark的導(dǎo)入實例。據(jù)Airbnb介紹，該公司使用Spark開發(fā)出了一種系統(tǒng)，該系統(tǒng)能以天為單位預(yù)測全世界不同城市的住宿需求，為房主確定房間價格提供幫助。

在Airbnb網(wǎng)站上，出租房間的價格每天都在發(fā)生變化。這些房間的價格是根據(jù)Airbnb向房主提供的“定價輔助系統(tǒng)”來確定的。定價輔助系統(tǒng)根據(jù)計算機對50億個住宿相關(guān)數(shù)據(jù)進行機器學(xué)習(xí)之后制作出來的需求預(yù)測模型，向房主建議合理的房間價格。

雖然Uber并未透露在什么業(yè)務(wù)中使用了Spark，但表示多個業(yè)務(wù)部門都在使用Spark，同時該公司還介紹了多個部門共同使用Spark時的技術(shù)訣竅。

在Spark峰會上大放異彩的是CIA首席信息官（CIO）道格·沃爾夫（Doug Wolfe）的主題演講（照片4）。CIA從2014年開始使用Spark，目前已有200臺服務(wù)器使用Spark。沃爾夫認為，“CIA必須從龐大的數(shù)據(jù)中及時抓住一些征兆。因此，數(shù)據(jù)分析速度非常重要”。他表示，要提高數(shù)據(jù)分析速度，必須使用Spark。

CIA需要OSS

沃爾夫還介紹了CIA積極使用Spark等OSS的情況。CIA于2014年委托Amazon Web Services（AWS）在CIA數(shù)據(jù)中心內(nèi)構(gòu)建規(guī)格與AWS的公有云完全相同的云環(huán)境。沃爾夫表示，“AWS的吸引力是可以使用包括OSS在內(nèi)的多種軟件，AWS本身已形成OSS的‘生態(tài)系統(tǒng)’。我們也需要在CIA的云中建立與AWS相同的生態(tài)系統(tǒng)”。

在此次的Spark峰會上，除了豐田的美國法人之外，并沒有其他日本企業(yè)發(fā)表演講。不過，在2014年Spark峰會上，NTT DATA發(fā)表了演講，而且在本屆Spark峰會舉行期間，NTT DATA的猿田就任Spark核心開發(fā)者“Comitta”。Spark的星星之火也已開始燃燒到日本。

[責(zé)任編輯：中國電池網(wǎng)]

免責(zé)聲明：本文僅代表作者個人觀點，與電池網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性，本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。涉及資本市場或上市公司內(nèi)容也不構(gòu)成任何投資建議，投資者據(jù)此操作，風(fēng)險自擔(dān)！

凡本網(wǎng)注明?“來源：XXX（非電池網(wǎng)）”的作品，凡屬媒體采訪本網(wǎng)或本網(wǎng)協(xié)調(diào)的專家、企業(yè)家等資源的稿件，轉(zhuǎn)載目的在于傳遞行業(yè)更多的信息或觀點，并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。

如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的，請在一周內(nèi)進行，以便我們及時處理、刪除。電話：400-6197-660-2?郵箱：119@itdcw.com