![]() 在發(fā)展歷程上,大數(shù)據(jù)與云計(jì)算很類似,開始都搞不清是什么概念,但有很多人在說,難免南轅北轍。一個非常有趣現(xiàn)象:會有很多人說大數(shù)據(jù)不是什么,但很少有人說是什么。但這都不妨礙大數(shù)據(jù)成為產(chǎn)業(yè)發(fā)展趨勢。 當(dāng)務(wù)之急是不糾纏于概念,直接關(guān)注有哪些應(yīng)用可以落地,可以采用哪些大數(shù)據(jù)技術(shù)。
技術(shù)三分天下
傳統(tǒng)數(shù)據(jù)處理技術(shù)以數(shù)據(jù)庫技術(shù)為主,主要應(yīng)用在聯(lián)機(jī)事物處理(OLTP)的應(yīng)用場合,后來的數(shù)據(jù)倉庫、數(shù)據(jù)集市都是數(shù)據(jù)庫技術(shù)的發(fā)展和延伸。數(shù)據(jù)庫技術(shù)已經(jīng)有30年的歷史,可以將其概括為一句話“一種架構(gòu)支持所有應(yīng)用”。數(shù)據(jù)庫技術(shù)以結(jié)構(gòu)化數(shù)據(jù)為主,而結(jié)構(gòu)化數(shù)據(jù)也是價(jià)值密度最高的數(shù)據(jù)。而半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)價(jià)值密度相對比較低,如果采用傳統(tǒng)數(shù)據(jù)庫技術(shù)處理這些數(shù)據(jù),會被認(rèn)為得不償失。
大數(shù)據(jù)時(shí)代,以Hadoop為代表的NoSQL技術(shù),以列式數(shù)據(jù)處理為代表的MPP NewSQL技術(shù)應(yīng)運(yùn)而生,為半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)提供了技術(shù)支撐基礎(chǔ),以互聯(lián)網(wǎng)企業(yè)為代表,創(chuàng)造了各種新的商業(yè)模式,也開啟了大數(shù)據(jù)應(yīng)用的時(shí)代。
在大數(shù)據(jù)時(shí)代,對于分析類應(yīng)用的需求不斷增加,特別對于傳統(tǒng)行業(yè)/企業(yè),大數(shù)據(jù)分析需求首先包括結(jié)構(gòu)化數(shù)據(jù),這已經(jīng)分析了30多年,如今結(jié)構(gòu)化數(shù)據(jù)分析需要與各種半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)分析相結(jié)合,用全數(shù)據(jù)的視野,指導(dǎo)行業(yè)/企業(yè)的業(yè)務(wù)應(yīng)用和實(shí)踐。這就導(dǎo)致一種架構(gòu)難以完全滿足大數(shù)據(jù)的需求,“多種架構(gòu)支持多類應(yīng)用”就成為了大數(shù)據(jù)處理應(yīng)用的基本思路,出現(xiàn)了OldSQL、NewSQL和NoSQL三分天下的市場格局。
混搭或?qū)⒉豢杀苊?/strong>
大數(shù)據(jù)應(yīng)用采用多種架構(gòu)支撐不可避免。據(jù)中國移動業(yè)務(wù)支撐系統(tǒng)部高級工程師何鴻凌介紹,中國移動就采用了MPP和Hadoop混搭架構(gòu),配合原有數(shù)據(jù)倉系統(tǒng),開展大數(shù)據(jù)的應(yīng)用。其中,傳統(tǒng)DW(數(shù)據(jù)倉庫)做高價(jià)值數(shù)據(jù),也就是結(jié)構(gòu)化數(shù)據(jù)的加工,MPP做長期結(jié)構(gòu)化數(shù)據(jù)的存儲和自助分析,Hadoop用于非結(jié)構(gòu)化數(shù)據(jù)處理、挖掘和歷史存儲。
何鴻凌表示,MPP是將傳統(tǒng)分布式數(shù)據(jù)庫的理論運(yùn)行在X86上的實(shí)踐,用列存、內(nèi)存和副本等進(jìn)行了優(yōu)化。MPP基本可以替代傳統(tǒng)DW,但在大數(shù)據(jù)時(shí)代,還是有挑戰(zhàn)。那就是由于它精確地進(jìn)行數(shù)據(jù)分布的原因,可擴(kuò)展性和高可用比較難以達(dá)到。按照CAP理論,一種系統(tǒng)不可能什么都追求。因此國內(nèi)較大的MPP集群也就幾十個節(jié)點(diǎn),國際上可以看到100~200節(jié)點(diǎn)的集群。根據(jù)中國移動數(shù)據(jù)處理得需求,起碼也需要300~400個節(jié)點(diǎn)。
“大數(shù)據(jù)主要是要應(yīng)用,而現(xiàn)在很多的應(yīng)用都不是由IT開發(fā)的,是自助的,這就需要MPP中要提供沙盒,讓業(yè)務(wù)部門或第三方能自助地分析和開發(fā)。我們當(dāng)然不希望每個沙盒都是物理的MPP集群,這樣不僅安裝維護(hù)復(fù)雜,而且會造成數(shù)據(jù)重復(fù)。所以我們希望的是讓MPP的能力像云計(jì)算那樣對外提供按需服務(wù),實(shí)現(xiàn)虛擬化?!彼f。
談到Hadoop,中國移動認(rèn)為Hbase和HDFS很好,但Map/Reduce使用起來需要一些技術(shù)能力,Hadoop 2.0中Map/Reduce已經(jīng)不再是唯一的執(zhí)行框架,而縮減為Yarn框架下的一個應(yīng)用了。對于Hadooperyan,其優(yōu)勢在于數(shù)據(jù)處理的成本,較之?dāng)?shù)據(jù)倉庫內(nèi)廉價(jià)很多,但在效率上還有差距,這是其數(shù)據(jù)分布策略所造成所的,這也是為什么中國移動還要選擇MPP進(jìn)行混搭因。
Hadoop技術(shù)難點(diǎn)主要是在Map/Reduce、各個作業(yè)之間都需要落地到HDFS上,這個效率會很差,而且沒有全局優(yōu)化。Spark解決了這些問題,包括用內(nèi)存緩存、流水線和全局優(yōu)化,因此中國移動用Spark作為處理引擎。據(jù)了解,中國移動準(zhǔn)備將長期數(shù)據(jù)放到Hadoop上做自助查詢,既能縮小MPP的規(guī)模,也能降低成本,當(dāng)然這樣的查詢效率就不如在MPP上了。
大數(shù)據(jù)應(yīng)用落地情況
混搭也好,多種模式也好,運(yùn)用這些框架和技術(shù)手段的大數(shù)據(jù)應(yīng)用,究竟會對現(xiàn)有模式產(chǎn)生哪些影響呢?大數(shù)據(jù)應(yīng)用又是怎么樣落地接地氣的呢?也許中國移動的大數(shù)據(jù)應(yīng)用實(shí)踐會給我們一些啟示。
總結(jié)來看,中國移動大數(shù)據(jù)應(yīng)用有三個方面:一是讓中國移動現(xiàn)有商業(yè)模式更加有競爭力;二是發(fā)掘新的商業(yè)模式,讓別的行業(yè)運(yùn)轉(zhuǎn)更順暢;三是承擔(dān)社會責(zé)任發(fā)揮大數(shù)據(jù)社會價(jià)值。
實(shí)際上,在大數(shù)據(jù)被熱炒之前,中國移動DW/BI系統(tǒng)運(yùn)轉(zhuǎn)已經(jīng)有十多年時(shí)間,主要用于客戶洞察、市場營銷、客戶服務(wù)和運(yùn)營管理四個方面。大數(shù)據(jù)應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)的引入,讓這些應(yīng)用更加深入。以客戶洞察為例,多種類型的數(shù)據(jù)(如消費(fèi)、通話、位置、瀏覽、使用)等數(shù)據(jù),借助各種算法(如分類、聚類、標(biāo)簽、RFM、Pagerank),通過分析就形成了360度的客戶視圖,就是利用各種聯(lián)系記錄形成社交網(wǎng)絡(luò),發(fā)現(xiàn)客戶的各種圈子,通過分析影響力,尋找關(guān)鍵人員,識別家庭和政企客戶,用來發(fā)現(xiàn)重入網(wǎng)客戶,發(fā)現(xiàn)關(guān)鍵客戶的異動情況。
2013年中國移動銷售了1.5億部終端,讓TD-SCDMA芯片躋身主流行列。2014年,中國移動的目標(biāo)是2.3億部,導(dǎo)致各個公司壓力都很大。要完成這樣一個目標(biāo),一般來說有幾種方法,最霸道的就是貼營銷成本了,可謂無往而不利。但這種霸道的做法隨著中國移動利潤率的下降,越來越不被采用,而大數(shù)據(jù)營銷開始被倚重,方法是分析用戶的終端偏好和消費(fèi)能力,捉住終端機(jī)生命周期到期、合約機(jī)期滿等時(shí)機(jī),幾乎不消耗營銷成本就可以完成定制機(jī)銷售任務(wù)。
大數(shù)據(jù)應(yīng)用在發(fā)揮社會價(jià)值方面同樣大有可為,如北京市旅游局所發(fā)布的景點(diǎn)舒適指數(shù),賣場為零售商提供能夠顧客來源、商鋪、展位人流情況,以及高速公路、交通擁塞和故判斷,這些都有大數(shù)據(jù)應(yīng)用和分析的功勞。
大數(shù)據(jù)應(yīng)用加速發(fā)展的關(guān)鍵因素
加速大數(shù)據(jù)應(yīng)用的發(fā)展很重要的一個因素就是要轉(zhuǎn)變觀念。根據(jù)中國移動的經(jīng)驗(yàn),應(yīng)該確立幾個原則:一是利用大數(shù)據(jù)技術(shù),竭盡可能收集整理數(shù)據(jù),竭盡可能關(guān)聯(lián)數(shù)據(jù),竭盡可能保存數(shù)據(jù),將數(shù)據(jù)視作企業(yè)核心資產(chǎn)。二是充分發(fā)揮大數(shù)據(jù)價(jià)值,竭盡可能使得現(xiàn)有商業(yè)模式更加具有競爭力;竭盡可能發(fā)掘新的商務(wù)模式,直接將數(shù)據(jù)變成價(jià)值。
|
|
|