|
大數(shù)據(jù)概念: 大數(shù)據(jù)究竟是什么?很多人可能仍然有些混淆,本文讓我們來(lái)看看大數(shù)據(jù)的一些主要的定義。首先要注意的是,行業(yè)內(nèi)的所有人都普遍認(rèn)同,大數(shù)據(jù)不只是更多的數(shù)據(jù)。 (1)最初的大數(shù)據(jù) 大數(shù)據(jù)的特征可以用很多詞來(lái)描述。2001年Doug Laney最先提出“3V”模型, 包括數(shù)量 (Volume)、速度(Velocity)和種類(lèi)(Variety)。在那以后,業(yè)界很多人把3V擴(kuò)展到了11V,還包括有效性、真實(shí)性、價(jià)值和可見(jiàn)性等。 (2)大數(shù)據(jù):技術(shù) 為什么12年前的老術(shù)語(yǔ)突然被放在聚光燈下?這不僅是因?yàn)槲覀儸F(xiàn)在擁有比十年前更多的數(shù)量、速度和種類(lèi)。而是因?yàn)榇髷?shù)據(jù)受到新技術(shù)的推動(dòng),特別是快速發(fā)展的開(kāi)源技術(shù),例如Hadoop和其他存儲(chǔ)和處理數(shù)據(jù)的NoSQL方式。 這些新技術(shù)的用戶(hù)需要一個(gè)術(shù)語(yǔ)來(lái)將它們區(qū)別于以前的技術(shù),于是大數(shù)據(jù)成了他們的最佳選擇。如果你去參加大數(shù)據(jù)會(huì)議,你肯定會(huì)發(fā)現(xiàn),涉及關(guān)系型數(shù)據(jù)庫(kù)的會(huì)議會(huì)很少,無(wú)論他們鼓吹多少個(gè)V。 (3)大數(shù)據(jù)與數(shù)據(jù)的區(qū)別 大數(shù)據(jù)技術(shù)的問(wèn)題是,大數(shù)據(jù)有些含糊不清,以至于行業(yè)中的每個(gè)供應(yīng)商都可以跳進(jìn)來(lái)聲稱(chēng)自己的技術(shù)是大數(shù)據(jù)技術(shù)。以下是兩種很好的方法來(lái)幫助企業(yè)理解現(xiàn)在的大數(shù)據(jù)與過(guò)去單純的大數(shù)據(jù)的區(qū)別。 交易、交互和觀察:這是由Hortonworks公司負(fù)責(zé)企業(yè)戰(zhàn)略的副總裁Shaun Connolly提出的。交易是我們過(guò)去收集、存儲(chǔ)和分析的主要數(shù)據(jù)。交互是人們點(diǎn)擊網(wǎng)頁(yè)等操作得到的數(shù)據(jù)。觀察是自動(dòng)收集的數(shù)據(jù)。 (4)大數(shù)據(jù):信號(hào) SAP公司的Steve Lucas認(rèn)為,應(yīng)該根據(jù)意圖和時(shí)機(jī)來(lái)劃分這個(gè)世界,而不是根據(jù)數(shù)據(jù)的類(lèi)型?!芭f世界”主要是關(guān)于交易,當(dāng)這些交易被記錄時(shí),我們已經(jīng)無(wú)法對(duì)它們采取任何行動(dòng):企業(yè)都在不斷管理“失效的數(shù)據(jù)”。而在“新世界”,企業(yè)可以使用新的“信號(hào)”數(shù)據(jù)來(lái)預(yù)測(cè)將會(huì)發(fā)生什么,并進(jìn)行干預(yù)來(lái)改善情況。 相關(guān)的案例有,追蹤社交媒體上人們對(duì)品牌的態(tài)度,以及預(yù)測(cè)性維護(hù)(用復(fù)雜的算法幫助你決定何時(shí)需要更換零部件)。 (5)大數(shù)據(jù):機(jī)會(huì) 這是來(lái)自451 Research的Matt Aslett,他將大數(shù)據(jù)定位為“之前因?yàn)榧夹g(shù)限制而被忽略的數(shù)據(jù)”。(雖然在技術(shù)上,Matt使用了“暗數(shù)據(jù)”,而不是大數(shù)據(jù),但已經(jīng)非常接近)。這是筆者最喜歡的定義,因?yàn)樗洗蟛糠治恼潞陀懻撝械恼f(shuō)法。 (6)大數(shù)據(jù):隱喻 Rick Smolan在其書(shū)中寫(xiě)道,大數(shù)據(jù)是“幫助這個(gè)星球生成神經(jīng)系統(tǒng)的過(guò)程,其中我們?nèi)祟?lèi)只是另一種類(lèi)型的傳感器”。很深?yuàn)W吧? (7)大數(shù)據(jù):新瓶裝舊酒 很多項(xiàng)目基本上是使用以前的技術(shù),這些過(guò)去被稱(chēng)為BI或者分析的技術(shù)突然跳入大數(shù)據(jù)的行列中。 底線:盡管大家對(duì)大數(shù)據(jù)的定義有很多爭(zhēng)議,但所有人都同意這個(gè)事實(shí):大數(shù)據(jù)是一個(gè)大事件,在未來(lái)幾年將帶來(lái)巨大的機(jī)遇。 如何玩轉(zhuǎn)大數(shù)據(jù): 隨著科技的不斷進(jìn)步,日常工作、生活中的數(shù)據(jù)量也是節(jié)節(jié)攀升,我們迎來(lái)了大數(shù)據(jù)時(shí)代。 以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學(xué)將成為新一次技術(shù)變革的基石。隨著數(shù)據(jù)的進(jìn)一步集中和數(shù)據(jù)量的增大,對(duì)海量數(shù)據(jù)進(jìn)行安全防護(hù)變得更加困難,數(shù)據(jù)的分布式處理也加大了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。 物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的發(fā)展,使得手機(jī)、平板電腦、PC及遍布地球各個(gè)角落的傳感器,成為數(shù)據(jù)來(lái)源和承載方式,BYOD也隨之誕生。 (1)何為大數(shù)據(jù) 據(jù)有關(guān)分析公司預(yù)測(cè),到2013年,互聯(lián)網(wǎng)承載的數(shù)據(jù)量將會(huì)達(dá)到每年667EB,這是什么概念?1EB=230GB,數(shù)據(jù)量之大顯而易見(jiàn),這些數(shù)據(jù)絕大多數(shù)是“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫(kù)所用,但是大數(shù)據(jù)技術(shù)革新將會(huì)給我們的生活帶來(lái)巨大變化。 (2)四大特點(diǎn)組成大數(shù)據(jù) 數(shù)據(jù)量巨大:人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類(lèi)說(shuō)過(guò)的所有的話的數(shù)據(jù)量大約5EB(1EB=210PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤(pán)的容量為T(mén)B量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí),如此龐大的數(shù)據(jù)量群,分析它們的難度可想而知,因此需要大量的大數(shù)據(jù)解決方案。 價(jià)值密度低:這也是當(dāng)今大數(shù)據(jù)背景下需要解決的一個(gè)難題,價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比,如果看一小時(shí)視頻,在連續(xù)不間斷的監(jiān)控中有用數(shù)據(jù)的時(shí)間可能會(huì)很短,甚至是幾秒鐘,那么強(qiáng)大的數(shù)據(jù)計(jì)算機(jī)的算法就需要非常迅速地完成對(duì)數(shù)據(jù)的“提純”。 數(shù)據(jù)類(lèi)型多:這點(diǎn)不用多解釋?zhuān)瑪?shù)據(jù)類(lèi)型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。 處理速度快:據(jù)IDC研究機(jī)構(gòu)報(bào)告顯示,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB(1ZB=210EB),分析這么大的數(shù)據(jù),就需要設(shè)備對(duì)數(shù)據(jù)的處理速度有很大的提升。 (3)大數(shù)據(jù)給企業(yè)謀福利 2012年3月,美國(guó)宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,借以增強(qiáng)收集海量數(shù)據(jù)、分析萃取信息的能力。2012年瑞士達(dá)沃斯論壇上發(fā)布的《大數(shù)據(jù)大影響》報(bào)告稱(chēng),數(shù)據(jù)已成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣或黃金一樣,許多國(guó)家政府更是把大數(shù)據(jù)上升到戰(zhàn)略層面。 (4)全球大數(shù)據(jù)市場(chǎng)發(fā)展趨勢(shì) 對(duì)企業(yè)來(lái)講,在大數(shù)據(jù)背景下數(shù)據(jù)資產(chǎn)將會(huì)取代人才成為各個(gè)公司和行業(yè)的重要載體,可以有效地幫助企業(yè)完成業(yè)務(wù)的操作、流程的制定以及公司各項(xiàng)工作的運(yùn)營(yíng)和監(jiān)督,通過(guò)對(duì)數(shù)據(jù)的分析,幫助企業(yè)領(lǐng)導(dǎo)者進(jìn)行各項(xiàng)決策。 大數(shù)據(jù)對(duì)企業(yè)的核心資產(chǎn)也進(jìn)行了重塑,企業(yè)必須熟悉和用好海量的數(shù)據(jù),而互聯(lián)網(wǎng)行業(yè)已提早感受到了大數(shù)據(jù)帶來(lái)的深切變化。一些互聯(lián)網(wǎng)企業(yè)已經(jīng)完成了核心競(jìng)爭(zhēng)力的重新定義。 (5)信息安全不容小視 大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),在網(wǎng)絡(luò)空間,大數(shù)據(jù)是更容易被“發(fā)現(xiàn)”的大目標(biāo)。一方面,大數(shù)據(jù)意味著海量的數(shù)據(jù),也意味著更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會(huì)吸引更多的潛在攻擊者。另一方面,數(shù)據(jù)的大量匯集,使得黑客成功攻擊一次就能獲得更多數(shù)據(jù),無(wú)形中降低了黑客的進(jìn)攻成本,增加了“收益率”。 如此龐大的數(shù)據(jù)中包含了很多個(gè)人信息,甚至是隱私信息,數(shù)據(jù)的集中存儲(chǔ)就勢(shì)必帶來(lái)大量數(shù)據(jù)丟失和破壞的風(fēng)險(xiǎn),一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒(méi)有明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個(gè)體隱私問(wèn)題。 許多企業(yè)對(duì)大數(shù)據(jù)的認(rèn)知程度不同,因此致使企業(yè)在大數(shù)據(jù)管理和運(yùn)營(yíng)中會(huì)出現(xiàn)不妥之處,安全防護(hù)手段的更新升級(jí)速度無(wú)法跟上數(shù)據(jù)量非線性增長(zhǎng)的步伐,就會(huì)暴露大數(shù)據(jù)安全防護(hù)的漏洞。 大數(shù)據(jù)技術(shù)很容易成為黑客的攻擊手段,在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價(jià)值的同時(shí),黑客也在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客會(huì)最大限度地收集更多有用信息。 傳統(tǒng)的檢測(cè)是基于單個(gè)時(shí)間點(diǎn)進(jìn)行的基于威脅特征的實(shí)時(shí)匹配檢測(cè),而高級(jí)可持續(xù)攻擊是一個(gè)實(shí)施過(guò)程,無(wú)法被實(shí)時(shí)檢測(cè)。此外,大數(shù)據(jù)的價(jià)值低密度性,使得安全分析工具很難聚焦在價(jià)值點(diǎn)上,黑客可以將攻擊隱藏在大數(shù)據(jù)中。 (6)切忌一哄而上 中國(guó)工程院院士鄔賀銓曾建議,中國(guó)發(fā)展大數(shù)據(jù)需要盡快制定信息保護(hù)法與信息公開(kāi)法,既要鼓勵(lì)面向群體而且服務(wù)于社會(huì)的數(shù)據(jù)挖掘,又要防止針對(duì)個(gè)體侵犯隱私的行為,既要提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。 據(jù)了解,2010年中國(guó)新存儲(chǔ)的數(shù)據(jù)為250PB,僅為日本的60%,北美的7%。我國(guó)還并未重視對(duì)大數(shù)據(jù)的利用和存儲(chǔ),一些數(shù)據(jù)在一定時(shí)間內(nèi)白白浪費(fèi)了。一些部門(mén)和機(jī)構(gòu)擁有大量數(shù)據(jù),但以鄰為壑,寧愿自己不用也不愿提供與有關(guān)部門(mén)共享,導(dǎo)致信息不完整或重復(fù)投資。 (7)國(guó)內(nèi)大數(shù)據(jù)發(fā)展 鄔賀銓說(shuō),我國(guó)對(duì)大數(shù)據(jù)的信息安全保護(hù)也不夠重視。2012年中國(guó)的數(shù)據(jù)存儲(chǔ)量達(dá)到364EB,其中55%的數(shù)據(jù)需要一定程度的保護(hù),然而目前只有不到一半的數(shù)據(jù)得到保護(hù)。 在制造行業(yè),企業(yè)通過(guò)對(duì)網(wǎng)上大數(shù)據(jù)分析了解客戶(hù)需求和掌握市場(chǎng)動(dòng)向,并對(duì)大數(shù)據(jù)進(jìn)行分析后,就可以有效實(shí)現(xiàn)對(duì)采購(gòu)和合理庫(kù)存量的管理,大大減少因盲目進(jìn)貨而導(dǎo)致銷(xiāo)售損失,大數(shù)據(jù)是一個(gè)應(yīng)用驅(qū)動(dòng)性很強(qiáng)的服務(wù),其標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,這是我國(guó)跨越發(fā)展的機(jī)會(huì),但切忌一哄而起。 |
|
|