獨家對話《大數(shù)據(jù)時代》 斯塔西?施耐德(Stacy Snyder)曾經(jīng)的夢想是成為一名教師。2006年夏天,她完成了獲取教師資格證書所需的課程并通過了所有考試;然而她的夢想?yún)s在即將實現(xiàn)之時突然破滅——她所在學校的一位負責人告訴她,她無法取得教師資格證書。 學校負責人展示了一張她上傳到自己的MySpace頁面上的照片,照片上的她戴著一頂海盜帽,正端著一只塑料杯飲酒。這張照片是她向自己朋友展示的,甚至可能只是搞怪,但學校認為這樣的行為與教師的標準不符。斯塔西向?qū)W校承諾將這張圖片從網(wǎng)上刪除,然而為時已晚——照片早已被搜索引擎索引,并被網(wǎng)絡(luò)爬蟲所記錄。她希望她的照片被遺忘,然而互聯(lián)網(wǎng)并不允許。 這是牛津大學互聯(lián)網(wǎng)學院的教授維克托?邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)在2009年
出版的《刪除:數(shù)字時代遺忘的價值》(中譯版為《刪除:大數(shù)據(jù)時代的取舍之道》,以下簡稱《刪除》)一書中引用的一個案例。他告訴讀者,遺忘本是人類的天
性,但隨著信息技術(shù)的發(fā)展,記憶變得越來越容易,遺忘卻越來越困難;無法遺忘不僅會給個人帶來不必要的困擾,也給企業(yè)制造了麻煩——他們存儲的數(shù)據(jù)日益增加,但其中很多隨著時間的推移而失去了價值。因此,他呼吁引入一種遺忘的機制,例如為數(shù)據(jù)設(shè)定一個保存期限,“讓我們記得去遺忘”。 盡管沒能提出切實可行的“遺忘”方法,但《刪除》獨特的視角仍受到了學術(shù)界和互聯(lián)網(wǎng)業(yè)界的廣泛關(guān)注;這本書不僅獲得了多項圖書獎,還被翻譯為德語、意大利語、韓語等不同語言。 當“大數(shù)據(jù)”成為業(yè)界新的熱點之時,在這一領(lǐng)域有著深入研究的維克托于近日出版了其新作《大數(shù)據(jù)時代:生活、工作與思維的大變革》(以下簡稱《大數(shù)據(jù)時代》),通過一個個生動的案例向讀者介紹大數(shù)據(jù)的價值及其將會帶來的改變。 從殺毒軟件開發(fā)者到跨界學者 維克托出生于奧地利薩爾斯堡,父親是一名律師,母親是一名商人。他經(jīng)常會在演講中引用他家人的例子。“我母親曾經(jīng)營一家電影院,我每年都會問她過去一年最好的電影是什么,她總是說‘我知道,我知道,就是XXX’,但她總是錯的。”他試圖用這個例子說明大多數(shù)人對于數(shù)據(jù)并非特別擅長,因而需要數(shù)據(jù)分析工具和模型。 維克托從小便對軟件興趣濃厚。他12歲時便開始接觸編程,少年時期曾在國際物理奧林匹克競賽和奧地利青年程序員競賽中獲獎。1986年,18歲的他創(chuàng)辦了著名的殺毒軟件公司IKARUS。不過正當他希望在軟件領(lǐng)域一展身手之時,父親卻要求他攻讀法律。 “我說我想成為一個軟件人,不想學法律,但他卻堅持他的意見,于是我進入法學院學習,同時經(jīng)營著軟件公司。” IKARUS發(fā)展迅速,1991年,維克托被評為奧地利最杰出的5名軟件企業(yè)家之一;不過很快,他便無法兼顧繁重的學業(yè)和日益壯大的IKARUS,最終他選擇賣掉公司,專注于學術(shù)道路。從薩爾斯堡大學畢業(yè)后,維克托又在哈佛大學、劍橋大學和倫敦政治經(jīng)濟學院等世界名校攻讀了多個學位,并在畢業(yè)后先后進入哈佛大學、新加坡國立大學和牛津大學任教。2000年,他還因為在學界和業(yè)界的突出貢獻被評為薩爾斯堡州年度人物。 談到跨界的經(jīng)歷,維克托表示自己很幸運。“很多政客和律師不懂商業(yè),而商人不懂法律、政治,我則有幸能兼顧兩邊——我進入了軟件業(yè),成為一個創(chuàng)業(yè)者;同時又懂法律,了解決策者們的想法。” 掌握不同領(lǐng)域的知識不僅為維克托在互聯(lián)網(wǎng)治理等交叉學科方面的研究提供了很大的幫助,也讓他獲得了許多IT企業(yè)和政府部門的青睞——他曾先后為微軟、IBM、惠普等公司提供咨詢服務(wù),也擔任過新加坡商務(wù)部、科威特商務(wù)部和文萊國防部的智囊。 三大轉(zhuǎn)變定義大數(shù)據(jù) 大數(shù)據(jù)是今年IT界最熱門的概念之一,然而對于“大數(shù)據(jù)是什么”,連許多經(jīng)常談?wù)撨@一概念的從業(yè)者也無法給出準確的答案。正因為如此,大數(shù)據(jù)也被質(zhì)疑為一個炒作出來的偽命題。 維克托也并未直接給出大數(shù)據(jù)的定義——在《大數(shù)據(jù)時代》的引言部分,他就明確指出“大數(shù)據(jù)并非一個確切的概念”。不過,他用三大轉(zhuǎn)變描述了大數(shù)據(jù)的特性。在接受記者采訪時,他詳細闡釋了這三個轉(zhuǎn)變: “首先,在大數(shù)據(jù)時代,我們可以獲得和某個現(xiàn)象相關(guān)的所有數(shù)據(jù),而不只是少量的樣本。例如一項針對相撲比賽中非法操縱比賽結(jié)果的研究對64000場比賽進行了分析,這算不上一個很大的數(shù)字,但由于這是過去十年所有的比賽,所以它是大數(shù)據(jù)。大數(shù)據(jù)是相對的而非絕對的。” “第二,由于有了更多的數(shù)據(jù),我們可以接受更多的混雜、更多數(shù)據(jù)上的不精確。如果我們對于一個事物只有50個數(shù)據(jù)點,那么每一個數(shù)據(jù)點都必須非常精確,因為每個數(shù)據(jù)點都是有用的;但是如果我們有5000萬個,去掉10個,甚至去掉1000個都沒有太大的問題。” “第三,我們分析大數(shù)據(jù)主要為了預測未來‘是什么’,而不是‘為什么’。我們關(guān)注的是揭示哪些事情將會發(fā)生的相關(guān)關(guān)系,而非揭示為什么這些事情會發(fā)生的因果關(guān)系。因為很多時候我們以為我們找到了事情背后的原因,實際上卻沒有找到。更多時候知道了‘是什么’就足夠了。例如知道流感將會擴散到哪里就足夠了,我不需要知道為什么;知道什么時候在網(wǎng)上購買機票能夠獲得最優(yōu)惠的價格就足夠了,我不需要知道為什么此時價格最低。” “忘記”不相關(guān)的數(shù)據(jù)會帶來更好的預測結(jié)果 表面上看,此次出版的兩本書相互矛盾:《大數(shù)據(jù)時代》強調(diào)了數(shù)據(jù)的價值,而《刪除》卻提出數(shù)據(jù)應(yīng)該能夠被“忘記”。對此,維克托表示,兩本書相互補充,而以上的兩個觀點可以完美地相互作用。 “大數(shù)據(jù)只有在沒有噪音、沒有無用的數(shù)據(jù)的情況下才能很好地發(fā)揮作用。在《刪除》中,我認為我們需要有擺脫那些過時的、和我們現(xiàn)在不相關(guān)的數(shù)據(jù)的可能性。如果亞馬遜忘記了和你當前的興趣與偏好不相關(guān)的購書記錄,它推薦書的效果將會更好。只有好的數(shù)據(jù)才能帶來好的預測。” 對于大數(shù)據(jù)被過分炒作,維克托也表示擔憂:“它被夸大了,好像一切都突然成為了大數(shù)據(jù),大數(shù)據(jù)能解決所有問題,事實上人們并不了解它究竟是什么;一旦人們發(fā)現(xiàn)它不是萬能的,就會感到泄氣,然后大數(shù)據(jù)就被拋棄了。”在他看來,盡管大數(shù)據(jù)非常強大,但“人們需要明白它不是什么,我們不能將它過分夸大”。 對話《大數(shù)據(jù)時代》作者維克托?邁爾?舍恩伯格 數(shù)據(jù)是潛在的產(chǎn)品  維克托?邁爾-舍恩伯格 人物簡介:數(shù)
據(jù)科學的技術(shù)權(quán)威,最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學家之一?,F(xiàn)任牛津大學網(wǎng)絡(luò)學院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授,曾任哈佛大學肯尼迪學院信息監(jiān)管科研項
目負責人,哈佛國家電子商務(wù)研究中網(wǎng)絡(luò)監(jiān)管項目負責人;曾任新加坡國立大學李光耀學院信息與創(chuàng)新策略研究中心主任。并擔任耶魯大學、芝加哥大學、弗吉尼亞
大學、圣地亞哥大學、維也納大學的客座教授。 12月11日,維克托攜兩本書的中譯本來到北京,在不同場合與讀者及業(yè)內(nèi)人士交流大數(shù)據(jù)相關(guān)的話題。本報記者在亦莊云基地與維克托進行了深入對話,和他探討大數(shù)據(jù)時代的記憶與遺忘。 電腦報:你說大數(shù)據(jù)時代應(yīng)該關(guān)注的是相關(guān)關(guān)系而不是因果關(guān)系,那么“為什么”對于企業(yè)來說真的不重要嘛? 維克托:是的。亞馬遜不需要知道你為什么會買某本書,或者為什么它給你推薦了某本書你就買下了它;它只需要知道你買了這本書,然后它會向你推薦相關(guān)的,僅此而已。類似的,快遞公司UPS通過大數(shù)據(jù)發(fā)現(xiàn)他們的車輛在GPS的指引下左轉(zhuǎn)時出事故的概率較高,于是他們更改了導航軟件,讓車輛更多地右轉(zhuǎn),盡管這浪費了時間,但降低了出事的風險,因此提高了效率;他們并不知道車輛左轉(zhuǎn)時發(fā)生了什么,為什么更容易出事,而他們也不需要知道這些。 電腦報:亞馬遜、Google這些大公司已經(jīng)積累了很多數(shù)據(jù),但小公司、創(chuàng)業(yè)公司卻沒有多少數(shù)據(jù),在大數(shù)據(jù)時代他們應(yīng)該怎么做? 維克托:的
確,這很有趣。很長時間以來,這些大公司的強大之處在于他們的服務(wù)器集群等基礎(chǔ)設(shè)施。如今有了云計算,創(chuàng)業(yè)公司可以根據(jù)需要購買計算和存儲能力,以解決基
礎(chǔ)設(shè)施方面的不足,但他們沒有數(shù)據(jù)。數(shù)據(jù)是一些大公司獨家擁有的。當然如果小公司選擇了正確的領(lǐng)域切入,也能夠獲得數(shù)據(jù)。例如Inrix公司,他們開發(fā)導航軟件,還能提供實時路況,告訴你哪里堵車。他們是怎么獲得這些信息的呢?他們的基礎(chǔ)導航服務(wù)是免費的,但如果你同意下載這個應(yīng)用,它就會就會將你的行駛速度等信息傳回后端,于是你就成為了這個平臺的傳感器。每天有數(shù)百萬人使用Inrix,因此Inrix擁有數(shù)百萬傳感器,并獲取了大量的數(shù)據(jù)。他們能記錄在特定天氣下人們的駕駛速度,并將這些信息告訴保險公司,或者告訴政府作為加強道路安全的參考。 電腦報:通常企業(yè)只能通過自己搜集的數(shù)據(jù)進行預測,但他們的數(shù)據(jù)是有局限的。比如我在亞馬遜上搜索了一本書,但最終通過其他渠道購買了,亞馬遜并不知道,它仍會推薦相關(guān)的書,我卻不再需要,如何解決這樣的問題? 維克托:事實上目前已經(jīng)有一些公司在分享自己的數(shù)據(jù)了,例如在網(wǎng)絡(luò)廣告領(lǐng)域。不過問題的關(guān)鍵在于你自己是否愿意你的數(shù)據(jù)被企業(yè)共享,如果你愿意讓他們共享數(shù)據(jù),你就能獲得更好的推薦。如今在硅谷有一些創(chuàng)業(yè)公司正試圖打造由個人、由消費者控制的信息共享平臺。 電腦報:相對來說用戶可能會對大公司更加信任,更愿意把信息分享給他們,那么小公司如何讓用戶分享更多數(shù)據(jù)? 維克托:這不一定??梢該Q個角度來看,很多人不愿意把數(shù)據(jù)分享給Google或者Facebook,他們認為這些公司過于強大了;他們反倒更愿意把數(shù)據(jù)分享給小公司、創(chuàng)業(yè)公司。有意思的是,大數(shù)據(jù)能幫助大企業(yè),也能幫助小企業(yè),但對中型企業(yè)幫助不大。比如200-500人規(guī)模的企業(yè),它們不夠小,不像初創(chuàng)企業(yè)那么靈活,也不像Google那么強大,因而被擠壓在中間,沒有自己的優(yōu)勢。 電腦報:在企業(yè)內(nèi)部,大數(shù)據(jù)應(yīng)該由什么部門負責? 維克托:CEO。這是很基本、很重要的。很多線下企業(yè)制造了大量的信息,他們有很多數(shù)據(jù),但他們不明白數(shù)據(jù)就是價值,對他們來說數(shù)據(jù)是問題,所以他們設(shè)有首席信息官來處理這個問題;而由于信息是在基礎(chǔ)設(shè)施上流動,他們還設(shè)有首席技術(shù)官來維護這些基礎(chǔ)設(shè)施。他們沒有意識到數(shù)據(jù)是產(chǎn)品,否則CEO會親自去看數(shù)據(jù),然后說這很有價值。管理者應(yīng)該改變認識,明白數(shù)據(jù)不是風險或問題,而是潛在的產(chǎn)品,是價值的源泉。 電腦報:你認為在大數(shù)據(jù)時代,與隱私保護相關(guān)的法律應(yīng)該有所調(diào)整嗎? 維克托:是
的。隱私權(quán)可以讓個人對互聯(lián)網(wǎng)、電子商務(wù)更信任;如果沒有隱私權(quán),我會對我在網(wǎng)上所做的事情很謹慎,因為一旦我將某件事告訴別人,我就可能把它收回來了,
我無法控制它。所以我們需要隱私法,但隱私法也需要創(chuàng)新。如今歐洲的隱私法規(guī)定,企業(yè)最多只能將數(shù)據(jù)保存到首要目的完成的時候為止。這是在小數(shù)據(jù)時代制定
的法律,在大數(shù)據(jù)時代已不再適用,因為數(shù)據(jù)的價值往往并非體現(xiàn)在其首要用途上,而是在其次要乃至第三位的用途上,可能是你收集數(shù)據(jù)時并不知道的用途。所以
我們要做的是,讓數(shù)據(jù)不再只能被保存到它的首要用途完成時為止,而是將決定權(quán)交給和數(shù)據(jù)相關(guān)的個人,讓他們來決定是否刪除數(shù)據(jù)。 電腦報:在《刪除》中你說應(yīng)該對企業(yè)保存數(shù)據(jù)的時間有所限制,這是否會影響企業(yè)對于大數(shù)據(jù)的使用? 維克托:我的意思是,數(shù)據(jù)能保存多久應(yīng)該由和數(shù)據(jù)相關(guān)的個人來決定。例如我如果希望我的數(shù)據(jù)在亞馬遜上保持很長時間,我需要有這個權(quán)利和意愿;但我必須同時擁有刪除這些數(shù)據(jù)的權(quán)利。亞馬遜也會因此獲益,因為如果我告訴他們“刪除我8年前的購書記錄,因為這和我如今的興趣無關(guān)”,這樣能將一些噪音排除,他們的推薦會更精確,我可能會買更多的書。 電腦報:如果大數(shù)據(jù)能夠準確預測未來,我們就可以在面臨選擇時做出最合理的選擇,但很多時候我們的個性、我們生活中的快樂正是源自于一些非理性的選擇,大數(shù)據(jù)是否會讓我們失去這些? 維克托:只
有當我們知道了真相是什么、當我們理性的時候,我們才能非理性。我們可以理性地去面對不合理的情況,這是我們主動選擇不理性的,符合人類的習慣。例如數(shù)據(jù)
告訴我抽煙不好,但我依然可以抽煙,這是非理性的,但這個非理性的決定是基于一個理性的選擇,因為我知道了真相,所以我在做選擇時是理性的。如果沒有數(shù)
據(jù),我就不知道我什么時候是理性的,什么時候是非理性的;很多時候我認為我做了一個正確的決定,實際上卻是一個錯誤的決定。所以在有了數(shù)據(jù)之后我們的生活
依然可以很有趣。 電腦報:你說遺忘是人類的天性,但事實上如今的人類也喪失了一些我們祖先所擁有的能力,那么人類在數(shù)字時代喪失遺忘的能力是否可以被看作是一種進化? 維克托:可以這么說,但進化應(yīng)該是個緩慢的過程,尤其是要重組大腦。在很偶然的情況下,進化可能會使人類喪失某項能力,但這需要很多年才能完成。 本文出自2012-12-24出版的《電腦報》第51期 A.新聞周刊
|