|
讀吳軍的《智能時(shí)代》 吳軍擅長(zhǎng)的是用通俗易懂的語(yǔ)言解釋一些高大上的概念,大數(shù)據(jù)、人工智能等概念被他這么一解釋,的確更清晰了,無(wú)論是于有概念強(qiáng)迫癥的同學(xué),還是對(duì)于大數(shù)據(jù)持消極觀點(diǎn)的人,都可以讀一讀,如果大家經(jīng)常需要跟領(lǐng)導(dǎo)解釋大數(shù)據(jù)的價(jià)值,希望游說(shuō)他,也可以學(xué)習(xí)下他的表述方法。 筆者結(jié)合最有啟發(fā)意義的一些內(nèi)容,總結(jié)出六個(gè)觀點(diǎn),與大家分享,一本書(shū)真正的精髓其實(shí)不多,當(dāng)然見(jiàn)仁見(jiàn)智了。 觀點(diǎn)1:在建模上,只要數(shù)據(jù)量足夠,就可以用簡(jiǎn)單的模型取代一個(gè)復(fù)雜的模型。 吳軍叫他“數(shù)據(jù)驅(qū)動(dòng)方法”,概率論產(chǎn)生后,人們希望從理論上證明當(dāng)觀察到的數(shù)據(jù)量足夠多了以后,隨機(jī)性和噪聲的影響可以忽略不計(jì),19世界的俄國(guó)數(shù)據(jù)家切比雪夫?qū)@個(gè)問(wèn)題給出了肯定的回答,即切比雪夫不等式: P(|X-E(X)|>=?)<?[1]/n* ?[1] 其中X是一個(gè)隨機(jī)變量,E(X)是該變量的數(shù)學(xué)期望值,n是樣本數(shù),?是誤差,?[1]是方差,這個(gè)公式的含義是,當(dāng)樣本數(shù)足夠多時(shí),一個(gè)隨機(jī)變量(比如觀察到的各個(gè)年齡段觀眾的比例)和它的數(shù)學(xué)期望值(真實(shí)情況)之間的誤差可以任意下。 在大多數(shù)復(fù)雜的應(yīng)用中,需要通過(guò)數(shù)據(jù)建立起一個(gè)數(shù)學(xué)模型,以便在實(shí)際應(yīng)用中使用,要建立模型需要解決兩個(gè)問(wèn)題,首先是采用什么模型,其次是模型的參數(shù)是多少。 模型的選擇不是一件容易的事,在過(guò)去,無(wú)論在理論上還是工程上,大家都把精力放在尋找模型上,有了模型后,第二步就是要找到模型的參數(shù),這一點(diǎn)在過(guò)去的被重視程度遠(yuǎn)不如找模型,今天它有了一個(gè)時(shí)髦的詞-機(jī)器學(xué)習(xí)。 鑒于完美的模型未必存在,即使存在,找到它也不容易,而且費(fèi)時(shí)間,因此就有人考慮是否通過(guò)很多簡(jiǎn)單不完美的模型湊在一起,起到完美模型的效果呢? 答案是肯定的,無(wú)論是切比雪夫不等式,還是工程實(shí)踐,都已經(jīng)證明,只要找到足夠多的具有代表性的樣本(數(shù)據(jù)),就可以運(yùn)用數(shù)學(xué)找到一個(gè)模型或者一組模型的組合,使得它和真實(shí)情況非常接近。 回到數(shù)據(jù)模型,這種方法被稱為數(shù)據(jù)驅(qū)動(dòng)方法,因?yàn)樗窍扔写罅康臄?shù)據(jù),而不是預(yù)設(shè)的模型,然后用很多簡(jiǎn)單的模型去契合數(shù)據(jù)。 在今天的IT領(lǐng)域中,越來(lái)越多的問(wèn)題可以用數(shù)據(jù)驅(qū)動(dòng)方法來(lái)解決,具體講,就是當(dāng)我們對(duì)一個(gè)問(wèn)題暫時(shí)不能用簡(jiǎn)單而準(zhǔn)確的方法解決時(shí),我們可以根據(jù)以往歷史數(shù)據(jù),構(gòu)造很多近似的模型來(lái)逼近真實(shí)情況,這實(shí)際上是用計(jì)算量和數(shù)據(jù)量來(lái)?yè)Q取研究的時(shí)間,這種方法不僅僅是經(jīng)驗(yàn)論,它在數(shù)學(xué)上是有嚴(yán)格保障的。 數(shù)據(jù)驅(qū)動(dòng)方法最大的優(yōu)勢(shì)在于,它可以在最大程度上得益于計(jì)算機(jī)技術(shù)的進(jìn)步,盡管數(shù)據(jù)驅(qū)動(dòng)方法在一開(kāi)始數(shù)據(jù)量不足,計(jì)算能力不夠時(shí),可能顯得有些粗糙,但是隨著時(shí)間的推移,摩爾定律保證了計(jì)算能力和數(shù)量量以一個(gè)指數(shù)級(jí)增長(zhǎng)的速度遞增,數(shù)據(jù)驅(qū)動(dòng)方法可以非常準(zhǔn)確,相比之下,很多其他方法的改進(jìn)需要靠理論的突破,在過(guò)去30年,計(jì)算機(jī)變得越來(lái)越聰明,這并非因?yàn)槲覀儗?duì)特定問(wèn)題的認(rèn)識(shí)有了多大的提高,而是因?yàn)樵诤艽蟪潭壬衔覀兛康氖菙?shù)據(jù)量的增加。 沿著這個(gè)脈絡(luò),我們能解釋很多的概念和現(xiàn)象,我們將統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能基于大數(shù)據(jù)聯(lián)系起來(lái),我們能理解大數(shù)據(jù)導(dǎo)致質(zhì)變的原因,理解為什么要強(qiáng)調(diào)相關(guān)關(guān)系,理解云計(jì)算的現(xiàn)實(shí)意義,理解為什么AlphgoGo在理論沒(méi)什么突破的前提下能夠讓人工智能有個(gè)突破。 我們最終能理解大數(shù)據(jù)的巨大意義,肯定將帶來(lái)自工業(yè)革命,信息革命后的一次智能革命。 觀點(diǎn)2:人工智能成功并非需要理解人類思考的方式,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)可以達(dá)到很高的境界。 努力去理解人是如何思考的方式叫做傳統(tǒng)的人工智能,簡(jiǎn)單來(lái)講,就是首先了解人類是如何產(chǎn)生智能的,然后讓計(jì)算機(jī)按照人的思路去做,今天幾乎所有的科學(xué)家都不堅(jiān)持“機(jī)器要像人一樣思考才能獲得智能”,但是大多人仍然會(huì)望文生義,在談到人工智能時(shí)依然想象著“機(jī)器在像我們那樣思考”,這讓他們即興奮又擔(dān)心,事實(shí)上,當(dāng)我們?cè)俅位氐綀D靈博士描述機(jī)器智能的原點(diǎn)時(shí)發(fā)現(xiàn),機(jī)器智能最重要的是能夠解決人腦所能解決的問(wèn)題,而不在于是否需要采用和人一樣的方法。 這段話非常精辟,能解惑很多問(wèn)題,比如我們現(xiàn)在的人工智能提法是值得商榷的,叫它機(jī)器智能更好,在相當(dāng)長(zhǎng)的時(shí)間內(nèi)也無(wú)需擔(dān)心機(jī)器人像人類那樣做可怕的事情。 如果你對(duì)于機(jī)器無(wú)法做到像人那樣思考有疑惑的話,這里舉個(gè)例子,1968年,明斯基在《語(yǔ)義信息處理》一書(shū)中分析了所謂人工智能的局限性: The pen was in the box(鋼筆在盒子里),這句話很好理解,如果讓計(jì)算機(jī)理解它,做一個(gè)簡(jiǎn)單的語(yǔ)法分析即可,但是另一句語(yǔ)法相同的話:The box was in the pen,就讓人頗為費(fèi)解了,原來(lái),在英文中,pen還有一個(gè)不常用的意思-小孩玩耍的圍欄,事實(shí)上,僅僅這兩句話本身,是無(wú)法判定pen在哪一句話中應(yīng)該作為圍欄,在哪一句中應(yīng)該是鋼筆的意思,事實(shí)上人對(duì)這兩句話的理解并非來(lái)自語(yǔ)法分析和語(yǔ)意本身,而是來(lái)自于他們的常識(shí),這個(gè)問(wèn)題是傳統(tǒng)人工智能方法解決不了的。 語(yǔ)音識(shí)別作為人工智能最核心的研究課題,歷史以來(lái)基于語(yǔ)法規(guī)則和語(yǔ)意規(guī)則的方法從來(lái)達(dá)不到實(shí)用的水平,而基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)卻將其提升到一個(gè)新的水平,也就是說(shuō),與其讓機(jī)器按照人一樣去學(xué)習(xí)語(yǔ)法,還不如基于大量的數(shù)據(jù)采用統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來(lái)解決,也就是上面提到的數(shù)據(jù)驅(qū)動(dòng)方法,這種方法的本質(zhì)就是假如世界上大多數(shù)這么說(shuō),匹配越多的就用這種意思,其核心就是需要足夠多的數(shù)據(jù)來(lái)訓(xùn)練,通信上用馬爾科夫模型解決通信編解碼問(wèn)題,同樣可以適用于語(yǔ)音識(shí)別。 Google當(dāng)前在人工智能很多領(lǐng)域能一騎絕塵,不是說(shuō)他方法有多先進(jìn),而恰恰是其數(shù)據(jù)上的優(yōu)勢(shì),未來(lái)是BAT的,也帶有這份意味,假如我們?cè)僭煲粋€(gè)BAT,也不可能再追上了原來(lái)的了,因?yàn)榍罢邤?shù)據(jù)積累的優(yōu)勢(shì)太大了。 觀點(diǎn)3:機(jī)械思維讓我們覺(jué)得這個(gè)世界是確定的,是強(qiáng)調(diào)因果的,并且創(chuàng)造了輝煌的工業(yè)時(shí)代,但愛(ài)因斯坦的“上帝不擲色子”是錯(cuò)的。 思維方式?jīng)Q定科學(xué)成就,正是有了機(jī)械思維,才直接帶來(lái)工業(yè)大革命的時(shí)代,從歐幾里得、托勒密到牛頓,牛頓是集大成者,其核心思想可以概括成這幾句話: 第一, 世界變化的規(guī)律是確定的,這一點(diǎn)從托勒密到牛頓大家都認(rèn)可。 第二, 因?yàn)橛写_定性做保障,因?yàn)橐?guī)律不僅是可以被認(rèn)識(shí)的,而且可以用簡(jiǎn)單的公式或者語(yǔ)言描述清楚,這一點(diǎn)在牛頓之前,大部分人并不認(rèn)可,而是簡(jiǎn)單地把規(guī)律歸結(jié)為神的作用。 第三, 這些規(guī)律應(yīng)該是放之四海而皆準(zhǔn)的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實(shí)踐,這種認(rèn)識(shí)是在牛頓之后才有的。 歐幾里得的公理化體系幾何學(xué),是對(duì)世界影響力最大的一本書(shū),不僅為幾何學(xué)、數(shù)學(xué)和自然科學(xué)后來(lái)的發(fā)展奠定了基礎(chǔ),而且對(duì)西方人的整個(gè)思維方法都有極大的影響,甚至在法學(xué)界,整個(gè)羅馬法都是建立在類似于歐幾里得公理系統(tǒng)這樣的基礎(chǔ)上的。 托勒密創(chuàng)立了地心說(shuō),在近代史最偉大的天文學(xué)家,其方法論可以被概括為“通過(guò)觀察獲得數(shù)學(xué)模型的雛形,然后利用數(shù)據(jù)來(lái)細(xì)化模型”,直到今天,我們做事情的時(shí)候還是會(huì)首先想到這種方法,比如幾乎所有的經(jīng)濟(jì)學(xué)家理論,都是按照這種方法提出來(lái)的,其核心思想有如下兩點(diǎn):首先,需要有一個(gè)簡(jiǎn)單的元模型,這個(gè)模型可能是假設(shè)出來(lái)的,然后再用這個(gè)元模型構(gòu)建復(fù)雜的模型,其次,整個(gè)模型要和歷史數(shù)據(jù)相符合。 東方的中國(guó)和阿拉伯帝國(guó)雖然在工程和技術(shù)上不斷進(jìn)步,但是既沒(méi)有形成科學(xué)體系,也沒(méi)有在方法論上作出太多的貢獻(xiàn),最終,發(fā)展科學(xué)方法的任務(wù)留給了笛卡爾和牛頓,笛卡爾提出了科學(xué)的方法論,即大膽假設(shè),小心求證,這個(gè)方法論在我們今天的工作中還在使用。 現(xiàn)代工業(yè)無(wú)論是瓦特的蒸汽機(jī)、還是史蒂芬孫的火車,都是機(jī)械思維的產(chǎn)物,其核心思想又可以概括成確定性(或者可預(yù)測(cè)性)和因果關(guān)系。牛頓可以把所有天體運(yùn)動(dòng)的規(guī)律用幾個(gè)定律說(shuō)清楚,并且應(yīng)用到任何場(chǎng)合都是正確的,這就是確定性,類似的,當(dāng)我們對(duì)物體施加一個(gè)外力時(shí),它獲得一個(gè)加速度,而加速度大小取決于外力和物體本身的質(zhì)量,這是一種因果關(guān)系,沒(méi)有這些確定性和因果關(guān)系,我們就無(wú)法認(rèn)識(shí)世界。 如同我們今天在談?wù)摯髷?shù)據(jù)思維和互聯(lián)網(wǎng)思維時(shí)無(wú)意中會(huì)帶有一種優(yōu)越感一樣,在19世界,機(jī)械思維是一個(gè)時(shí)髦的詞匯,人們喜歡用這個(gè)詞表示自己對(duì)近代科技的了解和所具有的理性精神。 愛(ài)因斯坦是機(jī)械思維的集大成者,是確定性和因果關(guān)系的推崇者,但牛頓和愛(ài)因斯坦能找到因果關(guān)系的原因,除了有過(guò)人的智慧外,他們的運(yùn)氣還特別好,或者說(shuō)靈光一現(xiàn),如果說(shuō)牛頓被蘋(píng)果砸中是杜撰出來(lái)的,那么愛(ài)因斯坦從白日夢(mèng)中獲得另類想法搞清楚了廣義相對(duì)論卻是真實(shí)的事情,這個(gè)例子說(shuō)明,人類找到真正的因果關(guān)系是一件很難的事情,里面的運(yùn)氣成分很大,因此機(jī)械思維在認(rèn)識(shí)世界還是有很多的局限性的。 愛(ài)因斯坦有句名言-“上帝不擲色子”,這是他在和量子力學(xué)發(fā)明人波爾等人爭(zhēng)論時(shí)的話,說(shuō)明了機(jī)械思維否認(rèn)不確定性和不可認(rèn)知性,今天我們知道,在這場(chǎng)爭(zhēng)論中,波爾等人是正確的,上帝也擲色子。 觀點(diǎn)4:這個(gè)世界本質(zhì)是不確定性的,且基于信息論,可以用數(shù)據(jù)消除不確定性,其代表了人類對(duì)我們的世界認(rèn)知度的最高境界。 不確定性在我們的世界無(wú)處不在,很多時(shí)候?qū)<覍?duì)未來(lái)的各種趨勢(shì)預(yù)測(cè)是錯(cuò)的,如果細(xì)心的讀者統(tǒng)計(jì),就會(huì)發(fā)現(xiàn)基本上對(duì)錯(cuò)一半,這不是因?yàn)樗麄內(nèi)狈I(yè)知識(shí),而是由于不確定性是這個(gè)世界的重要特征,以至于我們按照傳統(tǒng)搞機(jī)械論的方法難以做出準(zhǔn)確的預(yù)測(cè)。 世界的不確定性來(lái)自于兩個(gè)方面,首先是我們對(duì)這個(gè)世界的方方面面了解得越來(lái)越細(xì)致之后,會(huì)發(fā)現(xiàn)影響世界的變量其實(shí)非常多,已經(jīng)無(wú)法通過(guò)簡(jiǎn)單的辦法或公式計(jì)算結(jié)果,因此寧愿采用一些針對(duì)隨機(jī)事件的方法來(lái)處理它們,比如我們?cè)谄秸淖雷由蠑S一次色子,在其停穩(wěn)之前,我們一般認(rèn)為無(wú)法知道到底哪一面朝上,哪一面朝下,但是其實(shí)在色子離開(kāi)手的瞬間,如果能知道色子準(zhǔn)確的形狀和密度分布,出手的力量和旋轉(zhuǎn)的角速度、空氣流動(dòng)的速度,同時(shí)我們的計(jì)算足夠精準(zhǔn),其實(shí)我們是能知道色子的哪個(gè)點(diǎn)或面接觸到桌面的,如果我們還知道桌面的彈性系數(shù)和色子的彈性系數(shù),以及這兩種材質(zhì)的物理性質(zhì)等因素,我們就能夠計(jì)算出色子彈起的高度和方向,最終計(jì)算出它停下來(lái)時(shí)哪一面朝上。 但是,由于里面很多細(xì)節(jié)難以準(zhǔn)確測(cè)量,比如出手的速度和力量,因此考慮了所有因素計(jì)算出來(lái)的未必準(zhǔn)確,在這種情況下,一般人干脆假定色子每一面朝上的概率是1/6。 不確定性的第二個(gè)因素來(lái)自客觀世界本身,它是宇宙的一個(gè)特性,在微觀世界里,電子在圍繞原子核做高速運(yùn)動(dòng)時(shí),我們不可能同時(shí)準(zhǔn)確地測(cè)量出它在某一時(shí)刻的位置和運(yùn)動(dòng)速度,當(dāng)然也就不能描繪出它的運(yùn)動(dòng)軌跡了,這并非我們的儀器不夠準(zhǔn)確,而是因?yàn)檫@是原子本身的特性,在量子力學(xué)中有一個(gè)測(cè)不準(zhǔn)原理,這與機(jī)械思維所認(rèn)定的世界的確定性是相違背的。為什么呢?因?yàn)槲覀儨y(cè)量活動(dòng)本身影響了被測(cè)量的結(jié)果,對(duì)于股市操作也類似,當(dāng)有人按照某個(gè)理論買或者賣股票時(shí),其實(shí)給股市帶來(lái)了一個(gè)相反的推動(dòng)力,這導(dǎo)致股市在微觀上的走向和理論預(yù)測(cè)的方向相反。 如果世界充滿了不確定性,我們對(duì)未來(lái)世界的認(rèn)識(shí)是否回到了牛頓之前的不可知狀態(tài)?答案是否定的,就拿微觀世界電子運(yùn)動(dòng)來(lái)說(shuō),雖然我們無(wú)法確定電子的準(zhǔn)確位置和速度,但是能夠知道它在一定時(shí)間內(nèi)在核外空間各處出現(xiàn)的概率,在概率論的基礎(chǔ)上,香農(nóng)博士建立了一套完整的理論,將世界的不確定和信息聯(lián)系了起來(lái),這就是信息論,信息論不僅是通信的理論,也給了人們一種看待世界和處理問(wèn)題的新思路。 香農(nóng)在信息論中借用熱力學(xué)里熵的概念,用熵來(lái)描述一個(gè)信息系統(tǒng)的不確定性,接下來(lái)香農(nóng)指出,信息量與不確定性有關(guān):假如我們需要搞清楚一件非常不確定的事,就需要了解大量的信息,可以認(rèn)為,信息量的度量就等于不確定性的多少,想消除系統(tǒng)內(nèi)的不確定性,就要引入信息。 與機(jī)械思維是建立在一種確定性的基礎(chǔ)上鎖截然不同的是,信息論完全建立在不確定基礎(chǔ)上,這種思路成為信息時(shí)代做事情的根本方法,不妨用互聯(lián)網(wǎng)廣告的例子來(lái)說(shuō)明上述原理的作用。 在我們對(duì)用戶一無(wú)所知的情況下,在網(wǎng)頁(yè)投放展示廣告,點(diǎn)擊率非常低,每1000次展示也只能賺到不到0.5美元的廣告費(fèi),因?yàn)檫@等于猜測(cè)用戶的需求,很不準(zhǔn)確,如果我們10萬(wàn)眾廣告,只有10種與用戶相關(guān),那么猜中的可能性就是萬(wàn)分之一,如果用信息論來(lái)度量,它的不確定性為14比特左右。 搜素廣告因?yàn)橛杏脩糨斎氲年P(guān)鍵詞,準(zhǔn)確率會(huì)大幅提高,至于提高了多少,取決于關(guān)鍵詞所提供的信息量,以漢字詞為例,如果一個(gè)搜素輸入兩個(gè)詞,每個(gè)詞平均兩個(gè)漢字,那么大約能提供10-12比特的信息量,這樣大部分不確定就消除了節(jié)點(diǎn)認(rèn)證,假定還從10萬(wàn)種廣告中猜中10個(gè),猜中的可能性就是十幾分之一到幾分之一,因此讀者點(diǎn)擊的可能性大增,在實(shí)際情況中,Google搜素廣告每1000次展示所帶來(lái)的收入大約50美元,比展示廣告高出兩個(gè)數(shù)量級(jí),這就說(shuō)明了信息的作用。類似的,像Facebook通過(guò)挖掘注冊(cè)用戶的使用習(xí)慣,大致能獲得1-2比特的信息量,這樣就將廣告匹配的難度下降了一半左右。 上面雖然是一個(gè)特定的例子,但是反映出在信息時(shí)代的方法論,誰(shuí)掌握了信息,誰(shuí)就能夠獲得財(cái)富,如果工業(yè)時(shí)代,誰(shuí)掌握了資本誰(shuí)就獲取財(cái)富一樣。用不確定性這種眼光看世界,再用信息消除不確定性,不僅能夠賺錢,而且能夠把很多智能型的問(wèn)題轉(zhuǎn)化為信息處理問(wèn)題,具體說(shuō),就是利用信息消除不確定性的問(wèn)題,比如下棋,識(shí)別圖像等,都是從眾多不確定的落子點(diǎn)或全世界人數(shù)中去選擇一個(gè)。 信息論中有一個(gè)重要概念-互信息,可以解釋為什么信息的相關(guān)性可以幫助我們消除不確定性,比如通過(guò)對(duì)大數(shù)據(jù)文本進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),“央行調(diào)整利率”和“股市短期浮動(dòng)”的互信息很大,這證實(shí)了它們之間有非常強(qiáng)的相關(guān)性。 有了信息論這樣一個(gè)工具和方法論后,我們便很容易認(rèn)清大數(shù)據(jù)的本質(zhì)了。首先必須承認(rèn)世界的不確定性,這樣我們就不會(huì)采用確定性的思維方式去面對(duì)一個(gè)不確定的世界,當(dāng)我們了解到信息或者說(shuō)數(shù)據(jù)能夠消除不確定性之后,更能理解為什么大數(shù)據(jù)的出現(xiàn)能夠解決那些智能的問(wèn)題,因?yàn)楹芏嘀悄軉?wèn)題從根本來(lái)講無(wú)非是消除不確定性的問(wèn)題。 實(shí)在無(wú)法確定因果關(guān)系時(shí),數(shù)據(jù)間的相關(guān)性能幫助我們得到想要的答案,這是大數(shù)據(jù)時(shí)代的思維革命。 觀點(diǎn)5:大數(shù)據(jù)的本質(zhì)特征,數(shù)量大、多維度和完備性,并不是空穴來(lái)風(fēng),可以從信息論找到答案。 過(guò)去,數(shù)據(jù)量不夠不足以消除不確定性,因此數(shù)據(jù)的作用其實(shí)有限,很多人忽視它的重要性是必然的,哪個(gè)領(lǐng)域限積攢下足夠的數(shù)據(jù),它的研究進(jìn)展就快一些,具體到機(jī)器智能,語(yǔ)音識(shí)別是最早獲得較多數(shù)據(jù)的領(lǐng)域,因此數(shù)據(jù)驅(qū)動(dòng)的方法從這個(gè)領(lǐng)域產(chǎn)生也就不足為奇了。 關(guān)于數(shù)據(jù)多維度的重要性問(wèn)題,可以從兩個(gè)角度看它,第一是前面提及的互信息,為了獲得相關(guān)性通常需要更多維度的信息,第二個(gè)視角是所謂的交叉驗(yàn)證,比如夏天我們感覺(jué)天氣悶熱會(huì)下雨,但這個(gè)信息還不夠,如果結(jié)合氣壓信息、云圖等多維信息,那么預(yù)測(cè)的準(zhǔn)確性就要大得多,因此大數(shù)據(jù)多維性的重要性,也是有信息論做理論基礎(chǔ)的。 最后,我們從信息論的角度看數(shù)據(jù)完備性的重要性,信息論中有一個(gè)重要的概念-交叉熵,它反映兩個(gè)信息源之間的一致性,當(dāng)兩個(gè)數(shù)據(jù)源完全一致時(shí),交叉熵等于零,反之則很大,所有采用數(shù)據(jù)驅(qū)動(dòng)的方法,建立模型所使用的數(shù)據(jù)和使用模型的數(shù)據(jù)之間需要一致性,否則這種方法就會(huì)失效,在過(guò)去,任何基于概率統(tǒng)計(jì)的模型都有小概率事件覆蓋不到,這被認(rèn)為是數(shù)據(jù)驅(qū)動(dòng)方法的死穴,很多學(xué)科叫它“黑天鵝效應(yīng)”,從數(shù)據(jù)完備性的角度講,就是如果能確保訓(xùn)練模型的數(shù)據(jù)和使用這個(gè)模型的測(cè)試集合是同一個(gè)集合,就可能消滅黑天鵝現(xiàn)象。 觀點(diǎn)6:從因果關(guān)系到強(qiáng)相關(guān)關(guān)系,轉(zhuǎn)變思維方式很重要,這樣才能更好的改變世界。 邏輯推理能力是人類特有的本領(lǐng),給出原因,我們能夠通過(guò)邏輯推理得到結(jié)果,在過(guò)去,我們一直非常強(qiáng)調(diào)因果關(guān)系,一方面是習(xí)慣,另一方面是如果我們找不出原因,常常會(huì)覺(jué)得結(jié)果不是非??尚拧?/span> 按照因果關(guān)系,很多研究將不可能找到答案或者花費(fèi)巨大的成本,這是無(wú)法推動(dòng)社會(huì)快速進(jìn)步的,以研制新藥為例,為了尋找因果關(guān)系,一種處方藥的研制至少需要20年的時(shí)間,花費(fèi)20億美元的投入,這就不奇怪為什么有效的新藥價(jià)格非常昂貴了。 在過(guò)去,由于數(shù)量量有限,而且常常不是多維度的,相關(guān)性很難找得到,即使找到了,人們也未必接受,因?yàn)檫@和傳統(tǒng)觀念不同。比如20世紀(jì)90年代中期,美國(guó)和加拿大圍繞香煙是否對(duì)人體有害這件事情的一些列訴訟上,如何判定吸煙是否有害是這些案件的關(guān)鍵,是采用因果還是采用相關(guān)性,決定了判決結(jié)果。 在今天一般人看來(lái),吸煙對(duì)人體有害,是板上釘釘?shù)氖聦?shí),但即使存在大量的相關(guān)性鐵證,依然“不足夠”以此判定煙草公司有罪,因?yàn)樗麄冋J(rèn)為吸煙和肺癌沒(méi)有因果關(guān)系,煙草公司有很多理由來(lái)辯解,比如一些人所以吸煙,是因?yàn)樯眢w某部分基因缺乏,而導(dǎo)致肺癌的,是這種基因缺陷,而非煙草中的某些物質(zhì),法律上講,這種解釋站得住腳。 但1997年,煙草公司和各州達(dá)成和解,統(tǒng)一賠償3655億美元,這場(chǎng)歷史性勝利的背后,并不是由于找到了因果關(guān)系,恰恰是依然采用了統(tǒng)計(jì)上強(qiáng)相關(guān)性的證據(jù),在這場(chǎng)訴訟中,其實(shí)人們的思維方式已經(jīng)從接受因果關(guān)系,轉(zhuǎn)到接受強(qiáng)相關(guān)關(guān)系上來(lái)了。 我們前面提到,這個(gè)世界本質(zhì)是不確定性的,能找到因果關(guān)系固然好,但對(duì)于復(fù)雜的問(wèn)題,難度非常大,除了物質(zhì)條件、人們的努力、還要靠運(yùn)氣,遺憾的是,大部分時(shí)候我們并沒(méi)有靈感和運(yùn)氣,因此,很多問(wèn)題得不到解決。 可以看到,Google公司的廣告推薦算法當(dāng)前靠因果關(guān)系提升占比已經(jīng)越來(lái)越低,更多的是強(qiáng)調(diào)相關(guān)性的點(diǎn)擊率算法,當(dāng)前任何電商網(wǎng)站的推薦算法基本也是以協(xié)同算法為核心的,在速度和準(zhǔn)度要求越來(lái)越高的互聯(lián)網(wǎng),強(qiáng)調(diào)因果關(guān)系來(lái)解決問(wèn)題是不現(xiàn)實(shí)的,隨著整個(gè)社會(huì)數(shù)據(jù)越來(lái)越多,用相關(guān)性來(lái)解決問(wèn)題的方法必將席卷全行業(yè)。 大數(shù)據(jù)相關(guān)性的提法歷來(lái)爭(zhēng)議很大,吳軍不緊不慢,娓娓道來(lái)緣由,還是很有說(shuō)服力,今天我們面臨的復(fù)雜情況,已經(jīng)不是機(jī)械時(shí)代用幾個(gè)定律就能講清楚的了,不確定性,是今天社會(huì)的常態(tài),在無(wú)法確定因果關(guān)系時(shí),數(shù)據(jù)為我們提供了解決問(wèn)題的新方法,數(shù)據(jù)中所包含的信息幫助我們消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度可以取代原來(lái)的因果關(guān)系,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心,其與原來(lái)的機(jī)械思維并非完全對(duì)立,更多是對(duì)后者的補(bǔ)充,在新的時(shí)代,一定需要新的方法論,也一定會(huì)產(chǎn)生新的方法論。 觀點(diǎn)7:爭(zhēng)當(dāng)2%的人。 這一次由機(jī)器智能帶來(lái)的革命,對(duì)社會(huì)的沖擊將是全方位的,我們所依賴的那些所謂需要智力的工作也在消失,即使有新的行業(yè)出現(xiàn),由于機(jī)器智能的影響,它所需要的就業(yè)人數(shù)相比過(guò)去的老行業(yè)也會(huì)少很多,在智能革命全面到來(lái)的時(shí)候,不可能像過(guò)去那樣,把農(nóng)業(yè)人口變成城市人口,把第一、第二產(chǎn)業(yè)變成第三產(chǎn)業(yè)那么簡(jiǎn)單。 雖然不知道如何在短期內(nèi)消化幾十億勞動(dòng)力的產(chǎn)業(yè),但有個(gè)答案很簡(jiǎn)單,就是爭(zhēng)當(dāng)2%的人,在歷次技術(shù)革命中,一個(gè)人,一家企業(yè),甚至一個(gè)國(guó)家,可以選擇的道路只有2條,要么進(jìn)入前2%的行列,要么被淘汰。抱怨是沒(méi)有用的,至于當(dāng)下怎么才能成為這2%,其實(shí)很簡(jiǎn)單,是踏上智能革命的浪潮。 任何一次技術(shù)革命,最初受益的都是發(fā)展它、使用它的人,而遠(yuǎn)離它、拒絕接受它的人,在很長(zhǎng)時(shí)間里都將是迷茫的一代,這將是一個(gè)讓我們振奮的時(shí)代,也是一個(gè)給我們帶來(lái)空前挑戰(zhàn)的時(shí)代。 如果你能讀到這里,就給個(gè)贊,很多人關(guān)于大數(shù)據(jù)有自己的獨(dú)到看法,不喜歡被說(shuō)教,諸如相關(guān)關(guān)系啥的,也被噴的厲害,但正如吳軍在《硅谷來(lái)信》中提到的一樣,我們需要有科學(xué)的求證精神,但科學(xué)從來(lái)不代表正確,我倒覺(jué)得前面的一些說(shuō)法,的確給人以一些新的啟示。
|
|
|
來(lái)自: 333pmbyz8tcu3s > 《待分類》