中國人有句古話叫做:“學以至用”。若干年我一直對這句話封為神靈,因為只用致用才能看到學的效果,了解到學的不足,享受到學的快樂。
搜索引擎在過去兩年的發(fā)展并沒有大突破,但是卻逐步走向成熟,走向商業(yè)。正是這兩年的時間,部分的業(yè)余時間都用來做一些開發(fā)和研究,當我逐漸了解的更多的時候,也是我結束單槍披馬的時候。未來的興趣也許會轉向分類技術,因此希望能夠用這個系列為這段成長歲月化上句號。
所謂暗規(guī)則,其實就是一些生活中非常顯然的規(guī)則,只不過在搜索引擎這個領域表現(xiàn)的不是那么的突出,之所以不夠突出,原因最主要的是因為搜索引擎還在發(fā)展,市場還在進一步加劇競爭,這些暗規(guī)則或多或少已經在反映在現(xiàn)在的搜索引擎上了。相信有一天,這些規(guī)則會被看到的更清晰,更深入。
搜索引擎暗規(guī)則之一
《新約•馬太福音》中有這樣一個故事,一個國王遠行前,交給三個仆人每人一錠銀子,吩咐他們:"你們去做生意,等我回來時,再來見我。"國王回來時,第一個仆人說:"主人,你交給我們的一錠銀子,我已賺了10錠。"于是國王獎勵他10座城邑。第二個仆人報告說:"主人,你給我的一錠銀子,我已賺了5錠。 "于是國王例獎勵了他5座城邑。第三個仆人報告說:"主人,你給我的一錠銀子,我一直包在手巾里存著,我怕丟失,一直沒有拿出來。"于是國王命令將第三個仆人的一錠銀子也賞給第一個仆人,并且說:"凡是少的,就連他所有的也要奪過來。凡是多的,還要給他,叫他多多益善。"
這就是馬太效應。
簡單的說,就是讓富有者更加富有,讓貧窮者更加貧窮。
對于搜索引擎來說,馬太效應是一條暗規(guī)則。10年的發(fā)展期過后,google,yahoo等已經成為市場的絕對主流,利潤的分享趨向與這些超大型的搜索引擎,而不是中小型的搜索引擎。
例如,你可以制作一個搜索引擎,流量是google的1/1000(這個數(shù)目并不大,每天的獨立IP是大約6萬,PageView是30萬),但是你拿到的回報和這個搜索引擎的價值絕對沒有google的1/1000(這個大約是6000萬美金,或者5億人民幣)。
馬太效應還能反應在市場傾向于分化,傾向于使得市場的份額集中在一兩個巨頭的身上。因為市場對領頭羊的投入會拿到比例更高的回報,因此廣告/合作等的機會也會遵從馬太效應,成為領頭羊的東風。
馬太效應還表現(xiàn)在當搜索引擎成為領頭羊的時候,能夠聚合更多的資金人力擴展這個優(yōu)勢,例如啟動一系列的其它的業(yè)務Mp3,Pic search,Vedio等,鞏固和擴大優(yōu)勢。
那么對于中小型的搜索引擎而言,價值在哪里呢?
市場是殘酷的,可以預言現(xiàn)在大多數(shù)的中小型搜索引擎從經濟的角度講都要滅亡,能夠保留下來的一定不會是單純的搜索引擎,也許是被某一個網(wǎng)站收購成為其附加值,也許轉向做企業(yè)內部搜索等現(xiàn)在市場還沒有顯著分化的領域。
我以前曾經寫過20/80 法則 重新闡釋,這里從新提一下:
20/80法則也叫二八定律,即巴萊多定律。巴萊多定律是19世紀末20世紀初意大利經濟學家巴萊多發(fā)明的。他認為,在任何一組東西中,最重要的只占其中一小部分,約20%,其余80%盡管是多數(shù),卻是次要的,因此又稱二八定律。
在搜索引擎的設計上,可以說大多數(shù)的搜索引擎在搜索結果上第一頁有80%的結果是相同的,不同的只有20%。可是正是這20% make different.
這20%的差別也是不同搜索引擎之間的差距,能夠完善這20%將對一個搜索引擎來說是至關重要的。
在另外一方面,對于一個搜索引擎的完善,例如你可以花20%的努力做到80%的效果,而要想提高剩下的20%的效果也許要耗費80%的精力。
一個簡單的例子,一個搜索引擎現(xiàn)在還比較初級,也許分詞和搜索相關的準確率在80%左右,想要進一步提高,也許要調整40,50個參數(shù),調整很多方面的因子,考慮很多的算法,花了極大的精力后發(fā)現(xiàn)只提高了一點,再調整,如此三番,也許很久一段時間后發(fā)現(xiàn)有90%了,這個10%就是大的突破,但是要花去的努力要比從0%到80%大的多的多。
搜索引擎各項參數(shù)的差距也許只有幾個百分點,可是這幾個百分點就是真正的差別,就真得創(chuàng)造了勝者和失敗者。
從搜索的方面看,20 80 法則有另外的意義,80%的搜索集中在20%的少量關鍵詞上,也就是說有20%的搜索詞匯占了80%的總體搜索流量。搜索的詞頻可以通過搜索引擎的每天的統(tǒng)計得到,在某一些特殊的情況,這些分布可以用來對搜索引擎進行非常好的矯正工作。
車東在Google的“破窗”里提到Spam會傳播更多的Spam,這個就是搜索引擎破窗效應的體現(xiàn)。
首先解釋一下什么是破窗理論:
"破窗理論"體現(xiàn)的是細節(jié)對人的暗示效果,以及細節(jié)對整體影響的擴展性
美國心理學家詹巴斗曾經做過一個"偷車實驗 ",將兩輛一模一樣的轎車分別放在一個環(huán)境很好的中產階級社區(qū)和環(huán)境比較臟亂的貧民區(qū),結果發(fā)現(xiàn)貧民區(qū)的車很快被偷走了,而另一輛幾天后仍然完好無損;如果將中產階級社區(qū)的那輛車的天窗玻璃打破,幾個小時后,那輛車也被偷了。
后來,在此實驗基礎上,美國政治學家威爾遜和犯罪學家凱林提出了有名的"破窗理論":如果有人打壞了一棟建筑上的一塊玻璃,又沒有及時修好,別人就可能受到某些暗示性的縱容,去打碎更多的玻璃。
對于搜索引擎來說,前面chedong的例子已經非常明顯,隨著更多的人認識到搜索引擎可以獲取更多的利益,不法之徒當然回去嘗試采用各種作弊手段進行擾亂正常的拍名和搜索結果,如果搜索引擎不即時制止, 這種情況就會泛濫,最好到嚴重的要影響到用戶使用的地步的時候再來處理也就要麻煩的多和面臨更多的作弊者。
看這個搜索結果Google 里搜索 天下無賊免費電影下載,你完全可以想像這樣的結果是對Spam的一種變相的鼓勵。
破窗理論的推論就是注重細節(jié),防微杜漸。一旦有第一個spam出現(xiàn),即時的制止,那么后面的spam也許就不會那么輕易的去搜索引擎上嘗試,因為畢竟敢于做第一(第一個打破窗戶)的人還是少數(shù)。
看看Baidu和Yahoo,在破窗上封堵的就比google快一些,因此基本上現(xiàn)在能夠看到的spam基本上都來自google的結果。
google adsense呢?我以前曾經寫過幾篇關于fraud click(點擊欺騙)的文章,fraud click的破窗隨著google去年把修斯頓的一家公司推上了法庭而彌補好了??墒橇硗庖环N更嚴峻的破窗又出現(xiàn)了,直接危機到google adsense的存亡:廣告內容作弊。