1948 年,香農(nóng)提出了“信息熵”(shāng) 的概念,解決了對信息的量化度量問題。
香農(nóng)指出,它的準確信息量應該是
= -(p1*log p1 + p2 * log p2 + ...?。?/span>p32 *log p32),
其中,p1,p2 , ...,p32 分別是這 32 個球隊奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy),一般用符號 H 表示,單位是比特。有興趣的讀者可以推算一下當 32 個球隊奪冠概率相同時,對應的信息熵等于五比特。有數(shù)學基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對于任意一個隨機變量 X(比如得冠軍的球隊),它的熵定義如下:H=-∑pi *log pi
變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
信息熵是信息論中用于度量信息量的一個概念。一個系統(tǒng)越是有序,信息熵就越低;
反之,一個系統(tǒng)越是混亂,信息熵就越高。所以,信息熵也可以說是系統(tǒng)有序化程度的一個度量。
香農(nóng)理論的重要特征是熵(entropy)的概念,他證明熵與信息內(nèi)容的不確定程度有等價關(guān)系。熵曾經(jīng)是波爾茲曼在熱力學第二定律引入的概念,我們可以把它理解為分子運動的混亂度。信息熵也有類似意義,例如在中文信息處理時,漢字的靜態(tài)平均信息熵比較大,中文是9.65比特,英文是4.03比特。這表明中文的復雜程度高于英文,反映了中文詞義豐富、行文簡練,但處理難度也大。信息熵大,意味著不確定性也大。因此我們應該深入研究,以尋求中文信息處理的深層突破。不能盲目認為漢字是世界上最優(yōu)美的文字,從而引申出漢字最容易處理的錯誤結(jié)論。
眾所周知,質(zhì)量、能量和信息量是三個非常重要的量。
人們很早就知道用秤或者天平計量物質(zhì)的質(zhì)量大小。然而,我們關(guān)于熱、燃料、功與能的計量問題,遲至19世紀中葉,隨著熱功當量的明確和能量守恒定律的建立才逐漸清楚。能量一詞就是它們的總稱,而能量的計量則通過“卡、焦耳”等新單位的出現(xiàn)而得到解決。
然而,關(guān)于文字、數(shù)字、圖畫、聲音的知識已有幾千年歷史了。但是它們的總稱是什么,它們?nèi)绾谓y(tǒng)一地計量,直到19世紀末還沒有被正確地提出來,更談不上如何去解決了。20世紀初期,隨著電報、電話、照片、電視、無線電、雷達等的發(fā)展,如何計量信號中信息量的問題被隱約地提上日程。
1928年哈特利(R.V. H. Harley)考慮到從D個彼此不同的符號中取出N個符號并且組成一個“詞”的問題。如果各個符號出現(xiàn)的概率相同,而且是完全隨機選取的,就可以得到DN個不同的詞。從這些詞里取了特定的一個就對應一個信息量I。哈特利建議用N log D這個量表示信息量,即I=N log D 。這里的log表示以10為底的對數(shù)。后來,1949年控制論的創(chuàng)始人維納也研究了度量信息的問題,還把它引向熱力學第二定律。
但是就信息傳輸給出基本數(shù)學模型的核心人物還是香農(nóng)。1948年香農(nóng)長達數(shù)十頁的論文“通信的數(shù)學理論”成了信息論正式誕生的里程碑。在他的通信數(shù)學模型中,清楚地提出信息的度量問題,他把哈特利的公式擴大到概率pi不同的情況,得到了著名的計算信息熵H的公式:
H=∑-pi log pi
如果計算中的對數(shù)log是以2為底的,那么計算出來的信息熵就以比特(bit)為單位。今天在電腦和通信中廣泛使用的字節(jié)(Byte)、KB、MB、GB等詞都是從比特演化而來。“比特”的出現(xiàn)標志著人類知道了如何計量信息量。香農(nóng)的信息論為明確什么是信息量概念作出決定性的貢獻。
事實上,香農(nóng)最初的動機是把電話中的噪音除掉,他給出通信速率的上限,這個結(jié)論首先用在電話上,后來用到光纖,現(xiàn)在又用在無線通信上。我們今天能夠清晰地打越洋電話或衛(wèi)星電話,都與通信信道質(zhì)量的改善密切相關(guān)。
于是在20世紀中葉,人類終于對三個非常重要的概念:質(zhì)量、能量、信息量都有了定量的計量辦法。我們應該牢記,為闡明質(zhì)量概念做出偉大貢獻的是發(fā)現(xiàn)物體力學定律的牛頓(Sir Isaac Newton,1642-1727),為闡明能量概念作出偉大貢獻的是熱力學第一定律的發(fā)現(xiàn)者們:邁耳(Julius Robert von Mayer,1814-1878)、焦耳(James Prescott Joule,1818-1899)、赫爾姆霍茲(Hermann von Helmholtz,1821-1894)、開爾文(Lord Kelvin,1824-1907),而為闡明信息概念作出偉大貢獻的就是香農(nóng)。
20世紀中期隨著原子彈的出現(xiàn),物理學成為最榮耀的科學學科。在隨后的50年里,晶體管、人造衛(wèi)星、集成電路、電腦的飛躍發(fā)展無不與物理學知識的應用有關(guān)。但是我們也驚奇地發(fā)現(xiàn)這些新技術(shù)都是為提高信息的處理能力服務。光榮的物理學家們忙了半個世紀,終于發(fā)現(xiàn)自己僅是給信息科學當仆人。信息量能進入物理學嗎?但“信息不是物質(zhì)”!在物理學的版圖中人們不知道把信息論放到哪里合適。人類知識體現(xiàn)的這種新的混亂局面需要我們不斷地澄清。
后來,他在人工智能方面也做了許多工作。例如他設計了一個電子老鼠來解決迷宮問題。他還研究過四色問題。他設計了國際象棋程序,發(fā)表在1950年的論文《Programming a computer for playing chess》中。1956年在洛斯阿拉莫斯的MANIAC計算機上實現(xiàn)了一個國際象棋的下棋程序。這一年香農(nóng)還發(fā)表論文說明通用圖靈機可以僅用兩個狀態(tài)構(gòu)建。