电竞比分网-中国电竞赛事及体育赛事平台

分享

讀書筆記之《人工智能技術(shù)入門》

 AIGC部落 2024-12-14 發(fā)布于廣東

《人工智能技術(shù)入門》一書由楊正洪編著,旨在為讀者提供一個(gè)全面理解人工智能(AI)的框架,并深入探討其核心技術(shù)。本書共有11章,涵蓋了從AI概述到具體技術(shù)應(yīng)用的廣泛內(nèi)容。

楊正洪,畢業(yè)于美國(guó)State University of New York at Stony Brook,在美國(guó)硅谷從事AI和大數(shù)據(jù)相關(guān)研發(fā)工作十余年,華中科技大學(xué)和中國(guó)地質(zhì)大學(xué)客座教授,湖北省2013年海外引進(jìn)人才,并擁有多項(xiàng)國(guó)家專利。楊正洪參與了大數(shù)據(jù)和人工智能的國(guó)家標(biāo)準(zhǔn)的制定,在2016年參與了公安部主導(dǎo)的“信息安全技術(shù):大數(shù)據(jù)平臺(tái)安全管理產(chǎn)品安全技術(shù)要求”的國(guó)家標(biāo)準(zhǔn)制定。楊正洪是中關(guān)村海外智庫(kù)專家顧問和住建部中規(guī)院專家顧問,曾擔(dān)任在美上市公司CTO、北京某國(guó)企CIO和上海某國(guó)企高級(jí)副總裁等職。多年從事人工智能與大數(shù)據(jù)技術(shù)的實(shí)踐,出版了《智慧城市》《大數(shù)據(jù)技術(shù)入門》等多本暢銷書。

以下是對(duì)每個(gè)章節(jié)內(nèi)容的詳細(xì)總結(jié):

第1章:人工智能概述

本章介紹了人工智能的基本概念和發(fā)展歷程,從古希臘神話中的機(jī)器人夢(mèng)想到現(xiàn)代的人工智能研究。作者指出,雖然強(qiáng)人工智能仍然是一個(gè)長(zhǎng)遠(yuǎn)的目標(biāo),但當(dāng)前的研究和應(yīng)用主要集中在弱人工智能上。作者強(qiáng)調(diào)了AI在現(xiàn)代社會(huì)各個(gè)領(lǐng)域的廣泛應(yīng)用,并提出了對(duì)未來發(fā)展的展望。

第2章:AI產(chǎn)業(yè)與應(yīng)用場(chǎng)景

本章討論了AI產(chǎn)業(yè)的發(fā)展現(xiàn)狀及其對(duì)經(jīng)濟(jì)和社會(huì)的影響。作者通過列舉如無人駕駛汽車、人臉識(shí)別等實(shí)際案例,展示了AI如何推動(dòng)不同行業(yè)變革。同時(shí),作者也指出了中國(guó)在政策支持下的AI產(chǎn)業(yè)發(fā)展?jié)摿?,并提到了AI可能帶來的經(jīng)濟(jì)效益。


人工智能產(chǎn)業(yè)分為三層:基礎(chǔ)層、技術(shù)層和應(yīng)用層。其中,基礎(chǔ)層包括芯片、大數(shù)據(jù)、網(wǎng)絡(luò)等多項(xiàng)基礎(chǔ)設(shè)施,為人工智能產(chǎn)業(yè)奠定硬件和數(shù)據(jù)基礎(chǔ)。技術(shù)層包括計(jì)算機(jī)視覺、語音語義識(shí)別、機(jī)器學(xué)習(xí)等,多數(shù)人工智能技術(shù)公司以一項(xiàng)或多項(xiàng)技術(shù)細(xì)分領(lǐng)域?yàn)榍腥朦c(diǎn)。而最終人工智能技術(shù)能否落地且產(chǎn)生巨大的商業(yè)價(jià)值,還需要應(yīng)用層中多場(chǎng)景的應(yīng)用。目前,人工智能技術(shù)應(yīng)用到多個(gè)行業(yè)中,包括金融、安防、智能家居、醫(yī)療、機(jī)器人、自動(dòng)駕駛等。應(yīng)用層市場(chǎng)空間大,參與的企業(yè)多,這些企業(yè)發(fā)展垂直應(yīng)用,解決行業(yè)痛點(diǎn),實(shí)現(xiàn)場(chǎng)景落地。

第3章至第6章:核心技術(shù)(機(jī)器學(xué)習(xí)、特征工程、模型、算法)

這部分內(nèi)容集中講解了機(jī)器學(xué)習(xí)的基礎(chǔ)理論和技術(shù)細(xì)節(jié),包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、回歸分析等常見方法;接著深入探討了特征工程的重要性及實(shí)踐技巧;最后介紹了多種經(jīng)典算法及其應(yīng)用場(chǎng)景。作者特別強(qiáng)調(diào)了數(shù)據(jù)清洗、預(yù)處理以及選擇合適的模型對(duì)于構(gòu)建高效AI系統(tǒng)的關(guān)鍵作用。

這是最簡(jiǎn)單的線性回歸(Linear Regression)模型。因?yàn)橹挥幸粋€(gè)自變量x,所以叫作一元線性回歸。y與x之間的關(guān)系就是這個(gè)任務(wù)中我們所用的模型。對(duì)于模型的概念,可以這樣理解,它刻畫了因變量y和自變量x之間的客觀關(guān)系,即y與x之間存在這樣一種形式的客觀規(guī)律在約束。具體來說,y約等于某個(gè)數(shù)乘以x,再加上另一個(gè)數(shù)。使用這個(gè)模型,就意味著我們認(rèn)定樣本數(shù)據(jù)服從這樣一個(gè)規(guī)律。換句話說,模型是對(duì)處理變量關(guān)系的某種假設(shè)。在機(jī)器學(xué)習(xí)中,a1叫作權(quán)重(Weight),a0叫作偏差(Bias),x是一個(gè)特征(Feature),而y是預(yù)測(cè)的標(biāo)簽。訓(xùn)練一個(gè)模型就是從訓(xùn)練數(shù)據(jù)中確定權(quán)重和偏差的最佳值。箭頭部分表示了預(yù)測(cè)值(或推測(cè)值)和真實(shí)值之間的差距,這叫誤差(Loss)。如果這個(gè)模型很完美,那么誤差應(yīng)該接近0。訓(xùn)練的目標(biāo)是找到讓誤差最小的權(quán)重和偏差。

左圖用一條直線分割平面,模型過于簡(jiǎn)單,對(duì)直線右側(cè)的紅色標(biāo)簽數(shù)據(jù)(叉叉)刻畫較差,屬于欠擬合(Underfitting);而右圖則用了比較復(fù)雜的模型,對(duì)樣本集的數(shù)據(jù)全部照顧,屬于過度擬合(Overfitting)。過度擬合是參數(shù)過多,對(duì)訓(xùn)練集的匹配度太高、太準(zhǔn)確,以至于在后面的預(yù)測(cè)過程中可能會(huì)導(dǎo)致預(yù)測(cè)值非常偏離,預(yù)測(cè)非常不準(zhǔn)確。中間的圖是合適的擬合。

“狼來了”模型的4種情況:

腫瘤模型的4種情況:

準(zhǔn)確率(Accuracy)是我們最常見的評(píng)價(jià)指標(biāo),Accuracy=(TP+TN)/所有樣本數(shù),這個(gè)很容易理解,就是被分對(duì)的樣本數(shù)除以所有的樣本數(shù)。通常來說,準(zhǔn)確率越高,分類器越好。

精確率(Precision)指標(biāo)嘗試回答以下問題:在被識(shí)別為正類別的樣本中,確實(shí)為正類別的比例是多少?以前面的狼來了例子為例,這個(gè)參數(shù)的意思是我們是否說“狼來了”太多了。在小男孩說“狼來了”的情況中,有多少次是對(duì)的?他說“狼來了”的精確率如何?

召回率:在所有正類別樣本中,被正確識(shí)別為正類別的比例是多少?以前面的“狼來了”為例,這個(gè)參數(shù)的意思是我們錯(cuò)過了多少“狼來了”。召回率指標(biāo)則是指在所有試圖進(jìn)入村莊的狼中,我們發(fā)現(xiàn)了多少頭?

第7章:深度學(xué)習(xí)

本章專門介紹深度學(xué)習(xí)這一當(dāng)前最熱門的技術(shù)方向,解釋了神經(jīng)網(wǎng)絡(luò)的工作原理,并講述了TensorFlow等流行框架的使用方法。作者認(rèn)為,隨著計(jì)算能力提升和大數(shù)據(jù)積累,深度學(xué)習(xí)已經(jīng)成為實(shí)現(xiàn)復(fù)雜任務(wù)的有效手段之一。

第8章、第9章:TensorFlow

介紹了 TensorFlow的具體使用。

第10章:神經(jīng)網(wǎng)絡(luò)

探討了不同類型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其優(yōu)化策略,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于圖像處理、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適用于序列數(shù)據(jù)分析等。作者還提及了對(duì)抗生成網(wǎng)絡(luò)(GAN)等前沿課題。

神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、網(wǎng)狀結(jié)構(gòu)和激活函數(shù)構(gòu)成。每一個(gè)節(jié)點(diǎn)都是一個(gè)神經(jīng)元,神經(jīng)網(wǎng)絡(luò)通過網(wǎng)狀結(jié)構(gòu)將每一層的信息傳遞給下一層。而信息傳遞的方式正是前文描述的通過線性組合生成新的神經(jīng)元的形式。神經(jīng)網(wǎng)絡(luò)看似復(fù)雜,但簡(jiǎn)單來說,其實(shí)只干了三件事:

(1)對(duì)輸入變量施加線性組合。

(2)套用激活函數(shù)。

(3)重復(fù)前兩步。

神經(jīng)網(wǎng)絡(luò)的核心在于激活函數(shù)。激活函數(shù)的存在使得神經(jīng)網(wǎng)絡(luò)由線性變?yōu)榉蔷€性。如果不使用激活函數(shù)或只使用線性激活函數(shù),則不能達(dá)到深度學(xué)習(xí)的目的,這是因?yàn)榫€性組合的線性組合仍然是原變量的線性組合。激活函數(shù)通常有ReLU、Sigmoid、Tanh等。

深度學(xué)習(xí)最大的一個(gè)優(yōu)勢(shì)在于,它整合了特征提取的過程,可以自動(dòng)學(xué)習(xí)數(shù)據(jù)集的特征。我們?cè)谇拔闹刑岬?,特征工程是機(jī)器學(xué)習(xí)極其重要的一個(gè)環(huán)節(jié),需要我們?cè)谑褂脵C(jī)器學(xué)習(xí)模型之前建立合適的特征集。但復(fù)雜、多層的神經(jīng)網(wǎng)絡(luò)具有自主學(xué)習(xí)原始特征并進(jìn)行特征工程的能力,這讓我們?cè)谝欢l件下可以省去手動(dòng)進(jìn)行特征工程這一步驟,因?yàn)樯疃葘W(xué)習(xí)模型本身可以幫我們做到。深度學(xué)習(xí)之所以能從原始數(shù)據(jù)中學(xué)習(xí)特征,其背后的原理大致可以這樣解釋:深度學(xué)習(xí)模仿了生物學(xué)神經(jīng)元傳遞的過程,這一過程與人腦的工作原理十分相似。

在訓(xùn)練深度網(wǎng)絡(luò)時(shí)還有一個(gè)很有用的技巧,即正則化的另一種形式,叫作隨機(jī)失活(Dropout),可用于神經(jīng)網(wǎng)絡(luò)。其工作原理是,在梯度下降法的每一步中隨機(jī)讓一些網(wǎng)絡(luò)單元失去作用(失活)。失活的單元越多,正則化效果就越強(qiáng)。隨機(jī)失活為什么可以減少過度擬合?因?yàn)椋阂话闱闆r下,對(duì)于同一組訓(xùn)練數(shù)據(jù),利用不同的神經(jīng)網(wǎng)絡(luò)訓(xùn)練之后,求其輸出的平均值可以減少過度擬合。隨機(jī)失活(Dropout)就是利用這個(gè)原理,每次失活一半的隱藏層神經(jīng)元,相當(dāng)于在不同的神經(jīng)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,這樣就減少了神經(jīng)元之間的依賴性,即每個(gè)神經(jīng)元不能依賴于某幾個(gè)其他的神經(jīng)元(是指層與層之間相連接的神經(jīng)元),使神經(jīng)網(wǎng)絡(luò)更加能學(xué)習(xí)到與其他神經(jīng)元之間的更加健壯的特征。隨機(jī)失活不僅減少過度擬合,還能提高準(zhǔn)確率。

第11章:人工智能應(yīng)用

AI在銀行業(yè)、醫(yī)療、公共安全、制造業(yè)的應(yīng)用。

這本書對(duì)神經(jīng)網(wǎng)絡(luò)的技術(shù)原理講解深入淺出,非常適合入門。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多