|

人工智能的基礎(chǔ)是數(shù)學(xué),這一點(diǎn)已經(jīng)是確定無(wú)疑的共識(shí)了。 但“數(shù)學(xué)”二字所包含的內(nèi)涵與外延太廣,到底其中的哪些內(nèi)容和當(dāng)前的人工智能技術(shù)直接相關(guān)呢? 今天我們就來(lái)看看入門(mén)人工智能所需要的數(shù)學(xué)知識(shí)。 人工智能必備高等數(shù)學(xué)知識(shí)點(diǎn)清單AI 技術(shù)崗所要求的高等數(shù)學(xué)知識(shí),大致可以分為四個(gè)方面:微積分、概率統(tǒng)計(jì)、線性代數(shù),和最優(yōu)化理論。 每個(gè)分領(lǐng)域都至少是一本書(shū)(也可以是一摞書(shū))。我們?cè)谶@里暫且抽取和機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相關(guān)的最基礎(chǔ)部分,給大家做一下聚焦: 【微積分】基礎(chǔ)概念(極限、可微與可導(dǎo)、全導(dǎo)數(shù)與偏導(dǎo)數(shù)):只要學(xué)微積分,就必須要明白的概念,否則后面什么都無(wú)法繼續(xù)學(xué)習(xí)。 函數(shù)求導(dǎo):求導(dǎo)是梯度的基礎(chǔ),而梯度是 AI 算法的基礎(chǔ),因此求導(dǎo)非常重要!必須要搞清楚概念,并學(xué)會(huì)常見(jiàn)函數(shù)的導(dǎo)函數(shù)求法。 鏈?zhǔn)椒▌t:符合函數(shù)求導(dǎo)法則,反向傳播算法的理論基礎(chǔ)。 泰勒公式和費(fèi)馬引理:這兩者也是梯度下降法的基礎(chǔ)組成,重要程度與求導(dǎo)相同。 微分方程及其求解:很重要,是部分機(jī)器學(xué)習(xí)模型求解的必備知識(shí)。 拉格朗日乘子法和對(duì)偶學(xué)習(xí):理解 SVM/SVR 的理論基礎(chǔ)。SVM/SVR 作為機(jī)器學(xué)習(xí)模型的常用“中堅(jiān)力量”,其重要程度不言而喻。
【概率統(tǒng)計(jì)】簡(jiǎn)單統(tǒng)計(jì)量(個(gè)數(shù)、最大值、最小值、中位數(shù)、均值、方差)及其物理意義:概率統(tǒng)計(jì)的概念基礎(chǔ)。 隨機(jī)和抽樣:隨機(jī)——概率統(tǒng)計(jì)成立的基礎(chǔ);抽樣——統(tǒng)計(jì)的方法。 頻率和概率,以及概率的基本概念:搞清什么是概率,它和頻率的區(qū)別與聯(lián)系。 幾種常見(jiàn)的概率分布及公式(平均分布、二項(xiàng)分布、正態(tài)分布……) 參數(shù)估計(jì):只知道大致的分布,不知道具體的參數(shù)怎么辦?沒(méi)關(guān)系,我們可以根據(jù)估計(jì)一下。其中最重要的是極大似然估計(jì)。 中心極限定理:如果不知道某事物的概率分布該怎么辦?沒(méi)關(guān)系,就當(dāng)它符合正態(tài)分布好了。可是為什么能這樣近似呢?因?yàn)槲覀冇兄行臉O限定理呀。 假設(shè)驗(yàn)證:到底假設(shè)得對(duì)不對(duì)呢?我們根據(jù)樣本來(lái)驗(yàn)證一下。 貝葉斯公式:太重要啦!是它使得我們可以根據(jù)先驗(yàn)概率來(lái)預(yù)測(cè)后驗(yàn)概率。而樸素貝葉斯公式自己就是樸素貝葉斯模型本身啊。 回歸分析:想想那么多名字里有“回歸”的模型吧! 狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò):概率鏈、隱馬爾可夫模型和條件隨機(jī)場(chǎng)。
【線性代數(shù)】向量與標(biāo)量:用向量和標(biāo)量表示事物特征的差別是什么? 向量空間,向量性質(zhì)及向量的幾何意義:所謂高維低維指的是什么?同一個(gè)向量能否存在于不同的向量空間里?向量的移動(dòng)、轉(zhuǎn)向和拉伸是如何做到的? 線性函數(shù):什么是線性函數(shù),它具備怎樣的性質(zhì)? 矩陣和矩陣運(yùn)算:矩陣出現(xiàn)的目的是什么?掌握矩陣的基礎(chǔ)運(yùn)算(與常數(shù)/向量/矩陣的加法和乘法)。 特殊矩陣(方陣、實(shí)對(duì)稱矩陣、(半)正定/負(fù)定矩陣等)及其性質(zhì):根據(jù)不同的性質(zhì),我們可以劃分出哪些特殊矩陣,它們都有哪些特殊性質(zhì)? 特征值和特征向量:定義、性質(zhì),以及特征值求解。 用矩陣求解微分方程。 正交:什么是正交?函數(shù)的正交,向量的正交,和超平面的正交分別是如何形式化表達(dá)的,又具備怎樣的物理意義。
【最優(yōu)化方法】注意:國(guó)內(nèi)不同教科書(shū)對(duì)于“凸”的定義存在不一致的情況,有些書(shū)上把其他書(shū)上說(shuō)的“凸函數(shù)”叫做“凹函數(shù)”。 直觀而言,我們一向說(shuō)的“凸函數(shù)”是那類一維自變量情況下看起來(lái)像個(gè)“U”,二維自變量下像個(gè)碗的那種函數(shù)。
最優(yōu)化:什么是最優(yōu)化問(wèn)題?什么是最優(yōu)化方法?無(wú)限制條件和有限制條件下的最優(yōu)化方法基本原理分別是什么? 梯度下降法:最基礎(chǔ)最常用的最優(yōu)化方法,以及其他若干最優(yōu)化方法的基礎(chǔ),務(wù)必全面掌握。 其他最優(yōu)化算法:了解其他一些常用最優(yōu)化方法,例如,牛頓法、共軛梯度法、線性搜索算法、模擬退火算法、遺傳算法等。
人工智能背后的數(shù)學(xué)大神們 上述知識(shí)點(diǎn),看起來(lái)好像有點(diǎn)嚇人哦,不像是“我能記得住”的樣子。 有沒(méi)有辦法能夠輕松愉快不累且高效地掌握人工智能(機(jī)器學(xué)習(xí)/深度學(xué)習(xí))領(lǐng)域要用到的數(shù)學(xué)知識(shí)呢? 這里推薦一種筆者在探索中逐步發(fā)現(xiàn)的,簡(jiǎn)單直接又有些趣味的方法:以數(shù)學(xué)家為主線學(xué)習(xí)高等數(shù)學(xué)知識(shí) —— 也就是,“以人為軸”學(xué)AI數(shù)學(xué)。 我們先來(lái)看看下面這些畫(huà)像吧: 
你能認(rèn)出幾個(gè)? 他們分別是(從左到右從上到下依次):牛頓、高斯、貝葉斯、費(fèi)馬、泰勒、拉格朗日、拉普拉斯、傅立葉,和伯努利。 說(shuō)實(shí)話,現(xiàn)在全球數(shù)以千萬(wàn)計(jì)的 AI 技術(shù)人員真應(yīng)該把這些大佬供起來(lái),說(shuō)咱們的飯碗都是他們賞的也不為過(guò)。 牛頓大神發(fā)明了微積分; 輔之以費(fèi)馬引理、泰勒公式,奠定了如今一切 AI 最優(yōu)化算法工程實(shí)現(xiàn)的理論基礎(chǔ)。 拉格朗日乘子法為限定條件下多元函數(shù)的最優(yōu)化問(wèn)題提供了解法。 數(shù)學(xué)王子高斯在概率論和線性代數(shù)領(lǐng)域的非凡貢獻(xiàn)不勝枚舉,僅僅高斯分布一項(xiàng)就堪稱概率論之抗鼎模型。 貝葉斯讓我們可以用既往經(jīng)驗(yàn)預(yù)測(cè)未來(lái)。 伯努利家族不僅在概率論領(lǐng)域貢獻(xiàn)頗豐,就連他家二弟賣給洛必達(dá)的“洛必達(dá)法則”亦是求解具有不定型的極限的不二法門(mén)。 拉普拉斯算子于微積分和線性代數(shù)而言都是非常重要的基石。 傅立葉變換在時(shí)域信號(hào)和頻域信號(hào)之間的橋梁作用成就了整個(gè)語(yǔ)音領(lǐng)域。
當(dāng)然,還有下面這位:  當(dāng)然,無(wú)論微積分、概率統(tǒng)計(jì)還是線性代數(shù),都不是在一日之內(nèi)形成的學(xué)科,都經(jīng)歷了數(shù)百年乃至上千年大量人類頂級(jí)頭腦的思考和探索,對(duì)其做出貢獻(xiàn)的數(shù)學(xué)家燦若繁星。 對(duì)照我們亟待掌握的知識(shí)點(diǎn),以這些理論的提出者為基點(diǎn),沿著數(shù)學(xué)史學(xué)習(xí)之,并同步了解數(shù)學(xué)發(fā)展的進(jìn)程。順便還可以以大神們之間的交往和恩怨等八卦作為潤(rùn)滑劑。 如此一路學(xué)來(lái),既多了許多趣味,又能追本溯源,了解到這些理論提出的現(xiàn)實(shí)背景(例如:物理學(xué)的發(fā)展及其對(duì)數(shù)學(xué)工具的需求)。 在學(xué)理論的同時(shí)了解這一理論最初的作用域和當(dāng)時(shí)解決的實(shí)際問(wèn)題,對(duì)于我們理解其中各類概念的物理意義有著極大的幫助。
|