計算機(jī)不僅可以是解決數(shù)學(xué)問題的工具,還可以是擁有實(shí)時交互能力,協(xié)助人類解決問題,甚至完成創(chuàng)造性工作的輔助系統(tǒng)。具有可交互界面的的機(jī)器學(xué)習(xí)工具,可以幫助人類更高效地設(shè)計字體、制作圖片,甚至創(chuàng)造出藝術(shù)作品。人工智能可以大大增強(qiáng)人類智能,本文詳細(xì)介紹了這方面的一些探索。
1.計算機(jī)可以被用來做什么? 在歷史上,這個問題的不同答案——即對計算的不同見解——有助于啟發(fā)和確立最終建立的人性化計算系統(tǒng)。早期的電子計算機(jī) ENIAC,是世界上第一臺通用電子計算機(jī),它的目的是為美國軍隊(duì)計算火炮射擊表。其他早期的計算機(jī)也被用于解決數(shù)值問題,如模擬原子彈爆炸、預(yù)測天氣、規(guī)劃火箭的運(yùn)動。在批處理模式下運(yùn)行的機(jī)器,使用粗糙的輸入和輸出設(shè)備,而且沒有任何實(shí)時的交互。這種觀點(diǎn)把計算機(jī)看作是數(shù)值處理機(jī)器,用于加速在之前要花費(fèi)數(shù)周、數(shù)月或需要一個團(tuán)隊(duì)人力才能完成的計算任務(wù)。在20世紀(jì)50年代,對計算機(jī)用來做什么的另一個不同的觀點(diǎn)開始發(fā)展起來。在1962年,當(dāng) Douglas Engelbart 提出計算機(jī)可以被看作一種增強(qiáng)人類智能[1]的方式時,這個觀點(diǎn)開始變得明確起來。在這種觀點(diǎn)下,計算機(jī)不是主要解決數(shù)值計算問題的工具,而是實(shí)時交互的系統(tǒng),有著豐富的輸入和輸出,使得人類可以一起工作來支持和擴(kuò)展他們自己解決問題的過程。這種智能增強(qiáng)(Intelligence Augmentation,簡稱IA)的觀點(diǎn)深深地影響了很多其他人,包括研究員如施樂帕克研究中心(Xerox PARC 的 Alan Kay 和企業(yè)家如蘋果的 Steve Jobs,而且導(dǎo)致了很多現(xiàn)代計算系統(tǒng)的關(guān)鍵想法的產(chǎn)生。這個觀點(diǎn)同樣深深地影響了數(shù)字藝術(shù)與音樂,還有交互設(shè)計、數(shù)據(jù)可視化、計算創(chuàng)造力和人機(jī)交互等領(lǐng)域。 IA領(lǐng)域的研究經(jīng)常和人工智能(Artificial Intelligence,簡稱AI)的研究相互競爭:在研究經(jīng)費(fèi)上的競爭,吸引有才能的研究員上的競爭。盡管這兩個領(lǐng)域之間總是存在著交叉,但是IA通常專注于構(gòu)建系統(tǒng)使人類和機(jī)器可以共同協(xié)作,而AI則專注于將智能任務(wù)完全外包給機(jī)器。尤其是,AI的問題通常專注于匹配或者超過人類水平:在象棋或圍棋上打敗人類;學(xué)會像人類一樣識別語音和圖像或翻譯語言;等等。 本文描述了一個新的領(lǐng)域,這個領(lǐng)域來自于AI和IA的綜合。我們建議將這個領(lǐng)域命名為人工智能增強(qiáng)(artificial intelligence augmentation,簡稱AIA):使用AI系統(tǒng)幫助開發(fā)智能增強(qiáng)(IA)的新方法。這個新領(lǐng)域引入了新的重要的基礎(chǔ)問題,這些問題無法關(guān)聯(lián)到任何的父領(lǐng)域中。我們相信 AIA 的原理和系統(tǒng)將會與大多數(shù)存在的系統(tǒng)完全不同。 我們的文章開始于對近期技術(shù)工作的調(diào)查,這些工作隱含了人工智能增強(qiáng)技術(shù),包括生成式界面(generative interfaces)的工作——可用于探索和可視化生成機(jī)器學(xué)習(xí)模型。這樣的模型發(fā)展出一種生成模型的制圖學(xué),使人們可以用于去探索模型以及從模型中構(gòu)建意義,并且融合模型知道的信息到他們創(chuàng)造性的工作中。 本文不僅僅是技術(shù)工作的綜述。我們相信這是個好的時間點(diǎn),在這個新領(lǐng)域的建立中識別出一些廣泛而根本的問題。這些新工具能夠多大程度激發(fā)創(chuàng)造力?他們能被用于生成令人驚訝的新的想法嗎?還是說這些想法只是陳詞濫調(diào),是基于現(xiàn)存想法的無價值的再結(jié)合?這樣的系統(tǒng)能被用于發(fā)展出基礎(chǔ)性的新的接口基元嗎?這些新的基元將會如何改變和擴(kuò)大人類思考的方式呢? 2.使用生成模型產(chǎn)生有意義的創(chuàng)意操作 讓我們看一個例子,機(jī)器學(xué)習(xí)模型使一類新的接口成為可能。為了理解接口,想象你是一個字體設(shè)計師,正在創(chuàng)造一種新的字體。在描述了一些最初的設(shè)計后,你希望用粗體、斜體和壓縮的變體進(jìn)行試驗(yàn)。讓我們看看一個工具,能從初始設(shè)計中生成和探索這些變體。結(jié)果的質(zhì)量是相當(dāng)粗糙的,我們將在稍后解釋具體原因,請諒解。當(dāng)然,變化粗度(如重量)、斜度和寬度只是變化字體的三種方法。想象一下不是構(gòu)造特定的工具,而是用戶可以僅僅通過選擇現(xiàn)存的字體樣例來構(gòu)造他們自己的工具。比如,假設(shè)你想變化字體的襯線的程度。在下面,請在頂部的盒中,選擇5至10個無襯線字體,然后拖到左邊的盒子;接著選擇5至10個襯線字體,拖到右邊的盒子。當(dāng)你在操作時,運(yùn)行在瀏覽器中的機(jī)器學(xué)習(xí)模型將會自動從這些例子中,推測出如何在襯線或無襯線的方向上對初始字體進(jìn)行調(diào)整: 原文中的控件1截圖(可點(diǎn)擊 閱讀原文 操作) 實(shí)際上,我們使用這個相同的技術(shù)構(gòu)造了上面的粗體、斜體和濃縮工具。為了實(shí)現(xiàn)工具,我們使用了下面的例子:粗體和非粗體、斜體和非斜體、濃縮和非濃縮字體: 為了構(gòu)建這些工具,我們使用了生成模型(generative model),具體使用的是James Wexler[2] 訓(xùn)練的模型。為了理解生成模型的用法,想象一下描繪一個字體原本似乎需要大量的數(shù)據(jù)。比如,如果字體是 64x64 的像素,那么我們需要 64x64=4096 個參數(shù)去描述單個字形。但是我們可以使用生成模型找到一個更簡單的描述。 我們通過構(gòu)建一個神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),它只使用了少量的輸入變量,叫隱變量(latent variable),來產(chǎn)生整個的字形輸出。在我們使用的模型中,隱變量空間維度是40維,并將其映射到4096維可以描述所有字形像素的空間中。換句話說,這個想法是將一個低維的空間映射到一個高維空間:
我們使用的生成模型是一類叫做變分自編碼器(variational autoencoder, VAE)[3]的神經(jīng)網(wǎng)絡(luò)。對我們的目的來說,生成模型的細(xì)節(jié)并不是很重要。重要的是,通過改變作為輸入的隱變量,能夠得到不同的字體作為輸出。所以隱變量的一種選擇將會產(chǎn)生一種字體,然而另一種選擇將會產(chǎn)生另一個不同的字體:
你可以把隱變量看成是一種緊湊的、高層次的字體表示。神經(jīng)網(wǎng)絡(luò)輸入高層次表示,并且轉(zhuǎn)化成全像素數(shù)據(jù)。值得注意的是,我們只需要40個數(shù)字就能捕捉一個字形的表面復(fù)雜性,而最初需要4096個變量。 我們使用的生成模型是從 Bernhardsson[4] 在公開網(wǎng)頁收集的超過5萬個字體的訓(xùn)練集中學(xué)習(xí)到的。在訓(xùn)練中,網(wǎng)絡(luò)的權(quán)重和偏置被調(diào)整,只要隱變量被恰當(dāng)?shù)剡x擇,就能使得網(wǎng)絡(luò)輸出對任意訓(xùn)練集字體的近似。在某種程度上,模型在學(xué)習(xí)一個所有訓(xùn)練集字體的高度壓縮的表示。 實(shí)際上,模型不僅重現(xiàn)了訓(xùn)練字體,而且能泛化、產(chǎn)生訓(xùn)練集中沒有的字體。通過被強(qiáng)制尋找訓(xùn)練樣本的一個緊湊描述,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了一個抽象的、更高層次的字體表征模型。更高層次的模型使得在已知的訓(xùn)練樣本上的泛化成為可能,能產(chǎn)生具有真實(shí)感的字體。 理想情況下,一個好的生成模型在面對少量訓(xùn)練樣本時,能夠利用它泛化到所有可能的人類可識別的字體的空間。對任意可能的字體——已經(jīng)存在的或可能在未來可想象的——我們可能找到正好對應(yīng)那個字體的隱變量。當(dāng)然我們使用的模型還遠(yuǎn)達(dá)不到理想的效果——一個非常嚴(yán)重的失敗是很多模型生成的字體遺漏了大寫字母“Q”的尾部(你可以在上面的例子中看到)。然而,記住一個理想的生成模型能做什么還是有用的。 在某些方式上,這些生成模型類似于科學(xué)理論的作用方式。科學(xué)理論經(jīng)常極大地簡化對出現(xiàn)的復(fù)雜現(xiàn)象的描述,把大量的變量減少為僅僅很少的變量,并從中可以推導(dǎo)出系統(tǒng)行為的很多方面。而且,好的科學(xué)理論有時能夠被一般化來發(fā)現(xiàn)新的現(xiàn)象。 作為一個例子,考慮普通的物體。這些物體有著物理學(xué)家稱為相(phase)的東西——它們可能是液態(tài)、固態(tài)、氣態(tài)或有時可能更奇異,像超導(dǎo)體或波爾-愛因斯坦凝聚態(tài)。起初,這樣的系統(tǒng)看起來極其復(fù)雜,涉及到10^23或更多的分子。但是熱力學(xué)定律和統(tǒng)計力學(xué)使我們找到一個更簡單的描述,把復(fù)雜性減少為僅僅幾個變量(溫度、壓力等等),但是包含了系統(tǒng)的大量行為。而且,有時可能被一般化來預(yù)測意想不到的新的相態(tài)。例如,在1924年,物理學(xué)家使用熱力學(xué)和統(tǒng)計力學(xué)預(yù)測了一個顯著的新的相態(tài),波爾-愛因斯坦凝聚態(tài),其中所有原子可能全部處于相同的量子狀態(tài),導(dǎo)致驚人的大規(guī)模量子干涉效應(yīng)。稍后我們在關(guān)于創(chuàng)造性和生成模型的討論中會回到這種預(yù)測能力上的話題上來。 回到生成模型的具體細(xì)節(jié)上來,我們?nèi)绾问褂眠@種模型做基于樣例的推理,像上述工具所展示的?讓我們考慮粗體工具的情形,在那個例子中,我們分別對所有用戶指定的粗體字體和非粗體字體取均值。然后,我們計算這兩個均值向量的差:
我們把它成為稱為粗體向量(bolding vector),為了使給定的字體變粗,我們簡單地加入一點(diǎn)粗體向量到相關(guān)的隱變量中,加入粗體向量的量控制著結(jié)果的粗度:
這個技術(shù)是由 Larsen 等人[5]提出的,類似粗體向量的向量有時叫做屬性向量(attribute vectors)。相同的想法被用于所有上述的工具的實(shí)現(xiàn)中。于是,我們利用樣例字體產(chǎn)生一個粗體向量、一個斜體向量、一個壓縮向量和一個用戶自定義的襯線向量。所以,這個界面提供了在這四個方向上隱空間的一個探索方法。 我們展示的工具有很多的不足。比如,我們從中間的樣例字體開始,分別向右或向左,增加或減小字體的粗度: 檢查在左邊和右邊的字體,我們看到很多不幸的變形。尤其最右邊的字體,邊緣開始變得粗糙,襯線開始消失。一個更好的生成模型會減少這些變形。這是一個好的長期的研究項(xiàng)目,它展現(xiàn)了很多有趣的問題。但是即使是當(dāng)前的模型,生成模型的使用同樣有著引人注目的優(yōu)勢。 為了理解這些優(yōu)勢,考慮一種簡單的加粗方法,我們簡單地加入一些額外的像素在字體的邊緣,使其變厚。盡管這種加厚可能符合一種非專家的思考字體設(shè)計的方式,但是專家會做更多深入的事情。下面,我們展示了這種簡單加厚程序結(jié)果和 Georgia 和 Helveticade 所做的字體的比較: 正如看到的,簡單的加粗方法在兩種情形下都產(chǎn)生了相當(dāng)不同的結(jié)果。例如,在 Georgia 的結(jié)果中,左邊筆畫只加粗改變了一點(diǎn)點(diǎn),而右邊的筆畫極大地被增大,但是只在一邊。在兩種字體中,加粗不會改變字體的高度,然而這種簡單的方法會改變。 如這些例子展現(xiàn)的,好的加粗方法不是一個簡單的加厚字體的過程。專業(yè)的字體設(shè)計師有很多關(guān)于粗體的啟發(fā)式,這些啟發(fā)是從很多過去的實(shí)驗(yàn)中和歷史樣例的仔細(xì)研究中推斷出來。在傳統(tǒng)程序中捕捉這些啟發(fā)是個繁重的工作。使用生成模型的好處是它可以自動學(xué)習(xí)很多的啟發(fā)。 例如,一個簡單的粗體工具會在字母“A”的封閉的上部區(qū)域,快速地填充封閉的負(fù)空間。字體工具不會這樣做,它會保留封閉的負(fù)空間,向下移動'A'的橫桿,相比于外部更加緩慢地填充內(nèi)部筆畫。在上述例子中,這個原則是明顯的,尤其對 Helvetica ,它也被看成是字體工具的操作:
保留封閉負(fù)空間的啟發(fā)不是一個明顯的先驗(yàn)直覺,然而,它在很多專業(yè)的字體設(shè)計中被采用。如果檢查上面的例子,你會容易知道為什么:它提高了清晰度。在訓(xùn)練中,我們的生成模型從它看過的樣例中自動推測出這個原則,而且我們的加粗界面將其提供給用戶。 實(shí)際上,模型捕捉到很多其他的啟發(fā)。比如,在上面的例子中,字體的高度是幾乎不變的,這是專業(yè)字體設(shè)計中的規(guī)范。同樣,粗體操作不僅僅是將字體的加粗,而是應(yīng)用了一個從生成模型推測出的更微妙的啟發(fā)。這些啟發(fā)式可以被用于創(chuàng)造帶有屬性的字體,而這些屬性是之前用戶幾乎不可能想到的。所以,這個工具擴(kuò)展了普通人類在有意義的字體空間中的探索能力。 字體工具是認(rèn)知技術(shù)的一個例子。尤其,它包含的基本操作能夠內(nèi)化為用戶思考方式一部分。在這里,它類似于一個 Photoshop 或3D圖形軟件。它們都提供了一組新奇的界面基元,這些基本元素能被用戶內(nèi)化為他們思考過程中基本的新元素。新元素內(nèi)化是很多智能增強(qiáng)領(lǐng)域工作的基礎(chǔ)。 字體工具中的想法可以擴(kuò)展到其他領(lǐng)域。使用相同的接口,我們可以使用一個生成模型來操作人臉圖像,如基于表情、性別或頭發(fā)顏色等屬性;或基于長度、諷刺或語氣操作句子;或基于化學(xué)性質(zhì)操作分子: 原文中的控件2操作演示 該生成接口提供了一種生成模型的繪圖法,一種人類使用生成模型探索和創(chuàng)造意義的方法。 我們之前看到字體模型自動地推理出關(guān)于字體設(shè)計的相對深刻的原則,并提供給用戶。然而這樣的深刻原則能被推理出來是很好的,但是有時,模型推測出一些錯誤或令人不快的東西。例如,White 指出[6]一些臉部模型中微笑向量的加入將會使臉部不僅僅出現(xiàn)更多微笑,而且變得更女性化。為什么呢?因?yàn)樵谟?xùn)練數(shù)據(jù)中,微笑的女性比微笑的男性更多。所以,這些模型不僅僅學(xué)習(xí)到關(guān)于世界的深刻事實(shí),而且同時內(nèi)化了偏見或錯誤的信仰。一旦偏差被知道,通常它是可能被糾正的。但是為了找到那些偏見需要對模型進(jìn)行仔細(xì)的審核,而且迄今我們?nèi)圆磺宄绾伪WC這些審核是徹底的。 更廣泛地說,我們可以問為什么屬性向量有作用,它們什么時候起作用,什么時候不起作用?現(xiàn)在,我們對這些問題的答案了解甚少。 為了使屬性工作,我們需要輸入任意開始字體,通過在隱空間中加入相同向量來構(gòu)造相關(guān)的粗體版本。然后,我們知道,沒有理由使用單個常量向量的移動才會工作,也許我們應(yīng)該用很多不同的移動方法。比如,用于粗體襯線和無襯線字體的啟發(fā)是相當(dāng)不同的,所以似乎應(yīng)該使用非常不同的移動方法: ? 當(dāng)然,我們可以做比使用單個常量屬性向量更復(fù)雜的事情。給定一對樣例字體(非粗體,粗體),我們能夠訓(xùn)練一個機(jī)器學(xué)習(xí)算法,輸入非粗體版本的隱向量,輸出粗體版本的隱向量。給出更多字體權(quán)重的訓(xùn)練數(shù)據(jù),機(jī)器學(xué)習(xí)算法能學(xué)習(xí)生成任意權(quán)重的字體。屬性向量只是一種實(shí)現(xiàn)這類操作的極其簡單的方法。 由于這些原因,屬性向量將不太可能作為一種最終的操作高層次特征的方法。在未來幾年,更好的方法將會發(fā)展出來。然而,我們?nèi)阅軌蚱谕涌谀軌蛱峁V泛地類似于上面描述的操作,能夠操作高層次的和潛在的用戶定義的概念。接口模式不再依賴于屬性向量的技術(shù)細(xì)節(jié)。 3.交互生成對抗模型 讓我們看另一個使用機(jī)器學(xué)習(xí)模型增強(qiáng)人類創(chuàng)造力的例子。它是2016年,Zhu等人[9]提出的交互生成對抗網(wǎng)絡(luò)(interactive generative adversarial networks)或iGAN。 這篇文章中的一個例子是在一個接口中使用 iGAN 生成消費(fèi)品的圖片,如鞋子。傳統(tǒng)上,這個接口需要程序員編寫一個包含大量鞋子相關(guān)知識的程序:鞋底、鞋帶、鞋跟等等。Zhu 等人沒有這樣做,而是使用從 Zappos 下載的5萬張鞋子的圖片,訓(xùn)練了一個生成模型。然后他們使用這個生成模型構(gòu)建了一個界面讓用戶可以大概地描述鞋子的形狀、鞋底、鞋帶等等: 視覺效果并不是太好,部分因?yàn)?Zhu 等人使用的生成模型在現(xiàn)代(2017)的標(biāo)準(zhǔn)中是過時的——使用更現(xiàn)代的模型,視覺效果會更好。 但是視覺效果不是重點(diǎn)。在這個原型中,很多有趣的事情正在發(fā)生。比如,注意當(dāng)鞋底被填滿時,鞋子的整體形狀會如何顯著地變化——它變得更窄和更光滑。很多小的細(xì)節(jié)被填滿,像白色鞋底上方的黑條,和鞋子上部到處填滿的紅色。這些和其他的事實(shí)是自動從底層的生成模型中推斷出來的,我們將會簡單描述該方法。 相同的界面可能被用于描述風(fēng)景。唯一的區(qū)別是背后的生成模型使用的是風(fēng)景圖片來訓(xùn)練,而不是鞋子的圖片。在這種情形下,只描述和風(fēng)景相關(guān)的顏色變得可能。例如,這是用戶在描述一些綠色的草、山的輪廓、一些藍(lán)天和山上的雪: 在這些接口中使用的生成模型不同于我們的字體模型,不是使用變分自編碼器,而是基于生成對抗網(wǎng)絡(luò)(generative adversarial networks, GANs)。但是背后的想法仍然是找到一個低維的隱空間,能夠表示所有的風(fēng)景圖片,并且將該隱空間映射到相關(guān)的圖片中。同樣,我們可以認(rèn)為隱空間中的點(diǎn)是描述風(fēng)景圖片的一種緊湊的方法。 大概來說,iGAN 的工作方式如下所示。不論當(dāng)前的圖片是什么,它關(guān)聯(lián)到隱空間中的一些點(diǎn):
假設(shè),如之前視頻中發(fā)生的,用戶現(xiàn)在用筆劃描述山的形狀輪廓。我們可以認(rèn)為筆劃是圖片上的一個約束,在隱空間中選擇一個子空間,該子空間由匹配輪廓的圖片的所有隱空間中的點(diǎn)組成:
接口工作的方法是找到隱空間中一個距離當(dāng)前圖片最近的點(diǎn),所以圖片不僅變化很大,同時也接近滿足強(qiáng)制的約束。這是通過優(yōu)化一個目標(biāo)函數(shù)實(shí)現(xiàn)的,該目標(biāo)結(jié)合了到每個強(qiáng)制約束的距離和偏移當(dāng)前點(diǎn)的距離。如果只有單個約束,比如,關(guān)于山的筆劃,它看起來如下圖:
然后,我們可以把它看作是一種應(yīng)用對隱空間的約束,用有意義的方式移動圖片。 iGAN 和我們之前展示的字體工具有很多共同點(diǎn)。它們的操作都編碼了很多關(guān)于世界的精細(xì)的知識,比如當(dāng)它學(xué)習(xí)理解山看起來是什么或加粗字體時,推測出封閉負(fù)空間應(yīng)該保留。iGAN 和字體工具都提供了理解和在高維空間導(dǎo)航的方法,使我們保持在字體、鞋子或風(fēng)景的自然空間中。 如 Zhu 等人提到的:
像字體工具一樣,iGAN 是一種認(rèn)知技術(shù)。用戶可以內(nèi)化界面的操作為他們思考中的新的基本元素。比如,在鞋子的例子中,他們可以學(xué)習(xí)用他們想要應(yīng)用的差異來思考,如加入鞋跟或更高的頂部或特別的高亮。這比傳統(tǒng)方式中非專家對鞋子的思考(“尺碼 11, 黑色”等等)更加豐富。 在非專家用更復(fù)雜的方式思考的范圍——“使頂部更高點(diǎn)或更光滑”——他們在這種思考方式下得到的經(jīng)驗(yàn)很少,或很難看到他們選擇的結(jié)果。像這樣的界面使探索、發(fā)展風(fēng)格的能力、規(guī)劃的能力、和朋友交換想法等等都更簡單。 4.計算的兩種模型 讓我們重新審視本文開始的問題,計算機(jī)可以被用來做什么?它和智能增強(qiáng)有什么關(guān)系。計算機(jī)的一個常見概念是——它們是解決問題的機(jī)器:“計算機(jī),在這樣或者那樣的風(fēng)向下(等等情況)下發(fā)射炮彈的結(jié)果是什么?”;“計算機(jī),在未來5天東京的最高溫度是多少?”;“計算機(jī),當(dāng)圍棋棋盤處于這個位置時,最好的選擇是什么?”;“計算機(jī),這個圖片該如何分類?”等等。 在計算機(jī)作為數(shù)字運(yùn)算機(jī)器的早期看法中,還有大量AI上的工作中,在歷史和今天的看法中,這是一個很常見的概念。這個模型是計算機(jī)作為一種外包認(rèn)知的方法。在AI未來的可能推測上,這種外包認(rèn)知模型在AI的視角下經(jīng)常作為預(yù)言家出現(xiàn),能夠以比人類更好的水平解決一些大類問題。 但是對于計算機(jī)為了什么這個問題,一個非常不同的概念是可能的,一個和智能增強(qiáng)的工作更一致的概念。 為了理解另一個觀點(diǎn),考慮我們對于思考的主觀經(jīng)驗(yàn)。對很多人,這個經(jīng)驗(yàn)是口頭上的:他們用語言思考,在頭腦中形成單詞鏈,類似于演講或?qū)懺诩埳系木渥?。對于另一些人,思考是一個更加視覺的體驗(yàn),處理像圖和地圖的表示。仍然有些人混合了數(shù)學(xué)到他們的思考中,使用代數(shù)表示或圖表技術(shù),比如費(fèi)曼圖和彭羅斯圖。 在每種情形下,我們都使用了別人發(fā)明的表示來思考:單詞、圖、地圖、代數(shù)、數(shù)學(xué)圖表等等。隨著成長,我們內(nèi)化了這些認(rèn)知技術(shù),并且使用它們作為我們思考的一種基底。 在大多數(shù)歷史中,可獲取的認(rèn)知技術(shù)的范圍是緩慢、逐漸變化的。一個新的單詞或一個新的數(shù)學(xué)符號將被引入。更少見的,一個激進(jìn)的新的認(rèn)知技術(shù)將會被發(fā)展。例如,在1637年,笛卡爾發(fā)表了他的《方法論》,解釋了用代數(shù)表示幾何觀點(diǎn),反之亦然:
這使得我們在對代數(shù)和幾何的思考方式發(fā)生了根本上的改變和擴(kuò)展。 歷史上,持久的認(rèn)知技術(shù)很少被發(fā)明出來。但是現(xiàn)代計算機(jī)是元-媒介(meta-medium),使得很多新的認(rèn)知技術(shù)被快速發(fā)明出來??紤]一個相對平常的例子,例如Photoshop,精于 Photoshop 的用戶經(jīng)常出現(xiàn)之前不可能有的想法比如:“讓我們對這個的層應(yīng)用克隆圖章”。這是一個更一般的思考類型的例子:“計算機(jī),【新型動作】這個【新設(shè)想的對象類的新型表示】”。當(dāng)它發(fā)生時,我們在使用電腦擴(kuò)展我們可以思考的想法范圍。 這種認(rèn)知轉(zhuǎn)換模型(cognitive transformation model)成為了大量智能增強(qiáng)領(lǐng)域中那些深入工作的基礎(chǔ)。不僅僅是外包認(rèn)知,它改變了我們用于思考的操作和表示;它改變了思想本身的基底。而且雖然認(rèn)知外包很重要,這種認(rèn)知轉(zhuǎn)換觀點(diǎn)提供了一種對智能增強(qiáng)更有意義的模型。在這種觀點(diǎn)下,計算機(jī)是改變和擴(kuò)大人類思想的工具。 歷史上,認(rèn)知技術(shù)是人類發(fā)明家發(fā)展出來的,從在蘇美爾和中美洲的寫作的發(fā)明,到現(xiàn)代界面的設(shè)計,如Douglas Engelbart,Alan Kay和其他設(shè)計師。 本文描述的例子表明,AI系統(tǒng)推動了新的認(rèn)知技術(shù)的發(fā)明。字體工具不僅僅是當(dāng)你需要一個新字體時可以咨詢的預(yù)言家。而且,它們可以被用于探索和發(fā)現(xiàn),提供新的表示和操作,能夠被內(nèi)化為用戶思考的一部分。雖然這些例子只處于早期階段,但是它們預(yù)示著AI不僅僅是關(guān)于認(rèn)知外包。對于AI的一個不同觀點(diǎn)是,它幫助我們發(fā)明新的認(rèn)知技術(shù),轉(zhuǎn)換我們思考的方式。 本文中,我們集中于少量例子,更多涉及隱空間的探索。有很多其他人工智能增強(qiáng)的例子,舉一些,但不全面:sketch-rnn system[11],用神經(jīng)網(wǎng)絡(luò)輔助畫畫;Wekinator[12],使用戶快速建立新的樂器和藝術(shù)系統(tǒng);TopoSketch[13],通過探索隱空間生成動畫;機(jī)器學(xué)習(xí)模型設(shè)計整個印刷排版[15];生產(chǎn)模型能在樂句間插值[15]。在每種情形下,系統(tǒng)使用機(jī)器學(xué)習(xí)把新的元素整合到用戶的思考中。更廣泛地,人工智能增強(qiáng)將會開拓像計算創(chuàng)造性[16]和交互機(jī)器學(xué)習(xí)[17]這樣的領(lǐng)域。 5.尋找強(qiáng)大的思想新基元 我們認(rèn)為機(jī)器學(xué)習(xí)系統(tǒng)能有助于創(chuàng)造表示和操作,作為人類思考中的新基元。在這些新基元中我們應(yīng)該尋找什么樣的性質(zhì)?這是一個太大的問題,無法在一篇短文中全面地回答。但是我們將會簡略地探索一下。歷史上,重要的新媒介形式剛引入時通??雌饋砗芷婀帧:芏噙@樣的故事傳到流行文化中:“斯特拉文斯基 Stravinsky 和尼金斯基 Nijinksy 的《春之祭》的首映禮的暴亂”;”早期立體畫派引起的恐慌,紐約時報對其評論:‘他們在表達(dá)什么?這些畫的作者是否失去理智?這是藝術(shù)還是瘋狂?誰知道呢?’”。 另一個例子來自物理學(xué)。在20世紀(jì)40年代,量子電動力學(xué)的理論構(gòu)想獨(dú)立地由物理學(xué)家朱利安·施溫格 Julian Schwinger、朝永振一郎 Shin’ichirō Tomonaga 和理查德·費(fèi)曼 Richard Feynman 發(fā)展出來。在他們的工作中,施溫格和振一郎使用傳統(tǒng)代數(shù)的方法,沿著其他物理學(xué)家相似的路線。而費(fèi)曼使用一個更激進(jìn)的方法,基于現(xiàn)在有名的費(fèi)曼圖,用于描述光和物質(zhì)的交互:
最初,施溫格和振一郎的方法更容易被其他物理學(xué)家理解。當(dāng)費(fèi)曼和施溫格在1948年討論會上展示他們的工作時,施溫格立刻受到贊揚(yáng)。相反,費(fèi)曼的工作使觀眾感到困惑。 如 James Cleick 在他的費(fèi)曼傳記[19]中寫到:
當(dāng)然,僅僅是因?yàn)槠婀值钠婀质菦]有用的。但是,這些例子暗示了在表示上的重大突破在一開始經(jīng)常顯得奇怪。還有其他正確的潛在原因嗎? 部分原因是因?yàn)槿绻恍┍硎臼欠浅P碌?,那么它看起來會和你之前見到的事情不同。費(fèi)曼圖、畢加索的畫、斯特拉文斯基的音樂都揭示了真正的有意義的新方法。好的表示能讓你敏銳地洞察事物,幫助使熟悉的事物盡可能生動地展現(xiàn)出新事物。但是因?yàn)閷Σ皇煜さ膹?qiáng)調(diào),表示會看起來很奇怪:它展示了你之前從未見過的關(guān)系。在某種程度上,設(shè)計師的任務(wù)是識別出關(guān)鍵的奇特,然后盡可能地放大它。 奇特的表示經(jīng)常是難以理解的。開始,物理學(xué)家們喜歡施溫格-振一郎的方法甚于費(fèi)曼的。但是,隨著費(fèi)曼的方法慢慢被物理學(xué)家理解,他們意識到雖然施溫格-振一郎的方法和費(fèi)曼的在數(shù)學(xué)上是等價的,費(fèi)曼的方法更加強(qiáng)大。 如 Gleick 所說:
這些想法不僅對歷史上的表示是正確的,對計算機(jī)的接口同樣是。然而我們對奇怪的主張違反了很多傳統(tǒng)界面的智慧,特別是被廣泛持有的信念,它們應(yīng)該是'用戶友好'的,如簡單、初學(xué)者能立刻使用。這經(jīng)常意味著界面是陳舊的,是用傳統(tǒng)元素以標(biāo)準(zhǔn)的方法構(gòu)造而成。然而雖然使用陳舊的界面可能是簡單和有趣的,它輕松的像閱讀一部公式化的浪漫小說。它意味著界面沒有揭示任何關(guān)于主題區(qū)域的真正新奇的東西。所以它幾乎不能加深用戶的理解,或改變他們思考的方式。對一般的任務(wù)是沒問題的,但是對更深刻的任務(wù),在更長期上,你想要一個更好的接口。 理想上,界面能展示主題下的更深的原則,向用戶揭示一個新的世界。當(dāng)你學(xué)會這個界面,你能內(nèi)化這些原則,擁有更強(qiáng)大的對世界的推理能力。這些原則是你理解中的擴(kuò)散器,它們是你真正想看見的全部,其他都是處于最好的支持或最壞的不重要的碎渣。最好的界面的目的在淺層意義上不是用戶友好的,它是更強(qiáng)意義上的用戶友好,是具體化有關(guān)世界的原則[20],使它們成為用戶生活和創(chuàng)造的工作環(huán)境。在那時,一旦看起來奇怪的反而變得舒服和熟悉,變成思考模式的一部分。 在智能增強(qiáng)上使用 AI 模型意味著什么? 我們希望,如我們看到的,我們的機(jī)器學(xué)習(xí)模型將會幫助我們構(gòu)建接口,用對用戶有意義的方式使深刻原則具體化。為了實(shí)現(xiàn)它,模型必須發(fā)現(xiàn)關(guān)于世界的深刻原則、識別出這些原則、而且盡可能用一種用戶理解的方式,生動地在接口中表現(xiàn)出來。 當(dāng)然,這是離譜的要求,我們展示的例子僅僅只是一個開始。確實(shí)我們的模型有時能發(fā)現(xiàn)深刻的原則,像在加粗字體時對封閉負(fù)空間的保留,但是這僅僅隱藏在模型中。然而,我們已經(jīng)構(gòu)建了能利用這些原則的工具,如果模型能自動地推測出重要的原則,并找到方法明確地表現(xiàn)出這些原則(鼓勵過程朝著 infoGAN[21] 的結(jié)果前進(jìn),它使用了信息論的想法找到隱空間的結(jié)構(gòu)),這就更好了。理想地,這樣的模型開始得到真正的解釋,不只是靜態(tài)的形式,還有動態(tài)的形式,用戶可以操作的。但是我們離那一點(diǎn)還有很長的路要走。
6.這些交互界面會抑制創(chuàng)造力嗎? 懷疑我們已經(jīng)描述的界面的表達(dá)豐富性,是件誘人的事情。如果一個界面約束我們只探索圖片的自然空間,是否意味著我們只在做被期望的事情呢?是否意味著這些接口只能被用于生成視覺的陳詞濫調(diào)呢?它會阻止我們生成真正新的東西、做真正有創(chuàng)造性的工作嗎? 為了回答這些問題,識別出創(chuàng)新的兩種不同的模式是有幫助的。這兩種模式的模型是過于簡化的:創(chuàng)造力并不能很好地分為這兩類。盡管如此,這個模型還是澄清了在創(chuàng)造性工作中新接口的角色。 創(chuàng)造的第一個模式是一個工匠每天從事工作的創(chuàng)造性。比如,一個字體設(shè)計師的大量工作是由最好的現(xiàn)存經(jīng)驗(yàn)重新組合而成。這樣的工作通常是許多創(chuàng)造性的選擇,以滿足預(yù)期的設(shè)計目標(biāo),而不是開發(fā)關(guān)鍵的新的內(nèi)在原則。 對于這樣的工作,我們一直討論的生成接口是有前景的。雖然它們目前有很多局限性,但未來的研究將發(fā)現(xiàn)并解決許多不足。這在GAN身上發(fā)生得很快:最初的GAN有很多限制[10],但很快又出現(xiàn)了更適合圖片的模型[22],改進(jìn)了分辨率,減少了工件等等。有了足夠的迭代,這些生成界面將成為工藝工作的強(qiáng)大工具。 第二種創(chuàng)造模式的目的是發(fā)展新的原則,從根本上改變創(chuàng)造性表達(dá)的范圍。人們可以在畢加索或莫奈等藝術(shù)家的作品中看到這一點(diǎn),他們違反了現(xiàn)存的繪畫原則,發(fā)展出新的原則,使人們能夠以新的方式看到事物。 在使用生成接口時,是否有可能做這樣的創(chuàng)造性工作呢?這樣的接口會不會限制我們在自然圖片或自然字體的空間,因此阻止了我們積極地在創(chuàng)造性工作中探索有趣的方向? 情況比這更復(fù)雜。 在某種程度上,這是一個關(guān)于我們的生成模型的能力的問題。在某些情況下,模型只能夠生成現(xiàn)存想法的重新組合。這是理想的 GAN 模型的限制,因?yàn)橐粋€經(jīng)過完美訓(xùn)練的 GAN 生成器將復(fù)制訓(xùn)練數(shù)據(jù)的分布。這樣的模型不能創(chuàng)造一個新的基本原則來直接生成圖片,因?yàn)檫@樣的圖片沒法從在訓(xùn)練數(shù)據(jù)中得來。 像 Mario Klingemann 和 Mike Tyka 這樣的藝術(shù)家現(xiàn)在用GAN來創(chuàng)作有趣的藝術(shù)品。他們使用的是“不完美的” GAN 模型,他們似乎能用來探索有趣的新原則;也許不好的GAN比理想的 GAN 模型在藝術(shù)上更有趣。此外,沒有說接口只能幫我們探索隱空間。也許可以添加一些操作,故意將我們帶出隱空間,或者減少自然圖片空間的可能性(以及更令人驚奇的)部分。 當(dāng)然,GAN 不是唯一的生成模型。在一個足夠強(qiáng)大的生成模型中,模型發(fā)現(xiàn)的概括可能包含了超越人類發(fā)現(xiàn)的思想。在這種情況下,對隱空間的探索可能使我們能夠發(fā)現(xiàn)新的基本原則。模型會比人類專家發(fā)現(xiàn)更強(qiáng)的抽象。想象一下,在立體畫派出現(xiàn)之前,一個專門研究繪畫的生成模型;也許通過探索這個模型,我們就有可能發(fā)現(xiàn)立體主義嗎?正如本文之前所討論的,這將是類似于對波爾-愛因斯坦凝聚態(tài)預(yù)測的類比。這種發(fā)明超越了當(dāng)今的生成模型,但似乎是對未來模型的一種有價值的渴望。 到目前為止,我們的例子都是基于生成模型的,但是有一些啟發(fā)性的例子不是基于生成模型的??紤]由 Isola 等人[23]提出的 pix2pix 系統(tǒng)這個系統(tǒng)訓(xùn)練成對的圖片,例如表現(xiàn)貓的邊緣和實(shí)際的貓。一旦經(jīng)過訓(xùn)練,就可以顯示一組邊緣,并要求它為生成實(shí)際對應(yīng)的貓的圖片,它經(jīng)常表現(xiàn)得很好:
在不尋常的限制條件下,pix2pix 可以產(chǎn)生驚人的圖片: ? 這也許不是畢加索式的高級創(chuàng)造力,但仍是驚人的。這當(dāng)然不像我們大多數(shù)人以前見過的圖片。pix2pix 和它的用戶是如何達(dá)到這種效果的呢? 與前面的例子不同,pix2pix 不是生成模型。這意味著它沒有隱空間,也沒有對應(yīng)的自然圖片空間。而是一個神經(jīng)網(wǎng)絡(luò),令人困惑地被稱為生成器——這與我們早期的生成模型并不同——它以約束的圖片作為輸入,并生成填充的圖片。 生產(chǎn)器的訓(xùn)練和判別器網(wǎng)絡(luò)的訓(xùn)練是對抗的,判別器的工作是區(qū)分出從真實(shí)數(shù)據(jù)中生成的圖片組和由生成器生成的圖片組。 雖然這聽起來很像傳統(tǒng)的 GAN,但是有一個關(guān)鍵的區(qū)別:生成器中沒有隱向量輸入,相反,這里只有一個輸入約束。當(dāng)人輸入一種與訓(xùn)練數(shù)據(jù)不一樣的約束時,網(wǎng)絡(luò)就被迫即興發(fā)揮,盡其所能地根據(jù)之前所學(xué)的規(guī)則來解釋這個約束。創(chuàng)造力是由訓(xùn)練數(shù)據(jù)推斷出的知識與用戶提供的約束一起作用的結(jié)果。因此,即使是相對簡單的想法——比如面包或眼睛貓——也能產(chǎn)生引人注目的新型圖片,這些圖片并不在我們之前認(rèn)為的自然圖片的空間中。
7.總結(jié) 傳統(tǒng)觀念認(rèn)為人工智能將改變我們與計算機(jī)交互方式。不幸的是,人工智能社區(qū)中的許多人大大低估了接口設(shè)計的深度,往往將其視為一個簡單的問題,主要是關(guān)注于如何使事物變得漂亮或易于使用。從這個角度來說,接口設(shè)計是一個交給別人的問題,而繁重的工作是訓(xùn)練一些機(jī)器學(xué)習(xí)系統(tǒng)。 這種觀點(diǎn)是不正確的,接口設(shè)計最深層的含義是開發(fā)人類思考和創(chuàng)造的基本要素。這個問題的知識起源可以追溯到字母表的發(fā)明者、制圖學(xué)的發(fā)明者、音樂符號的發(fā)明者以及現(xiàn)代的巨人如笛卡爾、普萊菲爾、費(fèi)曼、恩格爾巴特和凱。這是人類所面臨的最困難、最重要、最根本的問題之一。 如前所述,在人工智能的一個普遍觀點(diǎn)中,我們的計算機(jī)將繼續(xù)在解決問題方面做得更好,但人類基本保持不變。在第二種常見的觀點(diǎn)中,人類將在硬件層面進(jìn)行修改,可能直接通過神經(jīng)接口,或者間接通過全腦模擬。 我們描述了第三種觀點(diǎn),AI實(shí)際上改變了人類,幫助我們發(fā)明了新的認(rèn)知技術(shù),擴(kuò)展了人類思維的范圍。或許有一天,這些認(rèn)知技術(shù)將反過來加速AI的發(fā)展,形成良性循環(huán): ? 它不會是機(jī)器中的奇點(diǎn),相反,它將是人類思維中的一個奇點(diǎn)。當(dāng)然,這個循環(huán)目前僅僅只是一個推測。我們所描述的系統(tǒng)可以幫助開發(fā)更強(qiáng)大的思維方式,但至多有一種間接的感覺,即這些思維方式被用來開發(fā)新的AI系統(tǒng)。 當(dāng)然,從長期來看,機(jī)器在所有或大部分認(rèn)知任務(wù)上都有可能超過人類。即便如此,認(rèn)知轉(zhuǎn)換仍將是一個有價值的目標(biāo),值得我們自己去追求。學(xué)習(xí)下象棋或圍棋是有趣和有價值的,即使機(jī)器做得更好。而在諸如講故事之類的活動中,益處往往更多地來自建構(gòu)故事和人物關(guān)系這一過程,而非最終的產(chǎn)物。個人的改變和成長還具有內(nèi)在的價值,除了工具性利益以外。 我們討論的面向接口的工作超出了用來評價 AI 中大多數(shù)現(xiàn)有工作的敘述。它不涉及擊敗某個分類或回歸問題的基準(zhǔn)。它無需非得在譬如圍棋這樣的比賽中,擊敗人類的冠軍。相反,它涉及一個更為主觀和難以衡量的標(biāo)準(zhǔn):它是否有助于人類以新的方式思考和創(chuàng)造? 這給這類工作帶來了困難,尤其是在研究環(huán)境中。比如,這應(yīng)該發(fā)表在哪里呢?它屬于什么社區(qū)呢?應(yīng)該用什么標(biāo)準(zhǔn)來評判這樣的工作呢?好的工作和壞工作的區(qū)別是什么? 我們相信,在未來幾年內(nèi),將出現(xiàn)一個能夠回答這些問題的社區(qū)。它將舉辦研討會和會議。它將在類似 Distill 等地方發(fā)表工作。它的標(biāo)準(zhǔn)將來自許多不同的社區(qū):有藝術(shù)社區(qū)和音樂社區(qū)的探討;有數(shù)學(xué)社區(qū)的對抽象的品味及“好”的定義;以及現(xiàn)有的 AI 和 IA 社區(qū)(包括計算創(chuàng)造力和人機(jī)交互的工作)。 對成功的長期測試將是開發(fā)被創(chuàng)造者廣泛使用的工具。藝術(shù)家們是否在使用這些工具來開發(fā)不同尋常的新風(fēng)格?其他領(lǐng)域的科學(xué)家是否用它們來發(fā)展用其他方法不可能獲得的理解?這些都是偉大的理想,需要一種建立在傳統(tǒng)人工智能上的方法之上,但也包含了非常不同的規(guī)范。
8.參考文獻(xiàn) [1] Augmenting Human Intellect: A Conceptual Framework Engelbart, D.C., 1962. [2] deeplearn.js font demo ?[link] Wexler, J., 2017. [3] Auto-encoding variational Bayes Kingma, D.P. and Welling, M., 2014. ICLR. [4] Analyzing 50k fonts using deep neural networks ?[HTML] Bernhardsson, E., 2016. [5] Autoencoding beyond pixels using a learned similarity metric Larsen, A.B.L., S?nderby, S.K., Larochelle, H. and Winther, O., 2016. ICML. [6] Sampling Generative Networks ?[PDF] White, T., 2016. [7] Writing with the Machine ?[link] Sloan, R., 2017. Eyeo. [8] Automatic chemical design using a data-driven continuous representation of molecules ?[PDF] Gómez-Bombarelli, R., Duvenaud, D., Hernández-Lobato, J.M., Aguilera-Iparraguirre, J., Hirzel, T.D., Adams, R.P. and Aspuru-Guzik, A., 2016. [9] Generative visual manipulation on the natural image manifold Zhu, J., Kr?henbühl, P., Schechtman, E. and Efros, A.A., 2016. European Conference on Computer Vision (ECCV). [10] Generative adversarial nets Goodfellow, I.J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y., 2014. Advances in Neural Information Processing Systems (NIPS), pp. 2672-2680. [11] A Neural Representation of Sketch Drawings ?[PDF] Ha, D. and Eck, D., 2017. [12] Real-time human interaction with supervised learning algorithms for music composition and performance. Fiebrink, R., 2011. Princeton University PhD Thesis. [13] TopoSketch: Drawing in Latent Space Loh, I. and White, T., 2017. NIPS Workshop on Machine Learning for Creativity and Design. [14] Taking The Robots To Design School, Part 1 ?[link] Gold, J., 2016. [15] Hierarchical Variational Autoencoders for Music ?[PDF] Roberts, A., Engel, J. and Eck, D., 2017. NIPS Workshop on Machine Learning for Creativity and Design. [16] Computational creativity: the final frontier? Colton, S. and Wiggins, G.A., 2012. ECAI. [17] Interactive machine learning: letting users build classifiers Ware, M., Frank, E., Holmes, G., Hall, M. and Witten, I.H., 2001. International Journal of Human-Computer Studies, Vol 55, pp. 281-292. [18] Eccentric School of Painting Increased Its Vogue in the Current Art Exhibition — What Its Followers Attempt to Do?[link] 1911. The New York Times. [19] Genius: The Life and Science of Richard Feynman Gleick, J., 1992. Vintage Books. [20] Thought as a Technology ?[HTML] Nielsen, M., 2016. [21] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I. and Abbeel, P., 2016. NIPS. [22] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks ?[PDF] Radford, A., Metz, L. and Chintala, S., 2016. ICLR. [23] Image-to-Image Translation with Conditional Adversarial Networks ?[PDF] Isola, P., Zhu, J., Zhou, T. and Efros, A.A., 2017.
|
|
|