|
? 原文來自Medium,作者Thomas Smith 原文鏈接:https:///swlh/this-is-not-a-person-but-she-is-a-threat-6d6f2d4083f4 請看下圖的女士:她看起來很友好,你可能會在職場社交平臺LinkedIn(領(lǐng)英)加她為好友,或者雇她來幫你運營社交媒體;如果你在孩子的體育課上遇到她,你會主動和她打招呼,進行些尷尬的寒暄;如果你在交友軟件Tinder上看到她的檔案,你可能會右滑選擇喜歡。 ?所有的這些可能性只存在一個問題——這位女士根本不存在。上面的圖像是用一種叫做生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,下稱GAN)的新型機器學(xué)習(xí)技術(shù)生成的,這項技術(shù)發(fā)明于2014年,其科技潛力和流行度都呈現(xiàn)了爆炸式的增長。 圖靈獎獲得者楊立昆(Yann Lecun)稱之為“20年以來機器學(xué)習(xí)中最酷的想法”。它被應(yīng)用于視頻游戲、天文學(xué)和藝術(shù)領(lǐng)域,席卷了媒體和法律界。 揭秘GANGAN的工作原理是,讓兩個深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在一場迷你混戰(zhàn)中進行較量。第一個網(wǎng)絡(luò)是生成式網(wǎng)絡(luò),通常也是一個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,下稱CNN),我們利用樣本圖像集對其進行訓(xùn)練。和所有CNN一樣,它會學(xué)習(xí)訓(xùn)練圖像集的屬性和模式,并能夠重新生成類似的圖像。 第二個網(wǎng)絡(luò)是判別式網(wǎng)絡(luò)。人們也利用原始數(shù)據(jù)對其進行訓(xùn)練,并用它來評估特定圖像是否遵循原始數(shù)據(jù)集的統(tǒng)計分布。更簡單地說,當給定一個新圖像時,這一網(wǎng)絡(luò)會努力猜測該圖像是否屬于原始圖像集。 有趣的地方在于:GAN并沒有讓兩個網(wǎng)絡(luò)默默地獨自工作,而是讓它們相互斗爭。生成式網(wǎng)絡(luò)的目標是創(chuàng)造足夠好的虛假圖像來愚弄判別式網(wǎng)絡(luò),而判別式網(wǎng)絡(luò)的目標是避免上當受騙——準確猜測哪些圖像是假的,哪些確實屬于原始數(shù)據(jù)。 生成式網(wǎng)絡(luò)會持續(xù)創(chuàng)造新的圖像,然后判別式網(wǎng)絡(luò)會評估所生成的圖像。然后它們會檢查工作,看看每一場較量中誰是贏家。這兩個網(wǎng)絡(luò)在數(shù)千輪的較量中大致打成平手,它們都會利用反向傳播算法(back propagation)從自己的錯誤和成功中吸取教訓(xùn)。生成式網(wǎng)絡(luò)會越來越擅長于生成逼真的虛假圖像,而判別式網(wǎng)絡(luò)則越來越擅長于識別虛假圖像。 隨著時間的推移,這兩個網(wǎng)絡(luò)通過相互競爭而不斷提升。這項技術(shù)利用了并行計算(parallel computing)領(lǐng)域的最新進展來快速訓(xùn)練網(wǎng)絡(luò)——視覺計算技術(shù)公司NVIDIA和其他圖形處理器(Graphics Processing Unit,GPU)公司是該技術(shù)的早期應(yīng)用者。 ?圖注:GPU的進步,正如這個NVIDIA顯卡,使GAN成為可能。 到訓(xùn)練結(jié)束時,生成式網(wǎng)絡(luò)已經(jīng)非常擅長創(chuàng)建逼真的虛假圖像。在亦敵亦友的判別式網(wǎng)絡(luò)的幫助下,生成式網(wǎng)絡(luò)得到了很大提升,現(xiàn)在它能生成的虛假圖像已經(jīng)逼真到可以騙過人類。 這有點像棒球運動員會在正式比賽前用一根加重的球棒進行練習(xí),也有點像大學(xué)生會利用比預(yù)期考試難度更大的習(xí)題進行練習(xí)。通過與一個狡黠的、并且在每次較量中都會愈加強大的對手一起訓(xùn)練,生成式網(wǎng)絡(luò)也在競賽中不斷提升自己的水平。當一個強硬的對手已被迷惑,再轉(zhuǎn)而愚弄一個普通的人類時,任務(wù)就相對容易了。 GAN帶來了麻煩不出所料,能夠制造出令人信服的虛假人類圖像的人工智能(Artificial Intelligence,下稱AI)系統(tǒng)正在引起相當大的轟動,而且遠遠超出了深度學(xué)習(xí)(Deep Learning,是機器學(xué)習(xí)領(lǐng)域中一個新的研究方向,它被引入機器學(xué)習(xí)使其更接近于人工智能)的范疇。 在新聞媒體領(lǐng)域,GAN是對報道可信度的重大威脅,人們很自然地將其與換臉軟件Deep Fakes聯(lián)系了起來,該軟件可以利用神經(jīng)網(wǎng)絡(luò)模擬一個真實的人,并且生成視頻或照片,而其中的人所做的事和所說的話從未真正發(fā)生過。 當然,人們早已可以利用圖片編輯軟件Photoshop將名人或政客的形象編輯到一個他們從未真實參加過的活動中,或者展示他們與一個他們從未真正見過的人握手的景象。 但要制作一個逼真的視頻要困難得多,讓他們看上去像在發(fā)表種族主義言論,或說一些會激怒他們自己政黨的話,且往往需要在GAN的幫助下實現(xiàn)。 對新聞媒體來說,這是一種事關(guān)生存的威脅。新聞內(nèi)容的可信度是絕對關(guān)鍵的(虛假新聞除外)。但是,要如何確定一位告密者的隱藏攝像片段到底是一個真實的視頻,還是只是一個由GAN精心制作的、為了破壞對手聲譽的虛假視頻呢? 還有更黑暗、更棘手的問題。依靠GAN創(chuàng)作的色情作品已經(jīng)出現(xiàn)在了互聯(lián)網(wǎng)上,且通常是用真實名人的臉來制作的。 這個問題很可能蔓延開來。名人是一個能夠輕易上手的目標,因為網(wǎng)上已經(jīng)有很多名人的照片,并且公眾對他們私人生活的興趣已經(jīng)很高,這使得獲取GAN的訓(xùn)練數(shù)據(jù)變得相對容易,而且發(fā)布虛假的視頻或照片也非常有利可圖。 隨著技術(shù)的進步和所需訓(xùn)練集規(guī)模的縮小,黑客可能得以制造出幾乎所有人的限制級虛假視頻片段,并將其用于敲詐勒索。 虛假圖像屬于誰?先不說這些事關(guān)生存威脅和令人毛骨悚然的風險,即使是出于正當理由而建立的GAN也導(dǎo)致了一些棘手的法律問題。其中一個核心問題是,誰真正擁有GAN所創(chuàng)造圖像的所有權(quán)? 美國版權(quán)法非常明確地指出,受版權(quán)保護的作品必須有人類作者。挑戰(zhàn)這一基本前提的案例,多以各種形式的失敗告終,且這些失敗往往是轟動性的:從自動相機拍攝的監(jiān)控錄像的所有權(quán)案件,到臭名昭著的猴子自拍案件。后者案件中,善待動物組織(People for the Ethical Treatment of Animals,PETA)宣稱,冠獼猴擁有它用自然攝影師的相機所拍攝的照片的所有權(quán)利。 ?圖注:像這張監(jiān)控攝像頭圖像這樣,由機器生成的圖像的版權(quán)是復(fù)雜的。 如果一個作品需要一個人類作者來獲得版權(quán)保護,那么會有人類擁有GAN制作的圖像的所有權(quán)利嗎?畢竟,它們并不是被一個手持相機的人拍下的,而是兩個電腦程序相互較量所得的結(jié)果。這是一個很難回答的問題,但謝天謝地,還有其他領(lǐng)域的先例,我將隨后講到。 除了所有權(quán)問題,人們對GAN的使用會有限制嗎?你可以用它來模擬任何你想模擬的人嗎? 人類的反擊面對GAN的威脅,許多組織和立法者已經(jīng)開始反擊。代表演員和演藝人員利益的美國演員工會(Screen Actors’ Guild,下稱SAG)正在積極游說監(jiān)管機構(gòu),防止制作公司用GAN協(xié)助制作的全息圖代替真人演員。 這十分合理——如果你能創(chuàng)造出一個實際上是假的但看上去很真實的布拉德·皮特(Brad Pitt),讓他按你的吩咐去做,為什么還要雇傭真正的演員呢? GAN生成的演員不需要休息,不會忘記臺詞,也不太可能要求獲得高達7位數(shù)的工資。不過,說到過世的演員,事情就變得更復(fù)雜了。SAG希望永遠鎖定生成虛擬名人的權(quán)利,但這又違背了美國憲法第一修正案的內(nèi)容(國會不得制定法律剝奪言論自由或出版自由)。 美國的好幾個州也已經(jīng)加入了這場斗爭。2019年10月3日,加利福尼亞州通過AB-602法案,禁止在選舉前60天內(nèi)使用GAN制造政客們的虛假色情作品或視頻片段。紐約正在考慮立法,通過形象權(quán)來處理GAN帶來的問題。 GAN帶來的益處對GAN實行一定程度的監(jiān)管是絕對必要的。在合成色情作品或其他損害他人利益的情況中,立法者介入并取締不良行為當然是有意義的。 不過,對GAN的過度監(jiān)管也存在風險。如果使用得當,生成式對抗網(wǎng)絡(luò)可能是一種非常強大的技術(shù),可以帶來很多強大的益處。 以最初建立GAN的原因為例:這項技術(shù)開發(fā)的最初目的不是為了生成令人信服的虛假人物,而是為了生成用于培訓(xùn)其他深度學(xué)習(xí)系統(tǒng)的大型數(shù)據(jù)集。 一般來說,在機器學(xué)習(xí)中,很難找到好的數(shù)據(jù),尤其是在新的網(wǎng)絡(luò)和技術(shù)下,數(shù)據(jù)科學(xué)家需要大量的圖像來訓(xùn)練一個新的視覺AI系統(tǒng)——有時需要一百萬張或更多的圖像。購買所有這些圖像的成本高得嚇人,對獨立的科學(xué)家和研究小組來說尤其如此。 ?圖注:即使是購買基礎(chǔ)訓(xùn)練圖像的版權(quán),比如這張在真實場景中的真人的圖片,也是很昂貴的。 人們正是為了解決這個問題而建立了GAN。例如,一位正在開發(fā)新的面部識別系統(tǒng)的研究科學(xué)家不需要去購買數(shù)百萬張人臉圖像。相反,他們可以訓(xùn)練GAN,然后根據(jù)需要,用它生成盡可能多的虛假人臉圖像,并在這些圖像上訓(xùn)練他們的新系統(tǒng)。 GAN仍然主要用于這個目的,但這項技術(shù)并不是一個完美的解決方案——IBM的一位同事將這一過程描述為類似于影印一份復(fù)印件,而不是影印原始文檔,但同樣會產(chǎn)生失真和質(zhì)量損失——然而它仍然是數(shù)據(jù)科學(xué)家的一個重要工具。 在真實訓(xùn)練數(shù)據(jù)有限的情況下,GAN也至關(guān)重要。例如,有人建議,可以將GAN作為解決非白人男性人臉訓(xùn)練圖像短缺問題的方案,從而增加深度學(xué)習(xí)系統(tǒng)的多樣性。你可以在——ThisPersonDoesNotExist.com——這個網(wǎng)址創(chuàng)造你自己的虛假人物進行實驗。 除了機器學(xué)習(xí)之外,GAN還有各種各樣的實際應(yīng)用。在全景圖片庫和時尚領(lǐng)域,GAN可以獨立生成可信的肖像,無需聘請模特或租用場地。這使得攝影師或設(shè)計師(尤其是剛起步的人)更容易實現(xiàn)一個概念或展示一件新衣服,且無需高額的前期投資。 在其他領(lǐng)域,GAN被用于任何存在視覺模式的地方。他們可以在天文學(xué)領(lǐng)域模擬暗物質(zhì);利用2D照片生成物體的3D模型;為電子游戲創(chuàng)建虛擬房間和空間;展示一個人衰老之后的可能形象;甚至為癌癥研究中生成新分子或蛋白質(zhì)提供思路。 GAN的未來在未來,GAN將變得更加強大。目前在視覺領(lǐng)域,GAN大多局限于生成相對受限的、高度模式化的圖像,這些圖像中有大量的訓(xùn)練數(shù)據(jù)可供提取。 人臉就是一個完美的例子——人與人的臉各有不同,但有也許多相同的基本屬性。世界上有60多億的真實人口,所以GAN的學(xué)習(xí)材料十分豐富(假設(shè)它的創(chuàng)建者有足夠的資源購買大型數(shù)據(jù)集)。 不過,隨著技術(shù)的進步,這些障礙將變得不那么顯著。人們普遍認為,在未來三到五年內(nèi),GAN將發(fā)展到可以重新生成全新場景的地步,而不僅僅是臉部特寫。 例如,一個設(shè)計師可以說,“我想要一個女人走下樓梯、扶著欄桿、抬頭向后看的照片”,GAN便能夠創(chuàng)造出這樣的精確場景,且其細節(jié)的真實度堪比照片。 已經(jīng)有案例開始探索這種未來了。一個名為StackGAN的網(wǎng)絡(luò)已經(jīng)可以對單個對象執(zhí)行此操作,它能根據(jù)一只鳥的外觀的文本描述生成虛假圖片。而另一個GAN已經(jīng)可以根據(jù)汽車、人等等的粗略示意圖,生成一個相當好的(可能甚至是完美的)街道場景。 ? ?圖注:這個GAN可以從一組粗略的視覺指令中生成半真實的街景。 顯然,隨著這些技術(shù)的進步,它們可以取代攝影、電影制作、室內(nèi)設(shè)計或任何其他依賴視覺媒體的領(lǐng)域。 這些行業(yè)的人們應(yīng)該選擇立即尋找新工作,還是應(yīng)該選擇冒著被一個GAN取代的風險?所有的視覺藝術(shù)都會被機器所取代嗎? 回到未來在我們完全驚慌失措之前,我們得趕緊停下想一想,其實在一個領(lǐng)域已經(jīng)具備類似GAN的屬性及最終產(chǎn)品。 在這個領(lǐng)域里,有人對他們所見過的數(shù)百萬人、地方或物體的記憶進行研究,他們進行大量訓(xùn)練,有時要面對嚴厲或狡猾的批評者。在某些情況下,它們還需要理解對所需場景或概念的文本描述,然后利用一些工具創(chuàng)造一個全新的圖像。 這一圖像可以在一個全新的環(huán)境中展現(xiàn)一個已知的人,或者可以在一個實際上不存在的場景中展現(xiàn)一個想象出來的人。這一領(lǐng)域就叫做“插畫”。 插畫家、動畫師和計算機生成影像(computer-generated imagery,下稱CGI)藝術(shù)家每天都和GAN做著同樣的事情——他們的全部工作就是想象新的場景、人物和地點,并將它們生動地呈現(xiàn)在網(wǎng)頁或熒幕上。 在許多情況下,他們的創(chuàng)作都是極其逼真的——特別是在如今,人們往往無法將CGI作品與真實的場景或演員區(qū)分開來。 如果將GAN視作一種插畫工具,而非一個全新的威脅,它就不那么可怕了。當然,它們使生成插畫的過程更容易,而且使成果更逼真(取決于具體插圖畫家或動畫師的技能)。歸根到底,GAN并不是在做什么全新的工作;他們只是將深度學(xué)習(xí)應(yīng)用到一個古老的藝術(shù)概念上——這個概念可以追溯到第一個在洞穴墻上畫水牛的人類。 將GAN視為一種插畫工具也解決了許多相關(guān)法律問題。法院一貫裁定,CGI創(chuàng)作的作品有資格獲得版權(quán)保護,因為它們是通過人類操作者的創(chuàng)意決策而產(chǎn)生的。 而且,CGI工具也并不總是起決定性作用——它們要么從人類那里獲取指令,在關(guān)鍵幀(keyframe)之間墨守成規(guī)地“填充”動畫;要么生成新的序列,無需設(shè)計者直接建模。 沒有人會爭辯說,因為一個動畫師利用圖形視頻處理軟件After Effects填充了關(guān)鍵幀之間的一些動作,或者在線框圖(wireframe)中添加了紋理和燈光,她就不應(yīng)該享有她電影的版權(quán)保護。一件作品中,真正重要的是她的創(chuàng)意選擇,以及這些選擇是如何創(chuàng)作出最終產(chǎn)品的。 GAN的情況也是相似的:它們可以想象新的場景,但如果要產(chǎn)生有效輸出,GAN仍然需要人類來指導(dǎo)它們具體生成什么。即使是隨機生成人臉,GAN仍然需要人類的輸入和指令來決定哪些人臉是可信的,哪些是適合某個特定的創(chuàng)造性項目的,等等。 提供這個指令本身就是一項創(chuàng)意操作,因此其理應(yīng)能夠產(chǎn)生版權(quán)。在許多情況下,GAN產(chǎn)生的結(jié)果并不完美,它們?nèi)匀恍枰祟惖膸椭拍墚a(chǎn)生有用的成果。 以本文開頭的照片為例:這位女士乍一看很逼真,但請你仔細看一看,她的耳朵怎么了?那是耳環(huán)嗎?還是一點臟東西?基礎(chǔ)的圖像看起來是不錯,但它受益于(稍微)熟練的人類操作員的善后和調(diào)整。所有這些調(diào)整和選擇都是創(chuàng)意行為,能將GAN的原始輸出轉(zhuǎn)化為可用和令人信服的說明性材料。 GAN何去何從?生成式對抗網(wǎng)絡(luò)提出了一些社會需要繼續(xù)思考和探索的重大問題。對于這些技術(shù)的濫用——用于換臉和露骨內(nèi)容——令人不安,這正是監(jiān)管機構(gòu)應(yīng)該盡早解決的問題。 不過,與此同時,社會方面也應(yīng)該謹慎,不要在監(jiān)管這些新技術(shù)方面干涉過多,從而扼殺對它們的積極應(yīng)用。 雖然GAN的作品可能會讓人害怕——甚至是令人毛骨悚然——但GAN也有可能徹底改變許多視覺藝術(shù),使時尚和攝影更豐富,幫助藥物研發(fā),以及解決各種迄今尚未想象到的問題。現(xiàn)有的插畫領(lǐng)域為我們著手解決有關(guān)GAN及其影響的問題提供了一個法律和倫理框架。 虛假人像照片可能很可怕,但它們不會消失。作為一個社會,我們需要承認它們的威脅,但也要擁抱它們帶來的益處。在照片上的笑臉中,已經(jīng)們背后的GAN中,也存在著一種機遇,這項技術(shù)可能會為那些設(shè)想照片真實存在的人們帶來長久的的利益。 ? |
|
|
來自: 懶人葛優(yōu)癱 > 《人工智能》