圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

懶人葛優(yōu)癱 2019-12-06

展開全文

圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

原文來自Medium，作者Thomas Smith

原文鏈接：https:///swlh/this-is-not-a-person-but-she-is-a-threat-6d6f2d4083f4

請看下圖的女士：她看起來很友好，你可能會在職場社交平臺LinkedIn（領(lǐng)英）加她為好友，或者雇她來幫你運營社交媒體；如果你在孩子的體育課上遇到她，你會主動和她打招呼，進行些尷尬的寒暄；如果你在交友軟件Tinder上看到她的檔案，你可能會右滑選擇喜歡。

圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

?所有的這些可能性只存在一個問題——這位女士根本不存在。上面的圖像是用一種叫做生成式對抗網(wǎng)絡(luò)（Generative Adversarial Networks，下稱GAN）的新型機器學(xué)習(xí)技術(shù)生成的，這項技術(shù)發(fā)明于2014年，其科技潛力和流行度都呈現(xiàn)了爆炸式的增長。

圖靈獎獲得者楊立昆（Yann Lecun）稱之為“20年以來機器學(xué)習(xí)中最酷的想法”。它被應(yīng)用于視頻游戲、天文學(xué)和藝術(shù)領(lǐng)域，席卷了媒體和法律界。

揭秘GAN

GAN的工作原理是，讓兩個深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在一場迷你混戰(zhàn)中進行較量。第一個網(wǎng)絡(luò)是生成式網(wǎng)絡(luò)，通常也是一個卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，下稱CNN），我們利用樣本圖像集對其進行訓(xùn)練。和所有CNN一樣，它會學(xué)習(xí)訓(xùn)練圖像集的屬性和模式，并能夠重新生成類似的圖像。

第二個網(wǎng)絡(luò)是判別式網(wǎng)絡(luò)。人們也利用原始數(shù)據(jù)對其進行訓(xùn)練，并用它來評估特定圖像是否遵循原始數(shù)據(jù)集的統(tǒng)計分布。更簡單地說，當給定一個新圖像時，這一網(wǎng)絡(luò)會努力猜測該圖像是否屬于原始圖像集。

有趣的地方在于：GAN并沒有讓兩個網(wǎng)絡(luò)默默地獨自工作，而是讓它們相互斗爭。生成式網(wǎng)絡(luò)的目標是創(chuàng)造足夠好的虛假圖像來愚弄判別式網(wǎng)絡(luò)，而判別式網(wǎng)絡(luò)的目標是避免上當受騙——準確猜測哪些圖像是假的，哪些確實屬于原始數(shù)據(jù)。

生成式網(wǎng)絡(luò)會持續(xù)創(chuàng)造新的圖像，然后判別式網(wǎng)絡(luò)會評估所生成的圖像。然后它們會檢查工作，看看每一場較量中誰是贏家。這兩個網(wǎng)絡(luò)在數(shù)千輪的較量中大致打成平手，它們都會利用反向傳播算法（back propagation）從自己的錯誤和成功中吸取教訓(xùn)。生成式網(wǎng)絡(luò)會越來越擅長于生成逼真的虛假圖像，而判別式網(wǎng)絡(luò)則越來越擅長于識別虛假圖像。

隨著時間的推移，這兩個網(wǎng)絡(luò)通過相互競爭而不斷提升。這項技術(shù)利用了并行計算（parallel computing）領(lǐng)域的最新進展來快速訓(xùn)練網(wǎng)絡(luò)——視覺計算技術(shù)公司NVIDIA和其他圖形處理器（Graphics Processing Unit，GPU）公司是該技術(shù)的早期應(yīng)用者。

圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

?圖注：GPU的進步，正如這個NVIDIA顯卡，使GAN成為可能。

到訓(xùn)練結(jié)束時，生成式網(wǎng)絡(luò)已經(jīng)非常擅長創(chuàng)建逼真的虛假圖像。在亦敵亦友的判別式網(wǎng)絡(luò)的幫助下，生成式網(wǎng)絡(luò)得到了很大提升，現(xiàn)在它能生成的虛假圖像已經(jīng)逼真到可以騙過人類。

這有點像棒球運動員會在正式比賽前用一根加重的球棒進行練習(xí)，也有點像大學(xué)生會利用比預(yù)期考試難度更大的習(xí)題進行練習(xí)。通過與一個狡黠的、并且在每次較量中都會愈加強大的對手一起訓(xùn)練，生成式網(wǎng)絡(luò)也在競賽中不斷提升自己的水平。當一個強硬的對手已被迷惑，再轉(zhuǎn)而愚弄一個普通的人類時，任務(wù)就相對容易了。

GAN帶來了麻煩

不出所料，能夠制造出令人信服的虛假人類圖像的人工智能（Artificial Intelligence，下稱AI）系統(tǒng)正在引起相當大的轟動，而且遠遠超出了深度學(xué)習(xí)（Deep Learning，是機器學(xué)習(xí)領(lǐng)域中一個新的研究方向，它被引入機器學(xué)習(xí)使其更接近于人工智能）的范疇。

在新聞媒體領(lǐng)域，GAN是對報道可信度的重大威脅，人們很自然地將其與換臉軟件Deep Fakes聯(lián)系了起來，該軟件可以利用神經(jīng)網(wǎng)絡(luò)模擬一個真實的人，并且生成視頻或照片，而其中的人所做的事和所說的話從未真正發(fā)生過。

當然，人們早已可以利用圖片編輯軟件Photoshop將名人或政客的形象編輯到一個他們從未真實參加過的活動中，或者展示他們與一個他們從未真正見過的人握手的景象。

但要制作一個逼真的視頻要困難得多，讓他們看上去像在發(fā)表種族主義言論，或說一些會激怒他們自己政黨的話，且往往需要在GAN的幫助下實現(xiàn)。

對新聞媒體來說，這是一種事關(guān)生存的威脅。新聞內(nèi)容的可信度是絕對關(guān)鍵的（虛假新聞除外）。但是，要如何確定一位告密者的隱藏攝像片段到底是一個真實的視頻，還是只是一個由GAN精心制作的、為了破壞對手聲譽的虛假視頻呢？

還有更黑暗、更棘手的問題。依靠GAN創(chuàng)作的色情作品已經(jīng)出現(xiàn)在了互聯(lián)網(wǎng)上，且通常是用真實名人的臉來制作的。

這個問題很可能蔓延開來。名人是一個能夠輕易上手的目標，因為網(wǎng)上已經(jīng)有很多名人的照片，并且公眾對他們私人生活的興趣已經(jīng)很高，這使得獲取GAN的訓(xùn)練數(shù)據(jù)變得相對容易，而且發(fā)布虛假的視頻或照片也非常有利可圖。

隨著技術(shù)的進步和所需訓(xùn)練集規(guī)模的縮小，黑客可能得以制造出幾乎所有人的限制級虛假視頻片段，并將其用于敲詐勒索。

虛假圖像屬于誰？

先不說這些事關(guān)生存威脅和令人毛骨悚然的風險，即使是出于正當理由而建立的GAN也導(dǎo)致了一些棘手的法律問題。其中一個核心問題是，誰真正擁有GAN所創(chuàng)造圖像的所有權(quán)？

美國版權(quán)法非常明確地指出，受版權(quán)保護的作品必須有人類作者。挑戰(zhàn)這一基本前提的案例，多以各種形式的失敗告終，且這些失敗往往是轟動性的：從自動相機拍攝的監(jiān)控錄像的所有權(quán)案件，到臭名昭著的猴子自拍案件。后者案件中，善待動物組織（People for the Ethical Treatment of Animals，PETA）宣稱，冠獼猴擁有它用自然攝影師的相機所拍攝的照片的所有權(quán)利。

圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

?圖注：像這張監(jiān)控攝像頭圖像這樣，由機器生成的圖像的版權(quán)是復(fù)雜的。

如果一個作品需要一個人類作者來獲得版權(quán)保護，那么會有人類擁有GAN制作的圖像的所有權(quán)利嗎？畢竟，它們并不是被一個手持相機的人拍下的，而是兩個電腦程序相互較量所得的結(jié)果。這是一個很難回答的問題，但謝天謝地，還有其他領(lǐng)域的先例，我將隨后講到。

除了所有權(quán)問題，人們對GAN的使用會有限制嗎？你可以用它來模擬任何你想模擬的人嗎？

人類的反擊

面對GAN的威脅，許多組織和立法者已經(jīng)開始反擊。代表演員和演藝人員利益的美國演員工會（Screen Actors’ Guild，下稱SAG）正在積極游說監(jiān)管機構(gòu)，防止制作公司用GAN協(xié)助制作的全息圖代替真人演員。

這十分合理——如果你能創(chuàng)造出一個實際上是假的但看上去很真實的布拉德·皮特（Brad Pitt），讓他按你的吩咐去做，為什么還要雇傭真正的演員呢？

GAN生成的演員不需要休息，不會忘記臺詞，也不太可能要求獲得高達7位數(shù)的工資。不過，說到過世的演員，事情就變得更復(fù)雜了。SAG希望永遠鎖定生成虛擬名人的權(quán)利，但這又違背了美國憲法第一修正案的內(nèi)容（國會不得制定法律剝奪言論自由或出版自由）。

美國的好幾個州也已經(jīng)加入了這場斗爭。2019年10月3日，加利福尼亞州通過AB-602法案，禁止在選舉前60天內(nèi)使用GAN制造政客們的虛假色情作品或視頻片段。紐約正在考慮立法，通過形象權(quán)來處理GAN帶來的問題。

GAN帶來的益處

對GAN實行一定程度的監(jiān)管是絕對必要的。在合成色情作品或其他損害他人利益的情況中，立法者介入并取締不良行為當然是有意義的。

不過，對GAN的過度監(jiān)管也存在風險。如果使用得當，生成式對抗網(wǎng)絡(luò)可能是一種非常強大的技術(shù)，可以帶來很多強大的益處。

以最初建立GAN的原因為例：這項技術(shù)開發(fā)的最初目的不是為了生成令人信服的虛假人物，而是為了生成用于培訓(xùn)其他深度學(xué)習(xí)系統(tǒng)的大型數(shù)據(jù)集。

一般來說，在機器學(xué)習(xí)中，很難找到好的數(shù)據(jù)，尤其是在新的網(wǎng)絡(luò)和技術(shù)下，數(shù)據(jù)科學(xué)家需要大量的圖像來訓(xùn)練一個新的視覺AI系統(tǒng)——有時需要一百萬張或更多的圖像。購買所有這些圖像的成本高得嚇人，對獨立的科學(xué)家和研究小組來說尤其如此。

圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

?圖注：即使是購買基礎(chǔ)訓(xùn)練圖像的版權(quán)，比如這張在真實場景中的真人的圖片，也是很昂貴的。

人們正是為了解決這個問題而建立了GAN。例如，一位正在開發(fā)新的面部識別系統(tǒng)的研究科學(xué)家不需要去購買數(shù)百萬張人臉圖像。相反，他們可以訓(xùn)練GAN，然后根據(jù)需要，用它生成盡可能多的虛假人臉圖像，并在這些圖像上訓(xùn)練他們的新系統(tǒng)。

GAN仍然主要用于這個目的，但這項技術(shù)并不是一個完美的解決方案——IBM的一位同事將這一過程描述為類似于影印一份復(fù)印件，而不是影印原始文檔，但同樣會產(chǎn)生失真和質(zhì)量損失——然而它仍然是數(shù)據(jù)科學(xué)家的一個重要工具。

在真實訓(xùn)練數(shù)據(jù)有限的情況下，GAN也至關(guān)重要。例如，有人建議，可以將GAN作為解決非白人男性人臉訓(xùn)練圖像短缺問題的方案，從而增加深度學(xué)習(xí)系統(tǒng)的多樣性。你可以在——ThisPersonDoesNotExist.com——這個網(wǎng)址創(chuàng)造你自己的虛假人物進行實驗。

除了機器學(xué)習(xí)之外，GAN還有各種各樣的實際應(yīng)用。在全景圖片庫和時尚領(lǐng)域，GAN可以獨立生成可信的肖像，無需聘請模特或租用場地。這使得攝影師或設(shè)計師（尤其是剛起步的人）更容易實現(xiàn)一個概念或展示一件新衣服，且無需高額的前期投資。

在其他領(lǐng)域，GAN被用于任何存在視覺模式的地方。他們可以在天文學(xué)領(lǐng)域模擬暗物質(zhì)；利用2D照片生成物體的3D模型；為電子游戲創(chuàng)建虛擬房間和空間；展示一個人衰老之后的可能形象；甚至為癌癥研究中生成新分子或蛋白質(zhì)提供思路。

GAN的未來

在未來，GAN將變得更加強大。目前在視覺領(lǐng)域，GAN大多局限于生成相對受限的、高度模式化的圖像，這些圖像中有大量的訓(xùn)練數(shù)據(jù)可供提取。

人臉就是一個完美的例子——人與人的臉各有不同，但有也許多相同的基本屬性。世界上有60多億的真實人口，所以GAN的學(xué)習(xí)材料十分豐富（假設(shè)它的創(chuàng)建者有足夠的資源購買大型數(shù)據(jù)集）。

不過，隨著技術(shù)的進步，這些障礙將變得不那么顯著。人們普遍認為，在未來三到五年內(nèi)，GAN將發(fā)展到可以重新生成全新場景的地步，而不僅僅是臉部特寫。

例如，一個設(shè)計師可以說，“我想要一個女人走下樓梯、扶著欄桿、抬頭向后看的照片”，GAN便能夠創(chuàng)造出這樣的精確場景，且其細節(jié)的真實度堪比照片。

已經(jīng)有案例開始探索這種未來了。一個名為StackGAN的網(wǎng)絡(luò)已經(jīng)可以對單個對象執(zhí)行此操作，它能根據(jù)一只鳥的外觀的文本描述生成虛假圖片。而另一個GAN已經(jīng)可以根據(jù)汽車、人等等的粗略示意圖，生成一個相當好的（可能甚至是完美的）街道場景。

圖中不是個真的人，但她真的是個威脅：機器生成圖片是與非

?圖注：這個GAN可以從一組粗略的視覺指令中生成半真實的街景。

顯然，隨著這些技術(shù)的進步，它們可以取代攝影、電影制作、室內(nèi)設(shè)計或任何其他依賴視覺媒體的領(lǐng)域。

這些行業(yè)的人們應(yīng)該選擇立即尋找新工作，還是應(yīng)該選擇冒著被一個GAN取代的風險？所有的視覺藝術(shù)都會被機器所取代嗎？

回到未來

在我們完全驚慌失措之前，我們得趕緊停下想一想，其實在一個領(lǐng)域已經(jīng)具備類似GAN的屬性及最終產(chǎn)品。

在這個領(lǐng)域里，有人對他們所見過的數(shù)百萬人、地方或物體的記憶進行研究，他們進行大量訓(xùn)練，有時要面對嚴厲或狡猾的批評者。在某些情況下，它們還需要理解對所需場景或概念的文本描述，然后利用一些工具創(chuàng)造一個全新的圖像。

這一圖像可以在一個全新的環(huán)境中展現(xiàn)一個已知的人，或者可以在一個實際上不存在的場景中展現(xiàn)一個想象出來的人。這一領(lǐng)域就叫做“插畫”。

插畫家、動畫師和計算機生成影像（computer-generated imagery，下稱CGI）藝術(shù)家每天都和GAN做著同樣的事情——他們的全部工作就是想象新的場景、人物和地點，并將它們生動地呈現(xiàn)在網(wǎng)頁或熒幕上。

在許多情況下，他們的創(chuàng)作都是極其逼真的——特別是在如今，人們往往無法將CGI作品與真實的場景或演員區(qū)分開來。

如果將GAN視作一種插畫工具，而非一個全新的威脅，它就不那么可怕了。當然，它們使生成插畫的過程更容易，而且使成果更逼真（取決于具體插圖畫家或動畫師的技能）。歸根到底，GAN并不是在做什么全新的工作；他們只是將深度學(xué)習(xí)應(yīng)用到一個古老的藝術(shù)概念上——這個概念可以追溯到第一個在洞穴墻上畫水牛的人類。

將GAN視為一種插畫工具也解決了許多相關(guān)法律問題。法院一貫裁定，CGI創(chuàng)作的作品有資格獲得版權(quán)保護，因為它們是通過人類操作者的創(chuàng)意決策而產(chǎn)生的。

而且，CGI工具也并不總是起決定性作用——它們要么從人類那里獲取指令，在關(guān)鍵幀（keyframe）之間墨守成規(guī)地“填充”動畫；要么生成新的序列，無需設(shè)計者直接建模。

沒有人會爭辯說，因為一個動畫師利用圖形視頻處理軟件After Effects填充了關(guān)鍵幀之間的一些動作，或者在線框圖（wireframe）中添加了紋理和燈光，她就不應(yīng)該享有她電影的版權(quán)保護。一件作品中，真正重要的是她的創(chuàng)意選擇，以及這些選擇是如何創(chuàng)作出最終產(chǎn)品的。

GAN的情況也是相似的：它們可以想象新的場景，但如果要產(chǎn)生有效輸出，GAN仍然需要人類來指導(dǎo)它們具體生成什么。即使是隨機生成人臉，GAN仍然需要人類的輸入和指令來決定哪些人臉是可信的，哪些是適合某個特定的創(chuàng)造性項目的，等等。

提供這個指令本身就是一項創(chuàng)意操作，因此其理應(yīng)能夠產(chǎn)生版權(quán)。在許多情況下，GAN產(chǎn)生的結(jié)果并不完美，它們?nèi)匀恍枰祟惖膸椭拍墚a(chǎn)生有用的成果。

以本文開頭的照片為例：這位女士乍一看很逼真，但請你仔細看一看，她的耳朵怎么了？那是耳環(huán)嗎？還是一點臟東西？基礎(chǔ)的圖像看起來是不錯，但它受益于（稍微）熟練的人類操作員的善后和調(diào)整。所有這些調(diào)整和選擇都是創(chuàng)意行為，能將GAN的原始輸出轉(zhuǎn)化為可用和令人信服的說明性材料。

GAN何去何從？

生成式對抗網(wǎng)絡(luò)提出了一些社會需要繼續(xù)思考和探索的重大問題。對于這些技術(shù)的濫用——用于換臉和露骨內(nèi)容——令人不安，這正是監(jiān)管機構(gòu)應(yīng)該盡早解決的問題。

不過，與此同時，社會方面也應(yīng)該謹慎，不要在監(jiān)管這些新技術(shù)方面干涉過多，從而扼殺對它們的積極應(yīng)用。

雖然GAN的作品可能會讓人害怕——甚至是令人毛骨悚然——但GAN也有可能徹底改變許多視覺藝術(shù)，使時尚和攝影更豐富，幫助藥物研發(fā)，以及解決各種迄今尚未想象到的問題。現(xiàn)有的插畫領(lǐng)域為我們著手解決有關(guān)GAN及其影響的問題提供了一個法律和倫理框架。

虛假人像照片可能很可怕，但它們不會消失。作為一個社會，我們需要承認它們的威脅，但也要擁抱它們帶來的益處。在照片上的笑臉中，已經(jīng)們背后的GAN中，也存在著一種機遇，這項技術(shù)可能會為那些設(shè)想照片真實存在的人們帶來長久的的利益。