|
前天,寫了一篇關(guān)于 ChatGPT 文生圖功能的文章。 發(fā)到知乎后,一位 2021年的年度新知答主 提出了質(zhì)疑,認(rèn)為我使用的可能不是最新的模型,因?yàn)樾屡f版本差距很大。 他指出,最新版文生圖能力很強(qiáng),而我展示的結(jié)果提示詞理解差,生成的文字也錯(cuò)誤很多。 他舉例說(shuō),像提示詞「兩個(gè)人相互推對(duì)方」這種簡(jiǎn)單概念,真正最新版模型應(yīng)該能準(zhǔn)確表現(xiàn)。他還建議我檢查是否使用了新模型,并給了我一個(gè)鏈接,稱那是最新版的界面。 他還分享了一個(gè)驗(yàn)證方法: 輸入100+個(gè)英文單詞,如果文字全亂就是其他模型(如DALL·E),如果只錯(cuò)一兩個(gè)字母才是最新版的 ChatGPT。 他還曬出了兩次按我的提示詞生成的結(jié)果,質(zhì)疑不能都用“隨機(jī)性”來(lái)解釋。被他這么一說(shuō),我懷疑自己用錯(cuò)了模型,我之前用的ChatGPT客戶端,拿它生成的來(lái)比,效果的確有有差異,于是,決定重新試一下。 首先,我用了這位新知答主給我的提示詞,如下:
英文原意比較長(zhǎng),翻譯成縮減的中文是: 從正上方俯拍的 12 種花,呈四行三列擺放。第一行有依蘭、桂花和黃緬梔子;第二行有晚香玉、梔子花和茉莉; 第三行有康乃馨、牡丹和粉色風(fēng)信子;第四行有藍(lán)鳶尾、紫羅蘭和紫藤。所有的花都放在一個(gè)帶玻璃底的木質(zhì)托盤上,玻璃上有一層透明的動(dòng)物脂肪。照片拍攝于一個(gè)陽(yáng)光明媚的下午,托盤被陽(yáng)光完全照亮。 ![]() ChatGPT 很快給出了答案。這次生成與以往不同的是,它補(bǔ)充了一句話:根據(jù)你的描述,這是由 DALL·E 創(chuàng)建的。DALL·E 是 OpenAI 的圖像生成模型。 看來(lái),不僅我遇到過(guò)前天提到的模型混淆問(wèn)題,估計(jì)國(guó)外友人也遇到過(guò)類似情況。 從這里可以得出一個(gè)結(jié)論:ChatGPT 官方提到的免費(fèi)試用最新的非自回歸模型(Non-autoregressive models)似乎并不支持,或者說(shuō)做了一定限制。 于是,我直接把問(wèn)題拋給了 ChatGPT:如何運(yùn)用最新的文生圖模型?”它給出了三種答案: 第一種是直接使用 ChatGPT 內(nèi)置的圖像生成功能,直接輸入詳細(xì)的描述,它會(huì)用最新的模型生成圖像。你可以優(yōu)化提示詞(Prompt),比如:
第二種是使用 API,你可以進(jìn)行批量生成或?qū)⑵浼械阶髌分?;第三種則是純介紹,它提到新的文生圖模型做了多模態(tài)結(jié)合,生成帶有故事性的連續(xù)圖像,用 AI 先生成草圖,再細(xì)化成精美插畫等。 不想太多,我直接按照它的要求,把任務(wù)交給了 Kimi,讓 Kimi 幫我生成一個(gè)提示詞:
ChatGPT生成的圖片如下,但是,它依然還是那句話,這是由 DALL·E 生成的圖像,展現(xiàn)了你描述的復(fù)古書房氛圍;很快,ChatGPT 將推出新的圖像生成模型,帶來(lái)更好的細(xì)節(jié)和風(fēng)格控制。 所以,結(jié)論是:ChatGPT模型是無(wú)法使用最新的文生圖模型的。怎么辦?為了驗(yàn)證準(zhǔn)確度,好久沒(méi)有給ChatGPT充值的我,索性再來(lái)了一個(gè)月會(huì)員。 ![]() 搞定后,切換到ChatGPT 4o對(duì)話界面,輸入提示詞:
響應(yīng)速度有點(diǎn)慢,不過(guò),生成的圖片的確有意境: ![]() 所以,必須ChatGPT 4o才可以用,GPT還是老版本的DALL·E模型。隨后,我又給它了一個(gè)卡通人物的提示詞:
我很好奇它能生成什么樣的畫面。你覺(jué)得怎么樣呢? ![]() 我確實(shí)不太好評(píng)價(jià),只能說(shuō)這張圖風(fēng)格可愛(ài)、充滿童趣,色彩溫馨。如果用在兒童讀物、繪本,或者早教、幼教的互動(dòng)課件、手工素材里,肯定是足夠的。 接著我把圖片拿給豆包,讓他深度思考一下,說(shuō):你評(píng)價(jià)一下效果怎么樣?我用的是ChatGPT 4o的最新文生圖模型。 豆包說(shuō):
但是,問(wèn)題來(lái)了,測(cè)試文生圖也看不出它的厲害之處,試試它兩張圖的融合能力怎么樣? 我從百度上隨機(jī)下載了兩個(gè)水杯的圖片,這兩個(gè)水杯都處于真實(shí)的場(chǎng)景中,且每個(gè)水杯都有手拿著。我想看看它是否能把手摳掉,把兩個(gè)杯子放在同一個(gè)平面上。 然后給到 Kimi,讓 Kimi 幫我寫個(gè)提示詞:
![]() 第一次它好像卡住了,跟我說(shuō):抱歉,我處理不了你的要求,要不你再試試? 估計(jì)是用的人太多了。我重新開(kāi)個(gè)窗口,這回它很快就有反應(yīng)了。問(wèn)題是,第一張照片處理得挺干凈,但第二張直接被忽略了。 ![]() 這下我可不干了,直接把要求說(shuō)得清清楚楚,一共四點(diǎn): 把兩只手都去掉,只留下水杯;水杯的細(xì)節(jié)、質(zhì)感和光影得保留好,看著得自然;背景要簡(jiǎn)單干凈,突出水杯;兩個(gè)水杯放在一起,比例要協(xié)調(diào),畫面得好看。還特別提醒它,尺寸要4:3的。 結(jié)果它花了大概40秒,就搞定了。看到結(jié)果時(shí),真的只能驚嘆:“這也太厲害了”,設(shè)計(jì)師要下崗了。 ![]() 你覺(jué)得怎么樣?速度、效率遠(yuǎn)比人工摳圖搞的快。 我又試了試Chat GPT 4o新出的知識(shí)圖功能,官方吹的吹得神乎其神,說(shuō)有了這功能,AI生成圖片能把現(xiàn)實(shí)世界里的知識(shí)用起來(lái),更懂用戶想啥,做出來(lái)的圖也更靠譜、更合乎常理。 簡(jiǎn)單說(shuō):AI畫畫會(huì)琢磨現(xiàn)實(shí)里的那些細(xì)節(jié),比如地方在哪兒、啥文化背景,還有物理規(guī)律那些。 這次,讓deepseek來(lái),我說(shuō),你幫我寫一個(gè)帶因果邏輯的文生圖的提示詞。有一個(gè)細(xì)節(jié)就是圖片比例依然是4:3。這是它隨機(jī)給到的:
![]() 額,這看不出什么因果邏輯。怎么辦?重新來(lái)過(guò)。索性直接把「定律」加在圖中間。這是deepseek給我的兩個(gè)提示詞: 一個(gè)是杠桿定律:生成一張圖,一個(gè)小孩在蹺蹺板上,通過(guò)杠桿原理把一個(gè)重物抬起來(lái)。小孩用力往下壓,重物被抬高,體現(xiàn)杠桿原理。背景簡(jiǎn)單,比例4:3。 ![]() 如上圖。這看著像嗎?的確很杠桿。給豆包后,它說(shuō): 這圖是說(shuō),有個(gè)小孩在壓蹺蹺板一頭,想把另一頭的大重物撬起來(lái)。就像玩蹺蹺板,坐一頭能把另一頭的人翹起來(lái),利用這個(gè)方法,不用費(fèi)老不用費(fèi)老大勁就能把重東西抬起來(lái),是一種省力的小竅門。 的確有點(diǎn)強(qiáng)。不過(guò)興許有些簡(jiǎn)單,換一個(gè):就拿「相對(duì)論的時(shí)間膨脹效應(yīng)」來(lái)測(cè)試。 提示詞:
![]() 你能看得出來(lái)嗎? 反正我能看得懂。不過(guò),第一次生成時(shí),Alice的名字被放在了腳下面,看起來(lái)有點(diǎn)奇怪。經(jīng)過(guò)二次對(duì)話微調(diào)后,成功地把名字放到了正確的位置。 我認(rèn)為還能在進(jìn)化,比如:指定人物的性別等等。 除了文生圖、圖片與圖片合成、以及生成理解物理世界規(guī)律的圖以外,還有沒(méi)有其他玩法呢? 試試風(fēng)格轉(zhuǎn)換。比如:將一張人物照片轉(zhuǎn)換為動(dòng)漫風(fēng)格,或者將一張圖片的風(fēng)格與另一張圖片的內(nèi)容融合,這種技術(shù)在藝術(shù)創(chuàng)作和設(shè)計(jì)時(shí)非常受用。 問(wèn)題是怎么轉(zhuǎn)換呢?我現(xiàn)在有一張個(gè)人形象照,把問(wèn)題甩給DeepSeek,讓它幫我想想。 DeepSeek說(shuō):如果你想測(cè)試OpenAI的ChatGPT文生圖模型的能力,可以出一個(gè)稍微復(fù)雜一點(diǎn)但又具體明確的問(wèn)題,這樣既能考驗(yàn)?zāi)P偷睦斫饽芰?,又能測(cè)試它的生成能力。 比如:我有一張個(gè)人形象照,我想把它變成動(dòng)漫風(fēng)格。希望你能幫我把照片里的我變成一個(gè)動(dòng)漫角色,頭發(fā)換成深藍(lán)色的,整體風(fēng)格有點(diǎn)賽博朋克那種酷酷的感覺(jué)。圖片比例是4:3就行。 ![]() 不管了,一股腦甩給ChatGPT 4o來(lái)處理。這好像有點(diǎn)翻車了。不過(guò),可能我要求太高了。 ![]() 的確有點(diǎn)抽象,你怎么看? 不管怎么說(shuō),非自回歸模型(Non-autoregressive models)的進(jìn)化速度確實(shí)很快,它改變了核心架構(gòu)。 這個(gè)架構(gòu)會(huì)先理解整個(gè)圖的結(jié)構(gòu)和細(xì)節(jié),有點(diǎn)像學(xué)生先聽(tīng)完老師講完題目,把整張畫的輪廓勾勒出來(lái),然后再一點(diǎn)點(diǎn)填充細(xì)節(jié)。 國(guó)內(nèi)很多產(chǎn)品也在用這種能力了,希望能抓緊時(shí)間趕上并超越它。作為個(gè)人,我們也要思考一下: 如何快速掌握AI生成圖片的能力,并把它用到工作場(chǎng)景中。說(shuō)到這兒,問(wèn)題就來(lái)了:你會(huì)用它做什么呢?快去試試吧,記得,用ChatGPT 4o模型才有。 |
|
|
來(lái)自: 王智遠(yuǎn)同學(xué) > 《待分類》