【原】即夢(mèng)AI表現(xiàn)力如何？

王智遠(yuǎn)同學(xué) 2024-09-15 發(fā)布于北京

展開(kāi)全文

文：王智遠(yuǎn) | ID:Z201440

你用過(guò)AI文生圖、文生視頻嗎？

從年初Sora視頻生成模型推出后，國(guó)內(nèi)大公司，字節(jié)、快手，紛紛推出了自己的產(chǎn)品。

從個(gè)人效率角度來(lái)說(shuō)，我之前沒(méi)怎么想過(guò)用生成圖片、視頻；雖然試過(guò)很多次，但發(fā)現(xiàn)，現(xiàn)在生成的圖片質(zhì)量還達(dá)不到商業(yè)使用標(biāo)準(zhǔn)，如果真要用，可能還要用設(shè)計(jì)軟件二次加工。

說(shuō)到剪映，大家應(yīng)該都很熟悉。一提到它，就會(huì)想到剪視頻。因?yàn)樗?jiǎn)單好用，許多專(zhuān)業(yè)做視頻的人都把它作為首選。

幾個(gè)月前，剪映Dreamina把中文名改為「即夢(mèng)」，還加入了很多新功能，比如用AI制作圖片和視頻，還有故事創(chuàng)作。剛開(kāi)始我對(duì)新功能不是很感興趣，但這兩天，在剪視頻過(guò)程中，又體驗(yàn)了一下。

發(fā)現(xiàn)有亮點(diǎn)，也有缺點(diǎn)，那么，表現(xiàn)力究竟如何呢？

01

首先，即夢(mèng)AI主界面還是保持了剪映的簡(jiǎn)單風(fēng)格，整體布局分成左右兩部分。

左邊給創(chuàng)作者用的工具，你可以在這里調(diào)整模型，設(shè)置提示詞、控制鏡頭，還能選擇畫(huà)面大小、生成次數(shù)等；右邊用來(lái)預(yù)覽生成的視頻和圖片；點(diǎn)擊任何一個(gè)圖片或視頻，你都可以再次編輯或重新生成，這非常符合我們工作的習(xí)慣。

我特別喜歡「HD超清」和「細(xì)節(jié)修復(fù)」兩個(gè)功能，它們能讓生成的畫(huà)面看起來(lái)更真實(shí)。

主頁(yè)下面，有一個(gè)用戶(hù)社區(qū)。這里分成靈感和短片兩大類(lèi)，每類(lèi)下面都有用戶(hù)上傳的各種風(fēng)格的作品。

比如：在靈感類(lèi)別里，有國(guó)風(fēng)美學(xué)、海報(bào)設(shè)計(jì)、動(dòng)漫游戲、未來(lái)科技、繪本插畫(huà)；短片類(lèi)目現(xiàn)在還沒(méi)有細(xì)分。我覺(jué)得這種分類(lèi)，是為了更好地展示作品，讓用戶(hù)找到自己感興趣的內(nèi)容。

我比較喜歡寫(xiě)真人像類(lèi)別，不知道它以后是不是能輔助攝影師做修圖使用。

大致看了看社區(qū)的作品，質(zhì)量挺高的。大多數(shù)圖片和短片點(diǎn)開(kāi)后，都可以直接下載，還會(huì)顯示一些提示詞，你可以直接復(fù)制使用，大多數(shù)提示詞是中文，這表明國(guó)產(chǎn)AI軟件對(duì)中文的理解能力已經(jīng)很不錯(cuò)了。

它一共分為四個(gè)能力，即：圖片生成、智能畫(huà)布、視頻生成、故事創(chuàng)作。

我先試了生成圖片功能。用時(shí)，得輸入一段描述文字，選一個(gè)模型（我用最新的即夢(mèng)通用 V2.0，還是beta版），等幾秒鐘，系統(tǒng)就會(huì)出來(lái)四張AI生成的圖片；如果看著不順眼，還可以再編輯或者重新生成。

這些圖片，你還可以拿來(lái)當(dāng)參考，進(jìn)一步調(diào)整人物的長(zhǎng)相、景深和姿勢(shì)，甚至還能局部重畫(huà)，或者直接用這個(gè)圖片去生成視頻。

我讓Kimi幫我寫(xiě)了一個(gè)提示詞，用來(lái)描述一個(gè)女性，內(nèi)容如下：

一個(gè)金色波浪長(zhǎng)發(fā)的女性，穿著白色蕾絲長(zhǎng)裙，站在有古典風(fēng)格的室內(nèi)，背景是柔和的自然光，看起來(lái)既夢(mèng)幻又精致。她的眼神深邃，表情溫柔，好像在講一個(gè)古老又美麗的故事。圖片的細(xì)節(jié)豐富，色彩鮮明，光影處理得也很細(xì)膩，給人一種高級(jí)的感覺(jué)。

尺寸我選擇3:4，大概15秒就出來(lái)了4張不同的AI圖片。

從一個(gè)外行的角度看，我覺(jué)得這些圖片有點(diǎn)像動(dòng)漫風(fēng)格；可能因?yàn)槟莻€(gè)“夢(mèng)幻而精致的寫(xiě)真風(fēng)格”的關(guān)鍵詞。所以，我微調(diào)了一下，加上了中國(guó)人、接地氣。

后來(lái)出現(xiàn)的效果，如上述對(duì)比，你覺(jué)得怎么樣？

個(gè)人認(rèn)為還算可以，AI表現(xiàn)力相對(duì)穩(wěn)定；不只試了人像，其他類(lèi)型也試過(guò)，都能準(zhǔn)確生成。不過(guò)在細(xì)節(jié)上，有時(shí)候會(huì)有點(diǎn)小瑕疵。

02?

說(shuō)完文生圖，第二點(diǎn)，聊聊即夢(mèng)AI的圖生圖功能。

所謂圖生圖。即，上傳一張圖片，AI會(huì)根據(jù)這張圖片的風(fēng)格、色彩和內(nèi)容作為參考，然后生成一些新的、創(chuàng)意的圖像。

這不是簡(jiǎn)單地復(fù)制原圖，而是在原圖的基礎(chǔ)上加入創(chuàng)新。

手頭沒(méi)有合適的圖片，我就拿自己開(kāi)玩笑了。我用一張我個(gè)人的形象照作為底圖，在選擇參考時(shí)，選了「人物長(zhǎng)相」。

接著，我讓Kimi Chat幫我寫(xiě)了個(gè)指令，想讓它生成一張專(zhuān)業(yè)形象的照片。提示詞是這樣的：

“穿著一套剪裁得體的商務(wù)西裝，展現(xiàn)出專(zhuān)業(yè)的形象?！?/span>

注意了：當(dāng)你進(jìn)行圖生圖，上傳不同的照片時(shí)，要選擇合適的模型。這里有通用1.4、2.0和2.0 Pro可選。對(duì)于人像，我選擇了1.4這個(gè)模型。

這個(gè)模型的描述是，它能從攝影寫(xiě)實(shí)到描繪風(fēng)格都做得很好，主要是用來(lái)處理人像的，它可以根據(jù)需求，在寫(xiě)實(shí)和風(fēng)格化之間找到平衡，呈現(xiàn)出你想要的人像效果。

所以，它人像能力應(yīng)該比較強(qiáng)，整個(gè)過(guò)程挺快的，不到30秒就出來(lái)四張圖。

第一次生成的時(shí)候，嘴部有點(diǎn)扭曲，我點(diǎn)擊「細(xì)節(jié)修復(fù)」來(lái)局部調(diào)整；但說(shuō)實(shí)話，生成的圖片和我個(gè)人還是差挺遠(yuǎn)的。

不能就此斷定模型不好，我又試了一次，在原圖基礎(chǔ)上，我改了提示詞為：做出加油動(dòng)作，然后做鬼臉，吐舌頭并眨右眼，它生成的結(jié)果是第三張。

朋友們，這看著像嗎？看來(lái)人像能力的確有點(diǎn)拉胯啊。

沒(méi)關(guān)系，換個(gè)場(chǎng)景試試。

美國(guó)有個(gè)網(wǎng)絡(luò)紅人叫握拳寶寶（Sammy Griner）。我下載了他的一張照片，用來(lái)做背景圖。這次選擇的模型是即夢(mèng)通用XL Pro，精細(xì)度調(diào)到了八。

提示詞是這樣的：

做出加油的動(dòng)作，然后做鬼臉，吐舌頭并眨右眼。下面是AI生成的，我精修過(guò)的圖片。

我覺(jué)得這次效果還不錯(cuò)，因?yàn)樵瓐D分辨率不高，我以為它最多只能識(shí)別出臉部輪廓，沒(méi)想到它能生成這么清晰的照片。

然后，我又試了一個(gè)新的指令，在AI生成的圖片基礎(chǔ)上，我加了新的提示詞，稍微難一點(diǎn)：

“請(qǐng)生成一幅現(xiàn)實(shí)主義風(fēng)格的圖像，畫(huà)一個(gè)五歲的男孩在春天的公園里。他手里拿著一個(gè)五彩斑斕的風(fēng)箏，做出加油的動(dòng)作，然后做鬼臉，吐舌頭并眨右眼；背景是綠油油的草地和遠(yuǎn)處模糊的藍(lán)天?！?/span>

這個(gè)提示詞挺復(fù)雜的，包括現(xiàn)實(shí)主義風(fēng)格、特定年齡的人物、服裝細(xì)節(jié)、動(dòng)作和背景環(huán)境。最后生成的第三張圖，我覺(jué)得效果還可以。

需要注意，那張圖是經(jīng)過(guò)「細(xì)節(jié)處理」和「超清處理」后才達(dá)到的效果，所以，這是文生圖和背景圖的結(jié)合，背景上還加了新的提示詞，最后的結(jié)果經(jīng)過(guò)兩次編輯才完成的。

雖然處理后的圖片里，孩子沒(méi)有吐舌頭和眨眼，但綠油油的草地和遠(yuǎn)處模糊的藍(lán)天還是被保留了。

因此，可以說(shuō)，即夢(mèng)AI的圖生圖模型，在控制整體畫(huà)面上做得不錯(cuò)，但在細(xì)節(jié)處理上還有提升的空間；這可能是因?yàn)樗鼪](méi)有足夠多的圖片來(lái)進(jìn)行訓(xùn)練。

除此外，我沒(méi)有對(duì)影視1.4和通用2.0模型進(jìn)行測(cè)試；根據(jù)官方描述，影視1.4模型主要用于處理影視風(fēng)格的多重?cái)⑹?，通?.0模型則是針對(duì)更精準(zhǔn)的描述詞，適用于多樣的風(fēng)格組合。

我認(rèn)為，這兩個(gè)模型應(yīng)該是針對(duì)特定場(chǎng)景設(shè)計(jì)的，你可以試試看。

03?

它的第三個(gè)能力叫做智能畫(huà)布。什么是智能畫(huà)布呢？

想象一下，你有一張照片。上傳到智能畫(huà)布后，就可以自由地編輯和修改這張照片，還能加入各種元素，這個(gè)功能的主要目的是讓創(chuàng)作過(guò)程變得直觀又高效。

智能畫(huà)布雖然和圖生圖有點(diǎn)像，但還是有區(qū)別。它不只是簡(jiǎn)單地生成新圖片，更像是一個(gè)高級(jí)編輯工具；它能實(shí)時(shí)響應(yīng)你的需求，讓你能深度定制和創(chuàng)意地表達(dá)自己的想法。

我試了一下，下載一張?jiān)虑虻恼掌瑏?lái)重繪。

上傳后，我有兩個(gè)選項(xiàng)：一是直接重繪圖片本身的細(xì)節(jié)，二是輸入提示詞來(lái)指導(dǎo)重繪。

我選擇了第一種，用的畫(huà)筆比較粗，結(jié)果生成的細(xì)節(jié)太粗糙了；所以，我把畫(huà)筆調(diào)細(xì)到20，再試了一次，但效果還是不太理想；不過(guò)，當(dāng)我用上「HD無(wú)損超清」和「細(xì)節(jié)修復(fù)」功能后，效果就好多了。

所以，給想試智能畫(huà)布的朋友們提個(gè)醒：雖然它的生成效果和效率都不錯(cuò)，但局部重繪的功能還有問(wèn)題。

以月球細(xì)節(jié)為例，如果你自己選擇重繪的范圍，可能會(huì)得到一些風(fēng)格很奇怪的圖片。

它的處理邏輯是先整體再細(xì)節(jié)，我猜這可能是因?yàn)榫植恐乩L沒(méi)有輸入關(guān)鍵詞的選項(xiàng)，所以AI得自己猜測(cè)重繪的風(fēng)格，而這個(gè)猜測(cè)的準(zhǔn)確率并不是很高。

此外，即夢(mèng)AI的擴(kuò)圖功能很強(qiáng)大，你可以不停地?cái)U(kuò)展圖片。在擴(kuò)圖時(shí)，輸入關(guān)鍵詞就能指導(dǎo)擴(kuò)圖，我給它輸入了關(guān)鍵詞「更大」，結(jié)果生成的照片如第三張，視覺(jué)廣闊了，下面出現(xiàn)一個(gè)小人。

如果不輸入關(guān)鍵詞，AI就會(huì)按照原圖的風(fēng)格來(lái)進(jìn)行擴(kuò)圖。

據(jù)此，可以說(shuō)，智能畫(huà)布能力比圖生圖能力強(qiáng)，局部處理能力比較弱；盡管如此，智能畫(huà)布功能整體上為用戶(hù)提供了一個(gè)強(qiáng)大而靈活的創(chuàng)作可能，所以，用戶(hù)可以更加自由的基于圖片，表達(dá)創(chuàng)意。

04?

那么，即夢(mèng)AI第四個(gè)能力是什么呢？AI視頻生成。

這可是重頭戲。生成視頻的方式，跟生成圖片差不多，也是分成兩種模式：文本生成視頻\圖片生成視頻。

如果是文本生成視頻，你只要通過(guò)簡(jiǎn)單的文本描述，AI就能制作出一段視頻；除了描述內(nèi)容外，你還可以選擇運(yùn)鏡模式、視頻的播放速度和視頻的比例。

實(shí)際測(cè)試了一下，做出一段視頻大概需要兩分鐘左右，但這里面有點(diǎn)技巧，比如：你得詳細(xì)說(shuō)明想要的視頻風(fēng)格、背景以及運(yùn)作方式等。

現(xiàn)在基本上能生成的視頻長(zhǎng)度有3秒、6秒、9秒和12秒。我之前用握拳寶寶（Sammy Griner）的圖片試過(guò)了，所以就用圖片生成視頻的模式來(lái)做實(shí)驗(yàn)。

用圖片生成視頻的好處是給AI一個(gè)明確的方向，因此，生成的視頻質(zhì)量還不錯(cuò)，但是細(xì)節(jié)上依然不能恭維。

比如下面這張圖：

這是我在視頻模式下截的圖，可以明顯看出，握拳寶寶（Sammy Griner）的臉變得有點(diǎn)鬼畜，看起來(lái)挺嚇人的。

盡管AI視頻生成有調(diào)整口型、視頻延長(zhǎng)、補(bǔ)幀、提升分辨率（HD）等功能，但即夢(mèng)AI目前還不能像處理圖片那樣，在視頻的某個(gè)部分進(jìn)行優(yōu)化。

測(cè)試完圖片生成視頻，接著試試文生成視頻。

提示詞：請(qǐng)制作一段視頻，內(nèi)容是一個(gè)穿著中國(guó)古風(fēng)服飾的帥哥，在公園里快樂(lè)地奔跑跳躍，臉上洋溢著開(kāi)心的笑容，眼睛里閃著甜美的光芒。

沒(méi)有開(kāi)通會(huì)員，所以一次只能生成一個(gè)視頻,我直接選擇了12秒長(zhǎng)，標(biāo)準(zhǔn)模式，視頻比例是3：4，運(yùn)鏡隨機(jī)，速度適中。

得說(shuō)，生成速度挺快，大概一分鐘就做好了。但總體感覺(jué)就那么回事；好的地方是，關(guān)鍵詞都識(shí)別出來(lái)了；不好的地方是，視頻質(zhì)量太差，一看就知道是AI生成的。

還有，視頻里的面部動(dòng)作還有點(diǎn)嚇人。看來(lái)AI在這方面還得多加努力。假設(shè)要對(duì)比的話：兩種模式生成的視頻基礎(chǔ)還行，但如果要求高一點(diǎn)，就難以讓人滿意了。

文本生成視頻的效果，比圖片生成視頻差很多，人物和背景都顯得不夠真實(shí)，圖片生成視頻雖然也有很多問(wèn)題，尤其是人物動(dòng)作和環(huán)境方面，還有很大的改進(jìn)空間。

我還看了一下“即夢(mèng)AI”的會(huì)員價(jià)格。

基礎(chǔ)版一年659元，平均每個(gè)月54元；標(biāo)準(zhǔn)版一年1899元，平均每個(gè)月158元；高級(jí)版一年5199元，平均每個(gè)月大約430元。

話說(shuō)，除能在短視頻中加一些賽博朋克的東西，它還能做什么？誰(shuí)會(huì)愿意為這么高的AI視頻會(huì)員買(mǎi)單？即使有人愿意，又能用AI視頻做出什么樣的東西來(lái)？

總結(jié)

AI視頻發(fā)展之路，還很長(zhǎng)。

我認(rèn)為，至于它真正走向商業(yè)化，還要看到更多的實(shí)際性應(yīng)用場(chǎng)景。

————

近期熱文：

1.《支小寶，來(lái)了》

2.《Excel盡頭是飛書(shū)多維表格》

長(zhǎng)按識(shí)別下方圖片

加入MANDUN星球，同時(shí)可加入智遠(yuǎn)的付費(fèi)社群

覺(jué)得有價(jià)值，歡迎點(diǎn)個(gè)在看，每個(gè)人都應(yīng)該擁有獨(dú)立思考的能力，舍滿取半，歡迎分享給更多人。

贊賞

共11人贊賞

电竞比分网-中国电竞赛事及体育赛事平台

【原】即夢(mèng)AI表現(xiàn)力如何？

【原】即夢(mèng)AI表現(xiàn)力如何？