|
千問又更新了,這次憋了個大招。 接入了全新的 Qwen-lmage。 這玩意有多強?以前我們用 AI 改圖,最怕的就是改完不像了,或者光影假的一塌糊涂。 但新模型,直接把一致性給拉滿了 。 而且,用法極度舒適。 你完全不需要去學(xué)什么復(fù)雜的參數(shù),也不用找隱藏入口。 就在千問 App 的對話框里,把圖扔進去,直接說人話,發(fā)指令 。 它自己就會在后臺自動調(diào)用 Qwen-Image 系列模型,幫你生圖、修圖、融圖。 并且這次千問也接入了 Wan 2.5 ,成為首個支持音視頻同時輸出的移動端 AI 助手,一句話就能讓照片里的人邊唱邊跳。 主打的就是一個,有手就行。 來試下前幾天我生成的動漫人物合影。 ![]() 在千問 App 上,一句話就能讓這么多動漫人物又唱又跳。 最近圣誕節(jié)快到了,就讓他們給大家祝個好吧。 ![]() 效果這么好,那就必須得介紹一下這次的幕后功臣——Wan 2.5。 Wan 2.5看過之前文章的小伙伴都知道,我之前寫過 Wan 2.2 Animate,當時我就說那玩意讓「摳腳大漢變女神」的效果很炸裂。 而這次的 2.5,更進一步。它是業(yè)界極少數(shù)具備原生音畫同步能力的視頻模型。 什么叫原生? 就是它不是生成了視頻再硬貼一段音頻上去,而是在生成的過程中,模型就同時理解了文本、圖像、視頻和音頻。 它知道這個詞唱出來的時候,嘴型應(yīng)該是圓的還是扁的,身體的律動應(yīng)該是快還是慢。 這種多模態(tài)架構(gòu),才是解決假唱感的終極方案。 OK,理論講完了,我們繼續(xù)整活。 玩法 上周發(fā)了怎么生成電商照片的文章,那在家居設(shè)計的時候,經(jīng)常需要生成家具放在房間的實際效果,這靠想象可不行,得眼見為實。 那現(xiàn)在就試下千問的多圖融合能力,給它一個空房間和沙發(fā),讓它生成一張家居設(shè)計圖。 ![]() 千問把兩張圖片進行了融合,沙發(fā)不偏不倚的靠在墻邊,這也是正常放沙發(fā)的位置,說明千問還是非常理解國人的習(xí)慣。 甚至連陽光的細節(jié)都完美的保留了下來,光線處理非常到位,如果不是看下右下角的 logo,你會不會以為是現(xiàn)場拍照的呢? ![]() 另外,最近帶女兒看了《瘋狂動物城2》,網(wǎng)上很多和朱迪合照的 AI 照片,這種已經(jīng)很常見了,我也跟風用千問做了一張。(這里的女兒照片為 AI 示例) ![]() 這樣的效果缺少一點互動,那就讓她們一起比個心吧,生成的圖片在轉(zhuǎn)換姿勢的指令遵循上同樣難不倒千問。 ![]() 繼續(xù)再上點難度,除了靜態(tài)照片,得讓她們動起來。比如就讓她們一起唱首歌吧,沒關(guān)系,這正是千問拿手的。
受模型生成時長的限制,雖然有點短,但生成視頻后,人物角色保持得還是相當穩(wěn)的。 再玩點我自己喜歡的,看到一個美女的照片,只看照片肯定不過癮啊,我就想讓美女跳起來唱起來。 ![]() ![]() 我再整個邪修的玩法,那就是讓一幅油畫唱跳起來。 這就是 Wan 2.5 恐怖的地方,它不管你是什么材質(zhì),真人也好,油畫也好,二次元也好,它都能強行賦予生命。 而且這一套流程下來,我最大的感受就是絲滑,你不需要切換 App,不需要去 摳圖,也不需要去剪映里配音,在一個對話框里,從修圖到生視頻,一氣呵成。 那問題來,這該怎么玩呢? 現(xiàn)在已經(jīng)在千問 App 全量上線了,不需要什么復(fù)雜的申請,注意以下兩點就行。 1. 下載或更新千問 App 到最新版。 2. 生成視頻時,最好在提示詞前面強調(diào)一下:幫我生成視頻。 對于普通用戶來說,這可能是目前市面上門檻最低的、能生成帶聲音視頻的 AI 玩法了。 結(jié)語 這次千問的更新,在我看來,不僅僅是多了一個唱跳的功能。它其實是在填補 AI 視頻的最后一塊拼圖——聲音與畫面的統(tǒng)一。 以前我們看 AI 視頻,更多的是在看奇觀,看畫面怎么流轉(zhuǎn),怎么變形。但是加入了精準的口型和匹配的音效后,AI 視頻開始有了表演的性質(zhì)。 Wan 2.5 把視頻生成的競爭,從像不像,拉到了活不活的維度。 而千問 App,把這個技術(shù),變成了每個人手機里都能玩的玩具。 不管是用來做表情包、做鬼畜視頻,還是給家里的老照片賦予一段聲音,這里的想象空間太大了。 我甚至覺得,以后朋友圈的拜年視頻,可能都要被這種 AI 唱跳給承包了。 大家趕緊去試試吧,真的,這玩意一旦玩起來,根本停不下來。
|
|
|
來自: 網(wǎng)羅燈下黑 > 《待分類》