电竞比分网-中国电竞赛事及体育赛事平台

<mark id="xxc9t"><object id="xxc9t"></object></mark><rt id="xxc9t"></rt>

搜索

分享

QQ空間 QQ好友新浪微博微信

【原】一張照片就能邊唱邊跳？千問升級全民可玩，視頻生成的門檻沒了

網(wǎng)羅燈下黑 2025-12-02 發(fā)布于河南

展開全文

千問又更新了，這次憋了個大招。

接入了全新的 Qwen-lmage。

這玩意有多強？以前我們用 AI 改圖，最怕的就是改完不像了，或者光影假的一塌糊涂。

但新模型，直接把一致性給拉滿了。

而且，用法極度舒適。

你完全不需要去學(xué)什么復(fù)雜的參數(shù)，也不用找隱藏入口。

就在千問 App 的對話框里，把圖扔進去，直接說人話，發(fā)指令。

它自己就會在后臺自動調(diào)用 Qwen-Image 系列模型，幫你生圖、修圖、融圖。

并且這次千問也接入了 Wan 2.5 ，成為首個支持音視頻同時輸出的移動端 AI 助手，一句話就能讓照片里的人邊唱邊跳。

主打的就是一個，有手就行。

來試下前幾天我生成的動漫人物合影。

在千問 App 上，一句話就能讓這么多動漫人物又唱又跳。

最近圣誕節(jié)快到了，就讓他們給大家祝個好吧。

就問你們這口型，這舞步，這手勢，齊不齊？

效果這么好，那就必須得介紹一下這次的幕后功臣——Wan 2.5。

Wan 2.5

看過之前文章的小伙伴都知道，我之前寫過 Wan 2.2 Animate，當時我就說那玩意讓「摳腳大漢變女神」的效果很炸裂。

而這次的 2.5，更進一步。它是業(yè)界極少數(shù)具備原生音畫同步能力的視頻模型。

什么叫原生？

就是它不是生成了視頻再硬貼一段音頻上去，而是在生成的過程中，模型就同時理解了文本、圖像、視頻和音頻。

它知道這個詞唱出來的時候，嘴型應(yīng)該是圓的還是扁的，身體的律動應(yīng)該是快還是慢。

這種多模態(tài)架構(gòu)，才是解決假唱感的終極方案。

OK，理論講完了，我們繼續(xù)整活。

玩法

上周發(fā)了怎么生成電商照片的文章，那在家居設(shè)計的時候，經(jīng)常需要生成家具放在房間的實際效果，這靠想象可不行，得眼見為實。

那現(xiàn)在就試下千問的多圖融合能力，給它一個空房間和沙發(fā)，讓它生成一張家居設(shè)計圖。

千問把兩張圖片進行了融合，沙發(fā)不偏不倚的靠在墻邊，這也是正常放沙發(fā)的位置，說明千問還是非常理解國人的習(xí)慣。

甚至連陽光的細節(jié)都完美的保留了下來，光線處理非常到位，如果不是看下右下角的 logo，你會不會以為是現(xiàn)場拍照的呢？

另外，最近帶女兒看了《瘋狂動物城2》，網(wǎng)上很多和朱迪合照的 AI 照片，這種已經(jīng)很常見了，我也跟風用千問做了一張。（這里的女兒照片為 AI 示例）

這樣的效果缺少一點互動，那就讓她們一起比個心吧，生成的圖片在轉(zhuǎn)換姿勢的指令遵循上同樣難不倒千問。

繼續(xù)再上點難度，除了靜態(tài)照片，得讓她們動起來。比如就讓她們一起唱首歌吧，沒關(guān)系，這正是千問拿手的。

受模型生成時長的限制，雖然有點短，但生成視頻后，人物角色保持得還是相當穩(wěn)的。

再玩點我自己喜歡的，看到一個美女的照片，只看照片肯定不過癮啊，我就想讓美女跳起來唱起來。

一張照片生成的這么長視頻，千問對這個舞蹈的還原度，沒有百分百也有九十九了。

我好奇的是，千問是怎么通過一個詞就能識別我的用意，配得音樂到位，舞蹈也到位。不知道千問私下里看了多少美女的視頻，才熟練成這種程度。

我再整個邪修的玩法，那就是讓一幅油畫唱跳起來。

這就是 Wan 2.5 恐怖的地方，它不管你是什么材質(zhì)，真人也好，油畫也好，二次元也好，它都能強行賦予生命。

而且這一套流程下來，我最大的感受就是絲滑，你不需要切換 App，不需要去摳圖，也不需要去剪映里配音，在一個對話框里，從修圖到生視頻，一氣呵成。

那問題來，這該怎么玩呢？

現(xiàn)在已經(jīng)在千問 App 全量上線了，不需要什么復(fù)雜的申請，注意以下兩點就行。

1. 下載或更新千問 App 到最新版。

2. 生成視頻時，最好在提示詞前面強調(diào)一下：幫我生成視頻。

對于普通用戶來說，這可能是目前市面上門檻最低的、能生成帶聲音視頻的 AI 玩法了。

結(jié)語

這次千問的更新，在我看來，不僅僅是多了一個唱跳的功能。它其實是在填補 AI 視頻的最后一塊拼圖——聲音與畫面的統(tǒng)一。

以前我們看 AI 視頻，更多的是在看奇觀，看畫面怎么流轉(zhuǎn)，怎么變形。但是加入了精準的口型和匹配的音效后，AI 視頻開始有了表演的性質(zhì)。

Wan 2.5 把視頻生成的競爭，從像不像，拉到了活不活的維度。

而千問 App，把這個技術(shù)，變成了每個人手機里都能玩的玩具。

不管是用來做表情包、做鬼畜視頻，還是給家里的老照片賦予一段聲音，這里的想象空間太大了。

我甚至覺得，以后朋友圈的拜年視頻，可能都要被這種 AI 唱跳給承包了。

大家趕緊去試試吧，真的，這玩意一旦玩起來，根本停不下來。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：網(wǎng)羅燈下黑 > 《待分類》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

網(wǎng)羅燈下黑

關(guān)注對話

TA的最新館藏

一張照片就能邊唱邊跳？千問升級全民可玩，視頻生成的門檻沒了
科技如此溫暖：他用100多元手搓AI眼鏡，讓盲人"看見"了世界
別再用網(wǎng)頁版Gemini了，你用錯了。
99%的AI工具都在炫技，只有它是來幫電商人賺錢的！
Gemini 3 被我問傻了
這一次，百度的AI真把我干沉默了

喜歡該文的人也喜歡更多

熱門閱讀換一換

<ol id="nj4s4"></ol><ol id="nj4s4"><tr id="nj4s4"></tr></ol>