人工智能[1735]Stable Diffusion 3 驚艷亮相，還與 Sora 是同架構(gòu)，生成圖像真假難辨！

趙站長的博客 2024-02-24 發(fā)布于北京

展開全文

人工智能[1735]

大模型領(lǐng)域，每家公司都在爭分奪秒。在文生圖這條賽道上，面對 Midjourney、DALL-E 的圍攻，2 月 22 日，初創(chuàng)公司 Stability AI 宣布推出下一代 AI 圖像生成器——Stable Diffusion 3（簡稱 SD3），以開放權(quán)重的形式為圖像帶來高保真度。

提示詞：史詩級動漫作品：一位巫師在夜晚的山頂上向黑暗的天空施放宇宙咒語，咒語上寫著“Stable Diffusion 3”，由五彩繽紛的能量組成

用上了和 Sora 同架構(gòu)的 Stable Diffusion 3

時下 Stability AI 并沒有發(fā)布有關(guān) Stable Diffusion 3 的諸多細節(jié)，也沒有帶來最新的技術(shù)報告詳解，但是這不影響它的一些亮眼表現(xiàn)。

其一，Stable Diffusion 3 模型的參數(shù)范圍從 800M（小于常用 Stable Diffusion 1.5 版本）到 8B （大于 Stable Diffusion XL 版本）不等。

這一尺寸范圍允許模型的不同版本在各個設(shè)備譬如從智能手機到服務(wù)器上本地運行。要想使用，你可能仍然需要一個強大的 GPU 和一個用于機器學(xué)習(xí)工作的設(shè)置。

其二，Stable Diffusion 3 之所以被稱之為“最強大的文本到圖像模型”，是因為自 Stable Diffusion 3 使用了類似 OpenAI Sora 的技術(shù)，即擴散 Transformer 架構(gòu)。其中，“基于 Transformer 的可擴展擴散模型 DiT”由領(lǐng)導(dǎo) Sora 項目成員之一的 Will Peebles 和紐約大學(xué)任助理教授謝賽寧二人于 2022 年首創(chuàng)，但是于 2023 年進行了修訂，現(xiàn)在已經(jīng)達到可擴展性。通過增加 Transformer 的深度和寬度，以及改變輸入圖像的分塊方式，DiT 模型能夠生成具有高質(zhì)量和細節(jié)的圖像。

基于此，Stable Diffusion 3 大大提高了多主題提示、圖像質(zhì)量和拼寫能力（文字渲染）的性能。

除此之外，該模型還采用了“flow matching”技術(shù)。該模型可以通過學(xué)習(xí)如何從隨機噪音順利過渡到結(jié)構(gòu)化圖像來生成圖像。它不需要模擬流程中的每一步，而是專注于圖像創(chuàng)建應(yīng)遵循的整體方向或流程，同樣可以在不增加太多開銷的情況下提高質(zhì)量。

在 X 社交平臺上，Stability AI CEO Emad Mostaque 也進一步補充道：

- 它使用了一種新型擴散 Transformer（與 Sora 類似），并結(jié)合了 flow matching 和其他改進。

- 它利用了 Transformer 的改進，不僅能進一步擴展，還能接受多模式輸入。

- 更多技術(shù)細節(jié)即將發(fā)布

- 將以開放形式發(fā)布，預(yù)覽版旨在提高其質(zhì)量和安全性，就像穩(wěn)定版一樣

- 它將與完整的工具生態(tài)系統(tǒng)一起推出

- 這是一個利用最新硬件的新平臺，有各種尺寸可供選擇

- 支持視頻、3D 等功能

- 需要更多 GPU

至于對于如何把控 Stable Diffusion 3 的安全問題，該公司在公告中寫道：“我們相信安全、負責(zé)任的人工智能實踐。這意味著我們已經(jīng)采取并將繼續(xù)采取合理的措施，防止壞人濫用 Stable Diffusion 3。當(dāng)我們開始訓(xùn)練模型時，安全就開始了，并持續(xù)到測試、評估和部署的整個過程。為了準(zhǔn)備這個早期預(yù)覽版，我們引入了許多保護措施。通過與研究人員、專家和我們的社區(qū)不斷合作，我們希望在模型公開發(fā)布時能夠進一步誠信創(chuàng)新?！?/strong>

同一提示詞下，SD3 vs Bing（DALL-E）vs Midjourney

值得注意的是，在沒有完全掌控 AI 工具之前，其背后的研發(fā)公司都不敢貿(mào)然將其開放。Stability AI 也是如此，所以想要嘗試的小伙伴，需要先提交申請進入候補名單：https:///stablediffusion3

我們也可以從 Stability 網(wǎng)站和相關(guān)社交媒體賬戶上發(fā)布的樣本來看，其生成效果似乎與目前其他最先進的圖像合成模型大致相當(dāng)，包括業(yè)界已有的 DALL-E 3、Adobe Firefly、Imagine with Meta AI、Midjourney 和 Google Imagen。

從生成圖片的效果上來看，過去排版一直也是 Stable Diffusion 的一個弱點，包括上述提及到幾款文生圖大模型最近也在致力于解決這個問題。在 Stable Diffusion 3 中，它提供了比之前更好的排版。

“這要歸功于 Transformer 架構(gòu)和額外的文本編碼器，現(xiàn)在可以使用完整的句子和連貫的風(fēng)格”，Emad Mostaque 說道。這一點也可以從下面示例中明顯感知此模型的進化。

提示詞：電影照片，教室的桌子上放著一個紅蘋果，黑板上用粉筆寫著 "不成功便成仁"（go big or go home）。

不難看出 Stable Diffusion 3 生成的圖片真的有電影的質(zhì)感：

相同提示下 Midjourney v6.0 的表現(xiàn)：

提示：一幅畫中包含宇航員騎著一只豬，穿著蓬蓬裙，撐著一把粉紅色的傘，豬旁邊的地上有一只戴著高帽的知更鳥，角落里有 "Stable Diffusion"的字樣。

Stable Diffusion 3 自動調(diào)整，把"Stable Diffusion"的字樣好似設(shè)置成了水印。

與 Bing 相同的提示：

同一提示下的 DALLE-3：

Midjourney 6：

提示：變色龍在黑色背景上的攝影棚照片特寫

Stable Diffusion 3 非常生動：

也有用戶直接分享了具有相同的提示 Gemini Advanced/Ultra 生成效果：

Stable Diffusion 3 也能夠很好地處理很多文本：

提示：一張 90 年代臺式電腦放在辦公桌上的照片，電腦屏幕上寫著“歡迎”。

DALL-E：

創(chuàng)作沒有瓶頸，生成的圖像和真實的相片難以分辨：

動畫風(fēng)格的同樣不在話下：

對于未來，Stability AI CEO Emad Mostaque 還透露，在獲得 SD3 這樣的基礎(chǔ)模型之后，接下來關(guān)于控制、組合、協(xié)作等多功能特性也會隨之而至，正如下面視頻所示，可以直接對圖片中的某一個事物進行優(yōu)化替換，未來可期！

最后，就在 Stable Diffusion 3 發(fā)布的同時，這一領(lǐng)域的重要參與者 Google 也宣布，因為在發(fā)現(xiàn)自家的大模型 Gemini 生成不準(zhǔn)確的歷史圖像后，它將暫停該工具生成人物圖像的功能。

這也引發(fā)了不少人的擔(dān)憂，“這些東西變得越來越令人印象深刻（也更可怕）。不知道解決方案是什么，或者是否有解決方案，但我真的希望能夠有一種方法來驗證圖像/視頻是人工智能生成的。根據(jù)我對 Deepfakes 工作方式的理解，這基本上是不可能的（因為你用來檢測人工智能的相同工具被用來確保它不會被檢測為人工智能。）”。

至今為止，似乎的確沒有什么準(zhǔn)確的方法來辨別內(nèi)容是否是 AI 生成的還是真實創(chuàng)作的，未來也需要技術(shù)、教育、法規(guī)等多方面的制度完善來規(guī)避諸多潛在的問題。

整體而言，Stable Diffusion 3 的落地，也讓很多 AI 從業(yè)者倍感期待，“對于一直堅持使用文生圖工具的用戶來說，Stable Diffusion 3 看起來比 Midjourney V6 更好。它至少與 DALL·E 3 有部分相似之處，這對開放式設(shè)計來說可能是巨大的進步?！?nbsp;

還有網(wǎng)友評論道：“期待未來能出一個渲染中文文字的模型”。

我是一位愛學(xué)習(xí)的老人！本站主要是些學(xué)習(xí)體驗與分享(其中會引用一些作品的原話并結(jié)合我的一生體會與經(jīng)驗加工整理而成！在此一并感謝！如有不妥之處敬請與我聯(lián)系,我會妥善處理，謝謝！)我寫的主要是中老年人各方面應(yīng)注意的事兒！退休后我希望通過這個平臺廣交朋友，互助交流，共筑美好生活?。。。。?！更多文章請參看http://www.趙站長的博客。期待大家的光臨與指教哦^0^！歡迎大家轉(zhuǎn)發(fā)！