平面躍至立體,AIGC正大步邁向3D時(shí)代... 近期,深度求索開源的全新“文生3D”算法 DreamCraft3D,可從一句話生成高質(zhì)量的三維模型,以 AI 的力量釋放更多的創(chuàng)意。先來感受下DreamCraft3D的驚艷生成效果。比如,用戶輸入文本:“奔跑在樹林中,搞笑的豬頭和孫悟空身體的混合形像”,DreamCraft3D 可以成功將以上概念組合起來,生成妙趣橫生的內(nèi)容:
Input: 'Humoristic san goku body mixed with wild boar head running in the forest' 而當(dāng)用戶希望創(chuàng)作“一只穿著賽博朋克夾克的超現(xiàn)實(shí)主義未來戰(zhàn)士貓”,我們的DreamCraft3D 可以根據(jù)這個(gè)奇思妙想,得到如下生動(dòng)的立體結(jié)果:
Input: 'A MINI cute hyperrealistic futuristic soldier cat wearing cyberpunk jacket'用戶可以為游戲、電影場景自定義更多豐富形象,如“超現(xiàn)實(shí)的穿著黑色鎧甲的蝙蝠俠”、“穿著護(hù)士服飾的老虎半身像”,DreamCraft3D 算法根據(jù)用戶的文本提示,一鍵生成高質(zhì)量 3D 結(jié)果,大大加速了過去繁瑣的 3D 內(nèi)容創(chuàng)作過程。
Input: 'Portrait painting of batman with black leather armor, ultra realistic' & 'A tiger dressed as a nurse'欲了解更多3D生成結(jié)果,點(diǎn)擊視頻: 目前,DreamCraft3D 論文和代碼已經(jīng)開源,幾周時(shí)間 GitHub 已獲1.4K贊。
- 開源項(xiàng)目倉庫:https://github.com/deepseek-ai/DreamCraft3D
- 論文論文:https:///pdf/2310.16818.pdf
- 項(xiàng)目主頁:https://mrtornado24./DreamCraft3D/

DreamCraft3D 算法細(xì)節(jié)構(gòu)建 3D 生成 AI 模型,最大的難點(diǎn)在于,目前我們很難像處理文本與 2D 圖像一樣,從互聯(lián)網(wǎng)獲取大量的 3D 訓(xùn)練數(shù)據(jù)。為此,DreamCraft3D 從藝術(shù)家手工創(chuàng)作過程汲取靈感,盡可能的細(xì)分整個(gè)三維創(chuàng)作生成過程,將文字轉(zhuǎn) 3D 這一復(fù)雜問題,拆解為一系列步驟。和之前工作相比,我們的研究重點(diǎn)放到每個(gè)階段的精細(xì)處理上,充分釋放層次化生成的潛力,以達(dá)到更高質(zhì)量的 3D 生成。
幾何雕刻階段具體來說,我們首先基于先進(jìn)的 2D 生成模型, 將用戶的文本描述渲染成為一張“2D 平面概念圖”。然后,DreamCraft3D 根據(jù) 2D 概念圖,腦補(bǔ)出整體的幾何結(jié)構(gòu)。這里,我們優(yōu)化一個(gè) 3D 表達(dá),使其滿足:2) 其新視角下的2D渲染圖像應(yīng)看上去盡可能的真實(shí) (我們借助 DreamFusion 工作提出的 SDS 損失函數(shù))然而,僅僅保證每個(gè)視角下渲染圖像的2D合理性,并不能確保幾何結(jié)構(gòu)的整體上的 3D 一致性。為此,我們采用一個(gè)以視角為條件輸入的 Stable Diffusion 模型,來提供給定視角下的 3D 先驗(yàn)信息。此外,我們采用如加噪步長退火、漸進(jìn)式視角采樣等策略,從而雕琢出豐富的幾何細(xì)節(jié)。 之后的階段,DreamCraft3D 則專注于提升 3D 模型的紋理質(zhì)量。我們從上一階段采用的隱式表面表達(dá)(implicit surface),過渡到優(yōu)化顯示表面表達(dá)(explicit surface)。此階段,我們僅采用2D文生圖擴(kuò)散模型才提供高質(zhì)量的紋理細(xì)節(jié)。同樣的,我們面臨三維整體視角一致性的問題,生長出的紋理常常存在“多頭問題”。為此,我們提出了“自舉蒸餾”技術(shù)(boostrapped score distillation):如上圖所示,我們交替訓(xùn)練擴(kuò)散模型與三維模型紋理。擴(kuò)散模型在微調(diào)過程中,學(xué)習(xí)到當(dāng)前3D模型的不同視角下的概念,而微調(diào)后的擴(kuò)散模型為三維優(yōu)化提供了愈發(fā)視角一致的視覺引導(dǎo)。因而,擴(kuò)散先驗(yàn)與三維模型在交替訓(xùn)練的過程中,得到相互增強(qiáng),整個(gè)三維優(yōu)化過程得到“自啟動(dòng)”(bootstrap)。總體上看,我們的自舉蒸餾損失函數(shù)(BSD),是從一個(gè)同時(shí)更新、愈發(fā)視角一致的目標(biāo)分布梯度中學(xué)習(xí):這種自舉的優(yōu)化過程帶來了顯著的紋理增強(qiáng)效果。我們邀請(qǐng)用戶進(jìn)行主觀評(píng)價(jià),相比于先前方法,超過90%的用戶更加青睞DreamCraft3D 的生成質(zhì)量。我們的文生 3D 質(zhì)量取得明顯優(yōu)勢。

生成質(zhì)量用戶主觀評(píng)價(jià) 在定量比較實(shí)驗(yàn),我們使用了四種指標(biāo)評(píng)估生成質(zhì)量:LPIPS,和 PSNR 用于測量參考視點(diǎn)的保真度;Contextual distance 用于評(píng)估新視角下渲染圖像與參考圖像的語義一致性;CLIP 得分用于衡量相對(duì)于文本提示的語義一致程度。如表格所示,我們的方法在維持紋理一致性和保真度方面顯著優(yōu)于其它方法。

 DeepSeek 始終堅(jiān)持:長期主義,專注于人工智能的底層技術(shù)和基礎(chǔ)研究,不斷挑戰(zhàn)前沿性難題;開放共享,以開源匯聚更多的創(chuàng)造力和生產(chǎn)力,促進(jìn)應(yīng)用的創(chuàng)新與生態(tài)的繁榮;懷抱雄心,致力于探索 AGI 的本質(zhì),帶著對(duì)世界的好奇,務(wù)實(shí)地實(shí)現(xiàn)浪漫的目標(biāo)。DreamCraft3D 讓我們看到,除了硬核的技術(shù)和智能,AI 還有超凡的創(chuàng)意和想象力!我們會(huì)為開源社區(qū)持續(xù)貢獻(xiàn)更多優(yōu)秀的開源作品,在 AI 領(lǐng)域不斷發(fā)掘新的驚喜。
|