电竞比分网-中国电竞赛事及体育赛事平台

分享

DeepSeek 再度開源:用 Janus

 wupin 2025-01-28

專題:DeepSeek為何能震動全球AI圈

  來源:賽博禪心

  今天是除夕,凌晨 1 點,我在北京的公寓里寫算法。白天在中關(guān)村(4.520, 0.00, 0.00%)咖啡館的喧囂, AppStore 登頂?shù)目駳g, 仿佛已經(jīng)是上個世紀的事情?!?/p>

  DeepSeek 完全指南:這到底是怎樣的存在?

  此刻的屏幕上,不斷翻出來新的消息:DeepSeek Janus-Pro 開源

  讓我們一起,來看看這舊年的最后一個驚喜 

  這是一個多模態(tài)模型,名稱來源于古羅馬神話中的雙面神“雅努斯”(Janus):它同時面向過去與未來。當然,你也可以說,這代表了模型的兩種能力——既要進行視覺理解,又要進行圖像生成。

  發(fā)布的地址在這: 

  https://github.com/deepseek-ai/Janus

  https://huggingface.co/deepseek-ai/Janus-Pro-1B

  https://huggingface.co/deepseek-ai/Janus-Pro-7B

  同時發(fā)布的,還有一份技術(shù)文檔,可以回復(fù) Janus 獲取這份文檔?!?/p>

  首先,我得承認,我對圖像處理這塊并不精通,所以如果有解讀錯誤的地方,歡迎評論區(qū)指正?!?/p>

  官方給了一些生成的效果圖,明顯強于 Janus 原版。雖比不上 Midjourney 那般藝術(shù),但應(yīng)為第一梯隊?!?/p>

  如果是對比 OpenAI 的 DALL-E 3,參數(shù)會領(lǐng)先不少,并且直接霸榜。

  更不同于 OpenAI 的 DALL-E 只能畫圖,Janus 同時包含了多種能力:比如圖像識別、地標識別、文字識別等。

  圖像識別能力,也就是所謂的讀圖 

  地標識別能力,比如讓他猜這張圖片是在哪拍的 

  圖片通識 - 他知道很多的文化符號,比如 Tom and Jerry 

  來識別圖片中的文字 

  當然,自然也能生成圖片 

  你會發(fā)現(xiàn),這個模型不同于 4o 類型的模型 - 只能看,而是既能看,也能畫。其原因,便是 Deep Seek 的這個模型,使用了解耦視覺編碼技術(shù)。

  在“理解通路”,它能迅速感知到圖片的核心信息,并給出更準確、更專業(yè)的回答;

  而在“生成通路”上,它便是一個藝術(shù)家,像 MidJourney 一樣,去描繪筆觸和色彩?!?/p>

  至于這個模型是如何做到這些的,按報告說法,基于以下三條: 

  • 更優(yōu)化的訓(xùn)練策略 DeepSeek 團隊改進了 Janus-Pro 的 “學(xué)習(xí)方法”,讓模型訓(xùn)練過程更高效、更穩(wěn)定。就像給學(xué)生制定了更科學(xué)的學(xué)習(xí)計劃,讓 Janus-Pro 能更快更好地掌握知識。

  • 更海量的訓(xùn)練數(shù)據(jù) 為了讓 Janus-Pro 見識更廣闊的世界,DeepSeek 投入了 前代模型三倍以上 的訓(xùn)練數(shù)據(jù)!海量的數(shù)據(jù)就像豐富的教材,讓 Janus-Pro “飽讀詩書”,變得更加博學(xué)。

  • 更大規(guī)模的模型 Janus-Pro 采用了更大規(guī)模的模型,參數(shù)量達到 70 億。模型規(guī)模的擴大就像大腦容量的增加,讓 Janus-Pro 擁有更強大的 “思考” 和 “處理信息” 的能力。

  如果對詳細信息感興趣,可以回復(fù) Janus 獲取這份文檔?!?/p>

  再度看向屏幕,已是剛過四點:不久,就要天亮了

  在我們的土地上,正傳頌著一種新的敘事:不搞算力禁運,不搞實體清單,不用算力砌高墻,而以開源筑長階,邀世界共赴星辰。

  東方破曉,愿君行早?!?/font>

責任編輯:李桐 

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多