电竞比分网-中国电竞赛事及体育赛事平台

分享

全面叫板OpenAI!谷歌發(fā)布多模態(tài)大模型全家桶:從AI助手到文生視頻模型|谷歌

 wupin 2024-05-15 發(fā)布于湖北

專題:聚焦谷歌2024年I/O開發(fā)者大會:實(shí)時交互、視頻模型登場

被OpenAI搶先一天后,科技巨頭谷歌不甘示弱,推出了自己的最新多模態(tài)AI(人工智能)產(chǎn)品。

當(dāng)?shù)貢r間5月14日,在谷歌I/O開發(fā)者大會上的主題演講中,谷歌展示了由升級后Gemini模型驅(qū)動的AI助手項(xiàng)目Project Astra、對標(biāo)Sora的文生視頻模型Veo,以及在硬件方面發(fā)布的第六代Tensor處理器單元(TPU)Trillium芯片。根據(jù)發(fā)布會最后的官方統(tǒng)計,完全聚焦于AI的這場主題演講總共提到了121次AI。

完全聚焦于AI的這場主題演講總共提到了121次AI。 來源:谷歌I/O主題演講完全聚焦于AI的這場主題演講總共提到了121次AI。 來源:谷歌I/O主題演講

谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)表示,谷歌的所有工作都在圍繞生成式AI模型Gemini展開,“我們希望每個人都能從Gemini所做的事情中受益”。

14日當(dāng)天,谷歌(Nasdaq:GOOGL)股價收于每股171.93美元,漲0.6%,總市值2.12萬億美元。

AI搜索支持視頻輸入,Gemini、Gemma上新

作為搜索引擎巨頭,AI搜索正是谷歌所做工作中的一部分。

據(jù)介紹,在最新Gemini的加持下,谷歌搜索將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題、幫助用戶進(jìn)行頭腦風(fēng)暴,并支持視頻搜索,讓用戶通過拍攝視頻來搜索解決方案。這些功能將先在美國推出,谷歌預(yù)計會在今年年底前將其帶給超過10億人。

谷歌AI搜索將具備多步驟推理能力。來源:谷歌谷歌AI搜索將具備多步驟推理能力。來源:谷歌

谷歌的Gemini以超長的上下文窗口而出名。在大會上,谷歌重點(diǎn)強(qiáng)調(diào)了大模型Gemini 1.5 Pro的多模態(tài)和長文本能力,為其推出一系列更新。谷歌將向全球150多個國家地區(qū)的Gemini Advanced訂閱者提供最新模型、擁有100萬個token的Gemini 1.5 Pro,支持超過35種語言,定價為每100萬token 3.5美元。

據(jù)皮查伊介紹,Gemini 1.5會提供“迄今為止所有基礎(chǔ)模型中最長的上下文窗口”。Gemini 1.5 Pro將在今年晚些時候?qū)汛翱谶M(jìn)一步擴(kuò)大至200萬token,拓展同步處理多模態(tài)信息的邊界。

從今年夏天開始,Gemini將支持語音實(shí)時交互,并在今年晚些時候上線實(shí)時視頻交互。未來幾個月內(nèi),谷歌也將推出類似于GPTs的自定義AI助手功能,名為Gems,可以與整套“谷歌全家桶”聯(lián)動。

另外,對于一些需要快速響應(yīng)的場景,谷歌推出了Gemini 1.5 Flash模型。Flash將是API中速度最快的Gemini模型,針對大規(guī)模、大批量的高配任務(wù)進(jìn)行了優(yōu)化,也具有100萬token的長上下文窗口。

谷歌也在發(fā)布會上帶來了旗下開源大模型Gemma的最新版本Gemma 2。據(jù)介紹,Gemma 2采用全新架構(gòu),參數(shù)上達(dá)到27B,擁有突破性的性能和效率。

AI助手Project Astra叫板GPT-4o

在OpenAI推出能夠?qū)崿F(xiàn)人類級別響應(yīng)的智能助手GPT-4o后,谷歌的AI智能體項(xiàng)目Project Astra也重磅登場。

在演示視頻中,Astra能夠通過手機(jī)攝像頭或智能眼鏡看到的內(nèi)容來分析響應(yīng)語音命令。它成功地識別出代碼序列、為電路圖提出改進(jìn)建議、能夠通過鏡頭“看到”倫敦國王十字區(qū),并提醒用戶智能眼鏡的放置位置。

Project Astra是谷歌對于未來AI助手的展望。來源:谷歌Project Astra是谷歌對于未來AI助手的展望。來源:谷歌
谷歌AI助手將能夠通過智能眼鏡和用戶一起觀察世界。來源:谷歌谷歌AI助手將能夠通過智能眼鏡和用戶一起觀察世界。來源:谷歌

據(jù)介紹,谷歌在Gemini的基礎(chǔ)上開發(fā)了Astra的原型,可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中以實(shí)現(xiàn)更快地處理信息。通過語音模型,谷歌也強(qiáng)化了智能助手的說話能力,讓其能夠給出更快速的回應(yīng)。

不過,在演示視頻中,谷歌AI助手的回應(yīng)速度似乎還是會比GPT-4o稍慢一些,語音所表現(xiàn)出的感情色彩也平淡一些。

皮查伊表示,谷歌計劃從今年開始將Astra的功能添加到其Gemini應(yīng)用程序及其產(chǎn)品中。不過,他也強(qiáng)調(diào),雖然最終目標(biāo)是“讓Astra在公司的軟件中實(shí)現(xiàn)無縫連接”,但該產(chǎn)品將被謹(jǐn)慎推出,并且“商業(yè)化之路將由質(zhì)量驅(qū)動”。

除了在AI助手領(lǐng)域的競爭外,谷歌還通過文生視頻模型Veo來反擊OpenAI的Sora。Veo能夠根據(jù)文字、圖片和視頻的提示來生成高質(zhì)量的1080p視頻,創(chuàng)作“一致且連貫”的鏡頭,用戶可以對光照、鏡頭語言、視頻顏色風(fēng)格等進(jìn)行自定義設(shè)置。不過,谷歌沒有宣布Veo的具體推出時間。

來源:谷歌I/O主題演講來源:谷歌I/O主題演講

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多