全面叫板OpenAI！谷歌發(fā)布多模態(tài)大模型全家桶：從AI助手到文生視頻模型|谷歌

wupin 2024-05-15 發(fā)布于湖北

展開全文

專題：聚焦谷歌2024年I/O開發(fā)者大會：實(shí)時交互、視頻模型登場

被OpenAI搶先一天后，科技巨頭谷歌不甘示弱，推出了自己的最新多模態(tài)AI（人工智能）產(chǎn)品。

當(dāng)?shù)貢r間5月14日，在谷歌I/O開發(fā)者大會上的主題演講中，谷歌展示了由升級后Gemini模型驅(qū)動的AI助手項(xiàng)目Project Astra、對標(biāo)Sora的文生視頻模型Veo，以及在硬件方面發(fā)布的第六代Tensor處理器單元（TPU）Trillium芯片。根據(jù)發(fā)布會最后的官方統(tǒng)計，完全聚焦于AI的這場主題演講總共提到了121次AI。

完全聚焦于AI的這場主題演講總共提到了121次AI。來源：谷歌I/O主題演講

谷歌CEO桑達(dá)爾·皮查伊（Sundar Pichai）表示，谷歌的所有工作都在圍繞生成式AI模型Gemini展開，“我們希望每個人都能從Gemini所做的事情中受益”。

14日當(dāng)天，谷歌（Nasdaq：GOOGL）股價收于每股171.93美元，漲0.6%，總市值2.12萬億美元。

AI搜索支持視頻輸入，Gemini、Gemma上新

作為搜索引擎巨頭，AI搜索正是谷歌所做工作中的一部分。

據(jù)介紹，在最新Gemini的加持下，谷歌搜索將具備多步驟推理能力，可以一次性處理帶有多個限制條件的長問題、幫助用戶進(jìn)行頭腦風(fēng)暴，并支持視頻搜索，讓用戶通過拍攝視頻來搜索解決方案。這些功能將先在美國推出，谷歌預(yù)計會在今年年底前將其帶給超過10億人。

谷歌AI搜索將具備多步驟推理能力。來源：谷歌

谷歌的Gemini以超長的上下文窗口而出名。在大會上，谷歌重點(diǎn)強(qiáng)調(diào)了大模型Gemini 1.5 Pro的多模態(tài)和長文本能力，為其推出一系列更新。谷歌將向全球150多個國家地區(qū)的Gemini Advanced訂閱者提供最新模型、擁有100萬個token的Gemini 1.5 Pro，支持超過35種語言，定價為每100萬token 3.5美元。

據(jù)皮查伊介紹，Gemini 1.5會提供“迄今為止所有基礎(chǔ)模型中最長的上下文窗口”。Gemini 1.5 Pro將在今年晚些時候?qū)汛翱谶M(jìn)一步擴(kuò)大至200萬token，拓展同步處理多模態(tài)信息的邊界。

從今年夏天開始，Gemini將支持語音實(shí)時交互，并在今年晚些時候上線實(shí)時視頻交互。未來幾個月內(nèi)，谷歌也將推出類似于GPTs的自定義AI助手功能，名為Gems，可以與整套“谷歌全家桶”聯(lián)動。

另外，對于一些需要快速響應(yīng)的場景，谷歌推出了Gemini 1.5 Flash模型。Flash將是API中速度最快的Gemini模型，針對大規(guī)模、大批量的高配任務(wù)進(jìn)行了優(yōu)化，也具有100萬token的長上下文窗口。

谷歌也在發(fā)布會上帶來了旗下開源大模型Gemma的最新版本Gemma 2。據(jù)介紹，Gemma 2采用全新架構(gòu)，參數(shù)上達(dá)到27B，擁有突破性的性能和效率。

AI助手Project Astra叫板GPT-4o

在OpenAI推出能夠?qū)崿F(xiàn)人類級別響應(yīng)的智能助手GPT-4o后，谷歌的AI智能體項(xiàng)目Project Astra也重磅登場。

在演示視頻中，Astra能夠通過手機(jī)攝像頭或智能眼鏡看到的內(nèi)容來分析響應(yīng)語音命令。它成功地識別出代碼序列、為電路圖提出改進(jìn)建議、能夠通過鏡頭“看到”倫敦國王十字區(qū)，并提醒用戶智能眼鏡的放置位置。

Project Astra是谷歌對于未來AI助手的展望。來源：谷歌

谷歌AI助手將能夠通過智能眼鏡和用戶一起觀察世界。來源：谷歌

據(jù)介紹，谷歌在Gemini的基礎(chǔ)上開發(fā)了Astra的原型，可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中以實(shí)現(xiàn)更快地處理信息。通過語音模型，谷歌也強(qiáng)化了智能助手的說話能力，讓其能夠給出更快速的回應(yīng)。

不過，在演示視頻中，谷歌AI助手的回應(yīng)速度似乎還是會比GPT-4o稍慢一些，語音所表現(xiàn)出的感情色彩也平淡一些。

皮查伊表示，谷歌計劃從今年開始將Astra的功能添加到其Gemini應(yīng)用程序及其產(chǎn)品中。不過，他也強(qiáng)調(diào)，雖然最終目標(biāo)是“讓Astra在公司的軟件中實(shí)現(xiàn)無縫連接”，但該產(chǎn)品將被謹(jǐn)慎推出，并且“商業(yè)化之路將由質(zhì)量驅(qū)動”。

除了在AI助手領(lǐng)域的競爭外，谷歌還通過文生視頻模型Veo來反擊OpenAI的Sora。Veo能夠根據(jù)文字、圖片和視頻的提示來生成高質(zhì)量的1080p視頻，創(chuàng)作“一致且連貫”的鏡頭，用戶可以對光照、鏡頭語言、視頻顏色風(fēng)格等進(jìn)行自定義設(shè)置。不過，谷歌沒有宣布Veo的具體推出時間。

來源：谷歌I/O主題演講

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： wupin > 《待分類》

舉報/認(rèn)領(lǐng)