|
機(jī)器之心報(bào)道 機(jī)器之心編輯部 今天,谷歌宣布推出 Gemini 1.5。 Gemini 1.5 建立在谷歌基礎(chǔ)模型開發(fā)和基礎(chǔ)設(shè)施的研究與工程創(chuàng)新的基礎(chǔ)上,包括通過新的專家混合 (MoE) 架構(gòu)使 Gemini 1.5 的訓(xùn)練和服務(wù)更加高效。 谷歌現(xiàn)在推出的是用于早期測(cè)試的 Gemini 1.5 的第一個(gè)版本 ——Gemini 1.5 Pro。它是一種中型多模態(tài)模型,針對(duì)多種任務(wù)的擴(kuò)展進(jìn)行了優(yōu)化,其性能水平與谷歌迄今為止最大的模型 1.0 Ultra 類似,并引入了長(zhǎng)上下文理解方面的突破性實(shí)驗(yàn)特征。 Gemini 1.5 Pro 配備了 128000 個(gè) token 上下文窗口。但從今天開始,少數(shù)開發(fā)人員和企業(yè)客戶可以通過 AI Studio 和 Vertex AI 的私人預(yù)覽版在最多 100 萬(wàn)個(gè) token 的上下文窗口中進(jìn)行嘗試。谷歌還進(jìn)行了一些優(yōu)化,以改善延遲、減少計(jì)算要求并增強(qiáng)用戶體驗(yàn)。 谷歌 CEO Sundar Pichai 和谷歌 DeepMind CEO Demis Hassabis 對(duì)新模型進(jìn)行了專門介紹。 領(lǐng)先基礎(chǔ)模型的上下文長(zhǎng)度Gemini 1.5 建立在谷歌對(duì) Transformer 和 MoE 架構(gòu)的領(lǐng)先研究之上。傳統(tǒng) Transformer 充當(dāng)一個(gè)大型神經(jīng)網(wǎng)絡(luò),而 MoE 模型則分為更小的 “專家” 神經(jīng)網(wǎng)絡(luò)。根據(jù)給定輸入的類型,MoE 模型學(xué)會(huì)選擇性地僅激活其神經(jīng)網(wǎng)絡(luò)中最相關(guān)的專家路徑。這種專業(yè)化極大地提高了模型的效率。通過稀疏門控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究,Google 一直是深度學(xué)習(xí) MoE 技術(shù)的早期采用者和先驅(qū)。谷歌在模型架構(gòu)方面的最新創(chuàng)新使 Gemini 1.5 能夠更快地學(xué)習(xí)復(fù)雜任務(wù)并保持質(zhì)量,同時(shí)更高效地訓(xùn)練和服務(wù)。這些效率正在幫助谷歌團(tuán)隊(duì)比以往更快地迭代、培訓(xùn)和交付更高級(jí)的 Gemini 版本,并且正在努力進(jìn)一步優(yōu)化。人工智能模型的 “上下文窗口” 由 token 組成,token 是用于處理信息的構(gòu)建塊。token 可以是文字、圖像、視頻、音頻或代碼的整個(gè)部分或子部分。模型的上下文窗口越大,它在給定提示中可以接收和處理的信息就越多,從而使其輸出更加一致、相關(guān)和有用。通過一系列機(jī)器學(xué)習(xí)創(chuàng)新,谷歌增加了 1.5 Pro 的上下文窗口容量,遠(yuǎn)遠(yuǎn)超出了 Gemini 1.0 最初的 32,000 個(gè) token。該大模型現(xiàn)在可以在生產(chǎn)環(huán)境中運(yùn)行多達(dá) 100 萬(wàn)個(gè) token。這意味著 1.5 Pro 可以一次性處理大量信息,包括 1 小時(shí)的視頻、11 小時(shí)的音頻、超過 30,000 行代碼或超過 700,000 個(gè)單詞的代碼庫(kù)。在谷歌的研究中,還成功測(cè)試了多達(dá) 1000 萬(wàn)個(gè) token。對(duì)大量信息進(jìn)行復(fù)雜推理1.5 Pro 可以在給定提示內(nèi)無(wú)縫分析、分類和總結(jié)大量?jī)?nèi)容。例如,當(dāng)給出阿波羅 11 號(hào)登月任務(wù)的 402 頁(yè)記錄時(shí),它可以推理整個(gè)文檔中的對(duì)話、事件和細(xì)節(jié)。Gemini 1.5 Pro 可以理解、推理和識(shí)別阿波羅 11 號(hào)登月任務(wù)的 402 頁(yè)記錄中的好奇細(xì)節(jié)。 1.5 Pro 可以針對(duì)包括視頻在內(nèi)的不同模式執(zhí)行高度復(fù)雜的理解和推理任務(wù)。例如,當(dāng)給定一部 44 分鐘的巴斯特?基頓無(wú)聲電影時(shí),該模型可以準(zhǔn)確分析各種情節(jié)點(diǎn)和事件,甚至推理出電影中容易被忽略的小細(xì)節(jié)。當(dāng)給出簡(jiǎn)單的線條圖作為現(xiàn)實(shí)生活中物體的參考材料時(shí),Gemini 1.5 Pro 可以識(shí)別 44 分鐘的巴斯特基頓無(wú)聲電影中的場(chǎng)景。使用較長(zhǎng)的代碼塊解決相關(guān)問題1.5 Pro 可以跨較長(zhǎng)的代碼塊執(zhí)行更相關(guān)的問題解決任務(wù)。當(dāng)給出超過 100,000 行代碼的提示時(shí),它可以更好地推理示例、建議有用的修改并解釋代碼不同部分的工作原理。Gemini 1.5 Pro 可以推理 100,000 行代碼,提供有用的解決方案、修改和注釋在文本、代碼、圖像、音頻、視頻評(píng)估綜合面板上進(jìn)行測(cè)試時(shí),1.5 Pro 在用于開發(fā)大型語(yǔ)言模型 (LLM) 的基準(zhǔn)測(cè)試中,87% 的性能優(yōu)于 1.0 Pro。在相同的基準(zhǔn)測(cè)試中與 1.0 Ultra 相比,它的表現(xiàn)大致相似。即使上下文窗口增加,Gemini 1.5 Pro 仍能保持高水平的性能。在 NIAH 評(píng)估中,故意將包含特定事實(shí)或陳述的一小段文本放置在很長(zhǎng)的文本塊中,1.5 Pro 99% 的時(shí)間都能找到嵌入的文本,在數(shù)據(jù)塊中如下只要 100 萬(wàn)個(gè) token。Gemini 1.5 Pro 還展示了令人印象深刻的 “上下文學(xué)習(xí)(in-context learning)” 技能,這意味著它可以從長(zhǎng)提示中給出的信息中學(xué)習(xí)新技能,而不需要額外的微調(diào)。谷歌在 MTOB (Translation from One Book )基準(zhǔn)測(cè)試中測(cè)試了這項(xiàng)技能,該基準(zhǔn)顯示了該模型從以前從未見過的信息中學(xué)習(xí)的能力。當(dāng)給定卡拉芒語(yǔ)(一種全球使用人數(shù)不足 200 人的語(yǔ)言)的語(yǔ)法手冊(cè)時(shí),該模型可以學(xué)習(xí)將英語(yǔ)翻譯成卡拉芒語(yǔ),其水平與學(xué)習(xí)相同內(nèi)容的人相似。由于 1.5 Pro 的長(zhǎng)上下文窗口是大型模型中的首創(chuàng),因此谷歌正在不斷開發(fā)新的評(píng)估和基準(zhǔn)來(lái)測(cè)試其新穎的功能。有關(guān)更多詳細(xì)信息,請(qǐng)參閱 Gemini 1.5 Pro 技術(shù)報(bào)告。技術(shù)報(bào)告地址:https://storage./deepmind-media/gemini/gemini_v1_5_report.pdf使用 Gemini 模型進(jìn)行構(gòu)建和實(shí)驗(yàn)谷歌致力于負(fù)責(zé)任地將每個(gè)新一代 Gemini 模型帶給全球數(shù)十億人、開發(fā)者和企業(yè)用戶使用。從今天開始,谷歌將通過 AI Studio 和 Vertex AI 向開發(fā)者和企業(yè)客戶提供 1.5 Pro 預(yù)覽版。未來(lái),當(dāng)模型進(jìn)行更廣泛的發(fā)布時(shí),屆時(shí),谷歌將推出具有標(biāo)準(zhǔn) 128,000 個(gè) token 上下文窗口的 1.5 Pro。很快,隨著谷歌對(duì)模型的改進(jìn),谷歌計(jì)劃引入從標(biāo)準(zhǔn) 128,000 個(gè)上下文窗口開始并擴(kuò)展到 100 萬(wàn)個(gè) token 的定價(jià)等級(jí)。早期測(cè)試人員可以在測(cè)試期間免費(fèi)嘗試 100 萬(wàn)個(gè) token 上下文窗口,速度的顯著提高也即將到來(lái)。有興趣測(cè)試 1.5 Pro 的開發(fā)人員現(xiàn)在可以在 AI Studio 中注冊(cè),而企業(yè)客戶可以聯(lián)系他們的 Vertex AI 客戶團(tuán)隊(duì)。參考鏈接:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note
|