|
對(duì)于 AI 行業(yè)從業(yè)者來說,剛剛可能是一夜未眠。 北京時(shí)間 5月 15 日凌晨,美國人工智能公司 OpenAI 的春季功能更新會(huì)正式召開。OpenAI 首席技術(shù)官 Mira Murati發(fā)布了公司的最新模型GPT-4o。據(jù)介紹,GPT-4o速度是GPT-4(特別是GPT-4 Turbo)的兩倍,價(jià)格只有一半,且升級(jí)了模型在文本、視覺和音頻方面的功能。 當(dāng)然,更重要的是,基于GPT-4o,OpenAI還對(duì)ChatGPT做了更新,增加了更強(qiáng)的語音和視覺功能,這讓ChatGPT對(duì)現(xiàn)實(shí)的感知能力大大增強(qiáng)。 在Google I/O發(fā)布會(huì)前夕,OpenAI用GPT-4o的發(fā)布再次向外界證明了,自己是大模型領(lǐng)域毋庸置疑的領(lǐng)先者。 / 01 / GPT-4o,更快、更強(qiáng) 發(fā)布會(huì)一開始,OpenAI 首席技術(shù)官 Mira Murati就宣布了 GPT-4 的一次大升級(jí),推出了GPT-4o(“o”代表“omni”)。作為最新發(fā)布的模型,GPT-4o擁有更快的速度,并且升級(jí)了模型在文本、視覺和音頻方面的功能。 具體來說,GPT-4o大致有以下四個(gè)升級(jí):更強(qiáng)的多模態(tài)能力、多語言能力的提升、更強(qiáng)的視覺和音頻理解、更快的速度和更低的價(jià)格。 第一,GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,是真正意義上的多模態(tài)模型。 對(duì)于這個(gè)能力,OpenAI做了17個(gè)案例展示,其中包括照片轉(zhuǎn)漫畫、3D物體合成、海報(bào)創(chuàng)作、角色設(shè)計(jì)等樣本。在角色設(shè)計(jì)案例里,用戶先是向模型輸入角色的相關(guān)指令,并得到了一個(gè)機(jī)器人角色形象。 隨后用戶可以根據(jù)這一形象,自行設(shè)計(jì)角色的相關(guān)動(dòng)作,包括玩飛盤、編程、騎自行車等等。 第二,更強(qiáng)的多語言能力,GPT-4o 50 種不同語言中的性能得到了提高,包括改進(jìn)了分詞器以更好地壓縮其中的許多語言。GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音識(shí)別性能,特別是對(duì)于資源匱乏的語言。 第三,與現(xiàn)有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。根據(jù)傳統(tǒng)基準(zhǔn)測(cè)試,GPT-4o 在文本、推理和編碼智能方面實(shí)現(xiàn)了 GPT-4 Turbo 級(jí)別的性能,同時(shí)在多語言、音頻和視覺功能上實(shí)現(xiàn)了更高水平的突破。 在音頻性能上,GPT-4o 在語音翻譯方面樹立了新的最先進(jìn)水平,并且在MLS基準(zhǔn)測(cè)試中優(yōu)于 Whisper-v3。 視覺理解方面,GPT-4o在M3Exam基準(zhǔn)和視覺感知基準(zhǔn)上都有不錯(cuò)的表現(xiàn)。其中,M3Exam基準(zhǔn)是多語言和視覺評(píng)估,由來自其他國家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題組成,有時(shí)包括圖形和圖表。在所有語言的基準(zhǔn)測(cè)試中,GPT-4o都比 GPT-4更強(qiáng)。 視覺理解評(píng)估 GPT-4o 在視覺感知基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。 在性能提升的同時(shí),GPT-4o不僅速度更快了,價(jià)格也更便宜了。在OpenAI的API中,GPT-4o的速度是GPT-4(特別是GPT-4 Turbo)的兩倍,價(jià)格只有一半,并且具有更高的速率限制。 / 02 / 新版ChatGPT來了 隨著GPT-4o的發(fā)布,OpenAI也對(duì)ChatGPT做了更新,增加了語音模式。與傳統(tǒng)的語音模式不同,ChatGPT的語音模式有三大特點(diǎn): 一是交互過程中,可以隨時(shí)打斷;二是模型是實(shí)時(shí)響應(yīng),幾乎沒有延遲;三是模型更注重交互的情緒,不僅能夠聽懂你的情緒,也能夠生成不同風(fēng)格和情感的聲音。 過去,人跟AI進(jìn)行語音對(duì)話,基本上都經(jīng)歷3步:1)你說的話,AI進(jìn)行語音識(shí)別,即音頻轉(zhuǎn)文本;2)大模型拿到這段文本,進(jìn)行回復(fù),產(chǎn)出文本;3)講大模型的產(chǎn)出文本進(jìn)行語音合成,變成音頻。 由于上述轉(zhuǎn)化過于繁瑣,因此在轉(zhuǎn)化過程中會(huì)造成大量信息的損耗,既無法直接觀察音調(diào)、多個(gè)說話者或背景噪音,也無法輸出笑聲、歌唱或表達(dá)情感。而借助GPT-4o,OpenAI跨文本、視覺和音頻端到端地訓(xùn)練了一個(gè)新模型,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理,效率得到了大幅提升。 除了語音功能外,ChatGPT還新增了視覺功能,并做了現(xiàn)場(chǎng)演示。與此前模型上傳圖片不同,演示人員直接用手機(jī)打開了攝像頭,并進(jìn)行了現(xiàn)場(chǎng)答題。 當(dāng)語音和視覺功能結(jié)合起來,能夠明顯看到ChatGPT對(duì)現(xiàn)實(shí)環(huán)境的感知能力大大加強(qiáng),甚至帶來了更多的應(yīng)用場(chǎng)景。比如,通過視頻畫面,ChatGPT能夠分析出你當(dāng)下所處的環(huán)境以及可能在做的一些事情。 除此之外,ChatGPT甚至還能和你一起逗狗。 這一切的一切,都讓ChatGPT越來越像一個(gè)人,而非AI。按照 Sam Altman 的說法,新的語音模式將在未來幾周內(nèi)面向 Plus 用戶上線。 / 03 / GPT-4o,尚未完成訓(xùn)練的GPT-5? 在OpenAI發(fā)布會(huì)后,眾人也紛紛給出了自己的積極評(píng)價(jià)。 賓夕法尼亞大學(xué)沃頓商學(xué)院教授伊森·莫里克表示,GPT-4o 非常令人印象深刻,非??欤黠@比 GPT-4 更聰明(盡管沒有 GPT-5 更聰明),視覺更好。盡管潛在能力并不是巨大的飛躍,但實(shí)際上向前邁出了一大步。 英偉達(dá)高級(jí)人工智能科學(xué)家范吉姆(Jim Fan)在X上表示,OpenAI 已經(jīng)找到了一種將音頻直接映射到音頻的方法,作為一流的模態(tài),并將視頻實(shí)時(shí)傳輸?shù)阶儔浩?。這些需要對(duì)標(biāo)記化和架構(gòu)進(jìn)行一些新的研究,但總的來說,這是一個(gè)數(shù)據(jù)和系統(tǒng)優(yōu)化問題(就像大多數(shù)事情一樣)。 在他看來,此次發(fā)布的GPT-4o 可能更加接近 GPT-5,甚至可能是尚未完成訓(xùn)練的GPT-5。尤其在Google I/O 大會(huì)之前,OpenAI 寧愿擊碎市場(chǎng)對(duì)GPT-4.5的心理預(yù)測(cè),也不愿市場(chǎng)因錯(cuò)過對(duì) GPT-5 的極高期望而失望。這也為OpenAI爭取到了更多的時(shí)間。 在OpenAI發(fā)布會(huì)結(jié)束后,Sam Altman也發(fā)表了一則博客。以下是博客原文: 在我們今天的公告中,我想強(qiáng)調(diào)兩件事。 首先,我們使命的一個(gè)關(guān)鍵部分是將非常強(qiáng)大的人工智能工具免費(fèi)(或以優(yōu)惠的價(jià)格)提供給人們。我非常自豪我們?cè)?ChatGPT 中免費(fèi)提供了世界上最好的模型,沒有廣告或類似的東西。 當(dāng)我們創(chuàng)辦 OpenAI 時(shí),我們最初的想法是我們要?jiǎng)?chuàng)造人工智能并利用它為世界創(chuàng)造各種利益。相反,現(xiàn)在看起來我們將創(chuàng)造人工智能,然后其他人將使用它來創(chuàng)造各種令人驚奇的事物,讓我們所有人都受益。 我們是一家企業(yè),會(huì)發(fā)現(xiàn)很多東西需要收費(fèi),這將有助于我們向(希望如此)數(shù)十億人提供免費(fèi)、出色的人工智能服務(wù)。 其次,新的語音(和視頻)模式是我用過的最好的計(jì)算機(jī)界面。感覺就像電影里的人工智能一樣;我仍然有點(diǎn)驚訝它是真的。事實(shí)證明,達(dá)到人類水平的響應(yīng)時(shí)間和表達(dá)能力是一個(gè)巨大的變化。 最初的 ChatGPT 暗示了語言界面的可能性;這個(gè)新事物感覺本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。 對(duì)我來說,與電腦交談從來都不是很自然的事情?,F(xiàn)在確實(shí)如此。當(dāng)我們添加(可選)個(gè)性化、訪問您的信息、代表您采取行動(dòng)的能力等等時(shí),我確實(shí)可以看到一個(gè)令人興奮的未來,我們能夠使用計(jì)算機(jī)做比以往更多的事情。
|
|
|