短短26分鐘的發(fā)布會(huì)，OpenAI為何讓AI 圈再次震驚？

硅基觀察Pro 2024-05-14 發(fā)布于北京

展開全文

對(duì)于 AI 行業(yè)從業(yè)者來說，剛剛可能是一夜未眠。

北京時(shí)間 5月 15 日凌晨，美國人工智能公司 OpenAI 的春季功能更新會(huì)正式召開。OpenAI 首席技術(shù)官 Mira Murati發(fā)布了公司的最新模型GPT-4o。據(jù)介紹，GPT-4o速度是GPT-4（特別是GPT-4 Turbo）的兩倍，價(jià)格只有一半，且升級(jí)了模型在文本、視覺和音頻方面的功能。

當(dāng)然，更重要的是，基于GPT-4o，OpenAI還對(duì)ChatGPT做了更新，增加了更強(qiáng)的語音和視覺功能，這讓ChatGPT對(duì)現(xiàn)實(shí)的感知能力大大增強(qiáng)。

在Google I/O發(fā)布會(huì)前夕，OpenAI用GPT-4o的發(fā)布再次向外界證明了，自己是大模型領(lǐng)域毋庸置疑的領(lǐng)先者。

/ 01 / GPT-4o，更快、更強(qiáng)

發(fā)布會(huì)一開始，OpenAI 首席技術(shù)官 Mira Murati就宣布了 GPT-4 的一次大升級(jí)，推出了GPT-4o（“o”代表“omni”）。作為最新發(fā)布的模型，GPT-4o擁有更快的速度，并且升級(jí)了模型在文本、視覺和音頻方面的功能。

具體來說，GPT-4o大致有以下四個(gè)升級(jí)：更強(qiáng)的多模態(tài)能力、多語言能力的提升、更強(qiáng)的視覺和音頻理解、更快的速度和更低的價(jià)格。

第一，GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出，是真正意義上的多模態(tài)模型。

對(duì)于這個(gè)能力，OpenAI做了17個(gè)案例展示，其中包括照片轉(zhuǎn)漫畫、3D物體合成、海報(bào)創(chuàng)作、角色設(shè)計(jì)等樣本。在角色設(shè)計(jì)案例里，用戶先是向模型輸入角色的相關(guān)指令，并得到了一個(gè)機(jī)器人角色形象。

隨后用戶可以根據(jù)這一形象，自行設(shè)計(jì)角色的相關(guān)動(dòng)作，包括玩飛盤、編程、騎自行車等等。

第二，更強(qiáng)的多語言能力，GPT-4o 50 種不同語言中的性能得到了提高，包括改進(jìn)了分詞器以更好地壓縮其中的許多語言。GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音識(shí)別性能，特別是對(duì)于資源匱乏的語言。

第三，與現(xiàn)有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色。根據(jù)傳統(tǒng)基準(zhǔn)測(cè)試，GPT-4o 在文本、推理和編碼智能方面實(shí)現(xiàn)了 GPT-4 Turbo 級(jí)別的性能，同時(shí)在多語言、音頻和視覺功能上實(shí)現(xiàn)了更高水平的突破。

在音頻性能上，GPT-4o 在語音翻譯方面樹立了新的最先進(jìn)水平，并且在MLS基準(zhǔn)測(cè)試中優(yōu)于 Whisper-v3。

視覺理解方面，GPT-4o在M3Exam基準(zhǔn)和視覺感知基準(zhǔn)上都有不錯(cuò)的表現(xiàn)。其中，M3Exam基準(zhǔn)是多語言和視覺評(píng)估，由來自其他國家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題組成，有時(shí)包括圖形和圖表。在所有語言的基準(zhǔn)測(cè)試中，GPT-4o都比 GPT-4更強(qiáng)。

視覺理解評(píng)估 GPT-4o 在視覺感知基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。

在性能提升的同時(shí)，GPT-4o不僅速度更快了，價(jià)格也更便宜了。在OpenAI的API中，GPT-4o的速度是GPT-4（特別是GPT-4 Turbo）的兩倍，價(jià)格只有一半，并且具有更高的速率限制。

/ 02 / 新版ChatGPT來了

隨著GPT-4o的發(fā)布，OpenAI也對(duì)ChatGPT做了更新，增加了語音模式。與傳統(tǒng)的語音模式不同，ChatGPT的語音模式有三大特點(diǎn)：

一是交互過程中，可以隨時(shí)打斷；二是模型是實(shí)時(shí)響應(yīng)，幾乎沒有延遲；三是模型更注重交互的情緒，不僅能夠聽懂你的情緒，也能夠生成不同風(fēng)格和情感的聲音。

過去，人跟AI進(jìn)行語音對(duì)話，基本上都經(jīng)歷3步：1）你說的話，AI進(jìn)行語音識(shí)別，即音頻轉(zhuǎn)文本；2）大模型拿到這段文本，進(jìn)行回復(fù)，產(chǎn)出文本；3）講大模型的產(chǎn)出文本進(jìn)行語音合成，變成音頻。

由于上述轉(zhuǎn)化過于繁瑣，因此在轉(zhuǎn)化過程中會(huì)造成大量信息的損耗，既無法直接觀察音調(diào)、多個(gè)說話者或背景噪音，也無法輸出笑聲、歌唱或表達(dá)情感。而借助GPT-4o，OpenAI跨文本、視覺和音頻端到端地訓(xùn)練了一個(gè)新模型，這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理，效率得到了大幅提升。

除了語音功能外，ChatGPT還新增了視覺功能，并做了現(xiàn)場(chǎng)演示。與此前模型上傳圖片不同，演示人員直接用手機(jī)打開了攝像頭，并進(jìn)行了現(xiàn)場(chǎng)答題。

當(dāng)語音和視覺功能結(jié)合起來，能夠明顯看到ChatGPT對(duì)現(xiàn)實(shí)環(huán)境的感知能力大大加強(qiáng)，甚至帶來了更多的應(yīng)用場(chǎng)景。比如，通過視頻畫面，ChatGPT能夠分析出你當(dāng)下所處的環(huán)境以及可能在做的一些事情。

除此之外，ChatGPT甚至還能和你一起逗狗。

這一切的一切，都讓ChatGPT越來越像一個(gè)人，而非AI。按照 Sam Altman 的說法，新的語音模式將在未來幾周內(nèi)面向 Plus 用戶上線。

/ 03 / GPT-4o，尚未完成訓(xùn)練的GPT-5？

在OpenAI發(fā)布會(huì)后，眾人也紛紛給出了自己的積極評(píng)價(jià)。

賓夕法尼亞大學(xué)沃頓商學(xué)院教授伊森·莫里克表示，GPT-4o 非常令人印象深刻，非?？欤黠@比 GPT-4 更聰明（盡管沒有 GPT-5 更聰明），視覺更好。盡管潛在能力并不是巨大的飛躍，但實(shí)際上向前邁出了一大步。

英偉達(dá)高級(jí)人工智能科學(xué)家范吉姆（Jim Fan）在X上表示，OpenAI 已經(jīng)找到了一種將音頻直接映射到音頻的方法，作為一流的模態(tài)，并將視頻實(shí)時(shí)傳輸?shù)阶儔浩?。這些需要對(duì)標(biāo)記化和架構(gòu)進(jìn)行一些新的研究，但總的來說，這是一個(gè)數(shù)據(jù)和系統(tǒng)優(yōu)化問題（就像大多數(shù)事情一樣）。

在他看來，此次發(fā)布的GPT-4o 可能更加接近 GPT-5，甚至可能是尚未完成訓(xùn)練的GPT-5。尤其在Google I/O 大會(huì)之前，OpenAI 寧愿擊碎市場(chǎng)對(duì)GPT-4.5的心理預(yù)測(cè)，也不愿市場(chǎng)因錯(cuò)過對(duì) GPT-5 的極高期望而失望。這也為OpenAI爭取到了更多的時(shí)間。

在OpenAI發(fā)布會(huì)結(jié)束后，Sam Altman也發(fā)表了一則博客。以下是博客原文：

在我們今天的公告中，我想強(qiáng)調(diào)兩件事。

首先，我們使命的一個(gè)關(guān)鍵部分是將非常強(qiáng)大的人工智能工具免費(fèi)（或以優(yōu)惠的價(jià)格）提供給人們。我非常自豪我們?cè)?ChatGPT 中免費(fèi)提供了世界上最好的模型，沒有廣告或類似的東西。

當(dāng)我們創(chuàng)辦 OpenAI 時(shí)，我們最初的想法是我們要?jiǎng)?chuàng)造人工智能并利用它為世界創(chuàng)造各種利益。相反，現(xiàn)在看起來我們將創(chuàng)造人工智能，然后其他人將使用它來創(chuàng)造各種令人驚奇的事物，讓我們所有人都受益。

我們是一家企業(yè)，會(huì)發(fā)現(xiàn)很多東西需要收費(fèi)，這將有助于我們向（希望如此）數(shù)十億人提供免費(fèi)、出色的人工智能服務(wù)。

其次，新的語音（和視頻）模式是我用過的最好的計(jì)算機(jī)界面。感覺就像電影里的人工智能一樣；我仍然有點(diǎn)驚訝它是真的。事實(shí)證明，達(dá)到人類水平的響應(yīng)時(shí)間和表達(dá)能力是一個(gè)巨大的變化。

最初的 ChatGPT 暗示了語言界面的可能性；這個(gè)新事物感覺本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。

對(duì)我來說，與電腦交談從來都不是很自然的事情?，F(xiàn)在確實(shí)如此。當(dāng)我們添加（可選）個(gè)性化、訪問您的信息、代表您采取行動(dòng)的能力等等時(shí)，我確實(shí)可以看到一個(gè)令人興奮的未來，我們能夠使用計(jì)算機(jī)做比以往更多的事情。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：硅基觀察Pro > 《待分類》

舉報(bào)/認(rèn)領(lǐng)