【原】NOMI GPT背后有哪些思考？我們與蔚來(lái)工程師聊了聊

童濟(jì)仁汽車評(píng)論 2024-04-12 發(fā)布于上海

展開(kāi)全文

上一周，我們制作了《GPT上車，到底有什么用？》的節(jié)目，對(duì)GPT上車可能的應(yīng)用場(chǎng)景，發(fā)表了我們自己的看法。一周之后，蔚來(lái)宣布NOMI GPT正式開(kāi)啟推送。我們也在第一時(shí)間，與蔚來(lái)座艙體驗(yàn)負(fù)責(zé)人、NOMI交互以及認(rèn)知的負(fù)責(zé)人等相關(guān)研發(fā)人員，就智能座艙邁入大模型時(shí)代，進(jìn)行了溝通。

GPT上車，在過(guò)去一年里屢次被車企提及。而我們關(guān)心的是，一家車企去做大模型，和OpenAI這樣專門從事人工智能研究的公司，究竟會(huì)有什么不同。同時(shí)，面對(duì)曾在語(yǔ)音助手上有多年積累的百度、華為、小米等入局汽車，蔚來(lái)和他們相比有哪些優(yōu)劣勢(shì)與差異點(diǎn)呢？

這些問(wèn)題，在今天的溝通會(huì)上，我們得到了一些新的認(rèn)知。

車企做大模型，有什么特點(diǎn)？

大家對(duì)大模型的了解，很多來(lái)自于ChatGPT在過(guò)去一年的火熱。但是，相比這種對(duì)通用大模型的基礎(chǔ)研發(fā)，一家車企做大模型，最本質(zhì)的區(qū)別在于，他要讓大模型的能力服務(wù)于汽車場(chǎng)景的需求，而不是一股腦地將大模型能力“堆”在車上。

比如文生文、文生圖等等大模型的通用能力，如果只是簡(jiǎn)單地搬運(yùn)上車，除了在宣發(fā)上可以吹吹牛之外，對(duì)用戶其實(shí)沒(méi)有太大的價(jià)值。

尤其是對(duì)蔚來(lái)而言，有一個(gè)高度擬人化的NOMI人工智能系統(tǒng)后，如何讓這個(gè)“伙伴”更加擬人化，如何更富有情感地與乘員互動(dòng)，既是蔚來(lái)研發(fā)的一大難點(diǎn)，但同時(shí)也賦予了蔚來(lái)智能座艙獨(dú)一無(wú)二的體驗(yàn)。

而在此次蔚來(lái)端云多模態(tài)大模型上車后，NOMI的核心技術(shù)架構(gòu)，得到了全新的升級(jí)。具體來(lái)看，主要有三項(xiàng)：認(rèn)知中樞、情感引擎、端側(cè)多模態(tài)感知。我們盡可能用通俗的語(yǔ)言，來(lái)進(jìn)行分解。

首先是認(rèn)知中樞。

這主要是對(duì)用戶說(shuō)話中信息的認(rèn)知，從而進(jìn)行回應(yīng)與相應(yīng)指令的執(zhí)行。但是，因?yàn)镹OMI有擬人化的需求，這種需求不僅體現(xiàn)在NOMI對(duì)話的語(yǔ)氣更像是真人（而不是機(jī)器人），而且要能更準(zhǔn)確地判斷用戶對(duì)話的意圖與需求，既要聰明執(zhí)行，更要靈活不打擾。

舉一個(gè)非常常見(jiàn)的例子，當(dāng)呼喚語(yǔ)音助手進(jìn)行導(dǎo)航目的地設(shè)置時(shí)，會(huì)在說(shuō)“我要去……某某地方”時(shí)，中間會(huì)間斷一下，因?yàn)槟X海中沒(méi)有組織好目的地的表達(dá)方式。很多的語(yǔ)音助手，就會(huì)在這個(gè)語(yǔ)氣的間斷時(shí)打斷用戶，用戶就必須重新把指令再說(shuō)一遍。

但是NOMI GPT的認(rèn)知中樞，可以幫助NOMI“等待”用戶在間斷后說(shuō)出目的地，再發(fā)起導(dǎo)航。因?yàn)?/span>大模型能夠結(jié)合對(duì)話的上下文，智能地判斷調(diào)用任務(wù)型交互。這是一個(gè)技術(shù)問(wèn)題，但表現(xiàn)出來(lái)卻是一個(gè)人性化的體驗(yàn)。

再舉一個(gè)例子，在和NOMI進(jìn)行問(wèn)答時(shí)，NOMI會(huì)在給出答案后再加一句類似“你覺(jué)得怎么樣呢”的互動(dòng)。這同樣也是對(duì)對(duì)話理解的體現(xiàn)，反映到用戶體驗(yàn)上，就是我并不是在執(zhí)行指令，而是真正地像在與真人對(duì)話一樣。

其次是情感引擎。

這是蔚來(lái)在汽車行業(yè)獨(dú)創(chuàng)的架構(gòu)。情感引擎的加持，一方面能夠讓NOMI具備短期記憶和長(zhǎng)期記憶的能力，就好像真人去記憶和用戶說(shuō)過(guò)的話，記憶用戶的喜好，記憶和用戶所經(jīng)歷的場(chǎng)景；另一方面也讓NOMI具備“人設(shè)”，包括性格、三觀等等，而不是一個(gè)簡(jiǎn)單的“問(wèn)答機(jī)器”。

比如，和NOMI進(jìn)行“無(wú)限趣聊”時(shí)，這個(gè)特點(diǎn)就非常明顯。NOMI的話語(yǔ)，會(huì)讓人覺(jué)得旁邊有一個(gè)博學(xué)、樂(lè)觀、謙遜的朋友，而且配合NOMI多達(dá)200余種表情，更能凸顯情感屬性。再比如，語(yǔ)音設(shè)置快捷場(chǎng)景的指令后，NOMI能夠理解這個(gè)場(chǎng)景的意圖，并且給這個(gè)場(chǎng)景起一個(gè)符合其氛圍的名字。

最后是端側(cè)多模態(tài)感知。

端側(cè)，意味著不管有網(wǎng)沒(méi)網(wǎng)，NOMI都可以發(fā)揮大模型能力，也意味著數(shù)據(jù)信息都會(huì)保存在本地，不會(huì)泄露出車，并且做到賬號(hào)隔離。而多模態(tài)感知，意味著NOMI可以與圖像、音頻、車身傳感器進(jìn)行融合，從而獲得更全面的座艙內(nèi)外人與環(huán)境的感知。

比如，當(dāng)駕駛員走進(jìn)車內(nèi)，NOMI就能辨識(shí)出今天駕駛員穿的衣服，并在他上車時(shí)“吹一頓彩虹屁”夸駕駛員好看。比如，在車?yán)锬闷鹨粯游锲?，就可以?wèn)NOMI，我手里拿的是什么。對(duì)于座艙外的其它車輛、建筑、動(dòng)植物等，NOMI也可以看見(jiàn)并且對(duì)駕駛員的意圖進(jìn)行回應(yīng)。

不過(guò)，這些能力蔚來(lái)并沒(méi)有一次性全部釋放。有一些可能是因?yàn)檫€需要經(jīng)過(guò)更多的訓(xùn)練學(xué)習(xí)與測(cè)試，有一些則是蔚來(lái)出于車端應(yīng)用場(chǎng)景的考慮。比如問(wèn)“前面是什么車”，這個(gè)場(chǎng)景除了好玩有趣之外，還有沒(méi)有其它的價(jià)值可以被挖掘？這樣的問(wèn)題其實(shí)很多?？赡苡行S家的選擇是，只要這個(gè)功能能夠展現(xiàn)我的能力，能夠吸引用戶的關(guān)注，那我就上車。

但是蔚來(lái)會(huì)想得更多，哪怕具備了這項(xiàng)能力，但如果功能不能完全體現(xiàn)價(jià)值，也暫時(shí)不會(huì)推送。

所以，蔚來(lái)做座艙大模型，它的核心不僅是要讓NOMI變得聰明，能夠“看得見(jiàn)、認(rèn)得出”，更要讓他擬人化，領(lǐng)會(huì)意圖有默契，甚至與人“情投意合”。這種能力，體驗(yàn)不到配置表上，沒(méi)有真正體驗(yàn)過(guò)也很難從文字中感受到什么獨(dú)特性。但也就是這些一點(diǎn)一滴組合起來(lái)，最終將會(huì)決定智能座艙大模型是否能夠打動(dòng)人，成為真正的伙伴。

科技廠商做語(yǔ)音助手，一定更強(qiáng)嗎？

不管是小度、小愛(ài)還是小藝，發(fā)布都已經(jīng)有七八年了，而百度、小米、華為現(xiàn)在也都進(jìn)軍汽車行業(yè)。那是不是意味著，這些科技廠商在語(yǔ)音助手的能力移植到車端，就會(huì)對(duì)汽車廠商產(chǎn)生降維打擊呢？

或許蔚來(lái)并不是這樣看，核心還是因?yàn)槠嚨膱?chǎng)景非常垂直，是一個(gè)高度依賴優(yōu)化的場(chǎng)景。

首先，科技廠商的語(yǔ)音助手，此前最大的優(yōu)勢(shì)在于開(kāi)放問(wèn)答和閑聊。但是，當(dāng)有了大模型加持后，這項(xiàng)優(yōu)勢(shì)事實(shí)上已經(jīng)被填平了。因?yàn)樗械募夹g(shù)架構(gòu)，都需要在大模型的基礎(chǔ)上重新建構(gòu)，所以大家在這方面已經(jīng)來(lái)到了同一起跑線。

其次，車載語(yǔ)音助手比拼的不僅是基礎(chǔ)能力，更是對(duì)座艙的理解，是能力和車的場(chǎng)景怎樣去深入結(jié)合。這方面，蔚來(lái)因?yàn)楦邕M(jìn)入，因?yàn)榉e累的用戶和數(shù)據(jù)足夠多，反而是有優(yōu)勢(shì)的。

舉個(gè)例子，蔚來(lái)現(xiàn)在已經(jīng)實(shí)現(xiàn)的，包括NOMI記事提醒、全艙乘員記憶等等，都是行業(yè)首創(chuàng)的功能，而且是和用車場(chǎng)景緊密相關(guān)、可以被高頻使用的功能。

而且，車?yán)锏沫h(huán)境，包括環(huán)境噪聲、對(duì)話的位置與聲場(chǎng)，其實(shí)和在家里和一個(gè)智能音箱對(duì)話，有很大的差異。而這些又直接關(guān)乎車載語(yǔ)音助手的響應(yīng)速度、靈敏性、準(zhǔn)確性等一系列非常影響體驗(yàn)的指標(biāo)。這個(gè)時(shí)候就會(huì)發(fā)現(xiàn)，并不是簡(jiǎn)單地把手機(jī)或者智能音箱上的能力搬到車上，就能讓人覺(jué)得好用、想用的。

所以，面對(duì)科技廠商進(jìn)軍汽車行業(yè)可能在座艙人工智能領(lǐng)域產(chǎn)生的影響，蔚來(lái)其實(shí)思考得很早，也思考了很多。至少到現(xiàn)在，蔚來(lái)仍然會(huì)按照自己的想法與節(jié)奏，去推進(jìn)NOMI GPT的能力與功能釋放，而不是被短暫的炫技所影響。

寫在最后

在溝通中，蔚來(lái)的研發(fā)人員分享了兩個(gè)數(shù)據(jù)。第一個(gè)數(shù)據(jù)，是NOMI在蔚來(lái)銷售車輛中的選裝率，達(dá)到了80%。第二個(gè)數(shù)據(jù)，則是在GPT的用戶內(nèi)測(cè)中，和NOMI閑聊的對(duì)話比例，從GPT前的3%提升到了18%。蔚來(lái)的研發(fā)人員甚至預(yù)期在3-5年內(nèi)，隨著大模型能力的持續(xù)提升，這個(gè)比例可以達(dá)到50%。

此時(shí)，我們對(duì)車載語(yǔ)音助手，對(duì)智能座艙的認(rèn)知，其實(shí)已經(jīng)不簡(jiǎn)單是一個(gè)“不用動(dòng)手、只用動(dòng)口”的命令執(zhí)行工具，而是一個(gè)擬人化的伙伴。而且這個(gè)伙伴的作用，不僅僅局限在以座艙為中心的內(nèi)外環(huán)境，還可以實(shí)現(xiàn)與產(chǎn)品、服務(wù)、社區(qū)等的打通，成為蔚來(lái)全程體驗(yàn)中一個(gè)不可或缺的環(huán)節(jié)。

所以，GPT上車只是其中的一小步，是在底層技術(shù)架構(gòu)上的部署。后續(xù)的場(chǎng)景應(yīng)用、場(chǎng)景優(yōu)化、跨域打通，事實(shí)上可以做的事情非常多，可以想象的空間也非常大。

版權(quán)聲明：本文為《童濟(jì)仁汽車評(píng)論》獨(dú)家稿件。歡迎任何形式的轉(zhuǎn)載，但須注明出處為《童濟(jì)仁汽車評(píng)論》和撰寫作者。如有任何侵權(quán)行為，侵權(quán)者將承擔(dān)相應(yīng)法律責(zé)任。