人工智能[3401]大數(shù)據(jù) AI 一體化解讀[4]

趙站長(zhǎng)的博客 2024-03-29 發(fā)布于北京

展開(kāi)全文

2. 為什么需要將大數(shù)據(jù)和 AI 結(jié)合

下面通過(guò)兩個(gè)案例，來(lái)解釋為什么需要大數(shù)據(jù)與 AI 的聯(lián)動(dòng)。

案例 1：知識(shí)庫(kù)檢索增強(qiáng)的大模型問(wèn)答系統(tǒng)

在大模型問(wèn)答系統(tǒng)中，首先要用到基礎(chǔ)模型，然后把目標(biāo)的文檔進(jìn)行 embedding 化，并將 embedding 化的結(jié)果存在向量數(shù)據(jù)庫(kù)中。文檔的數(shù)量可能會(huì)非常大，因此 embedding 化時(shí)需要批處理的能力。本身基礎(chǔ)模型的推理服務(wù)也是很耗資源的，當(dāng)然這也取決于用多大的基礎(chǔ)模型，以及如何并行化。產(chǎn)生的所有 embedding 灌入到向量數(shù)據(jù)庫(kù)中，在查詢(xún)時(shí)，query 也要經(jīng)過(guò)向量化，然后通過(guò)向量檢索，把可能跟這個(gè)問(wèn)答有關(guān)的知識(shí)從向量數(shù)據(jù)庫(kù)里面提取出來(lái)。這需要非常好的推理服務(wù)的性能。

提取出向量后，需要把向量所代表的文檔作為 context，再去約束這個(gè)大模型，在此基礎(chǔ)上做出問(wèn)答，這樣回答的效果就會(huì)遠(yuǎn)遠(yuǎn)好于自己搜索方式得到的結(jié)果，并且是以人的自然語(yǔ)言的方式來(lái)回答的。

在上述過(guò)程中，既需要有離線的分布式大數(shù)據(jù)平臺(tái)去快速產(chǎn)生 embedding，又需要有對(duì)大模型訓(xùn)練和服務(wù)的 AI 平臺(tái)，將整個(gè)流程連起來(lái)，才能構(gòu)成一個(gè)大模型問(wèn)答系統(tǒng)。

我是一位愛(ài)學(xué)習(xí)的老人！本站主要是些學(xué)習(xí)體驗(yàn)與分享(其中會(huì)引用一些作品的原話并結(jié)合我的一生體會(huì)與經(jīng)驗(yàn)加工整理而成！在此一并感謝！如有不妥之處敬請(qǐng)與我聯(lián)系,我會(huì)妥善處理，謝謝！)我寫(xiě)的主要是中老年人各方面應(yīng)注意的事兒！退休后我希望通過(guò)這個(gè)平臺(tái)廣交朋友，互助交流，共筑美好生活?。。。。。?更多文章請(qǐng)參看http://www.趙站長(zhǎng)的博客。期待大家的光臨與指教哦^0^！歡迎大家轉(zhuǎn)發(fā)！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：趙站長(zhǎng)的博客 > 《人工智能大數(shù)據(jù)云計(jì)算物聯(lián)網(wǎng)》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

發(fā)表

請(qǐng)遵守用戶(hù) 評(píng)論公約

類(lèi)似文章 更多

电竞比分网-中国电竞赛事及体育赛事平台

人工智能[3401]大數(shù)據(jù) AI 一體化解讀[4]