电竞比分网-中国电竞赛事及体育赛事平台

分享

人工智能[3401]大數(shù)據(jù) AI 一體化解讀[4]

 趙站長(zhǎng)的博客 2024-03-29 發(fā)布于北京

2. 為什么需要將大數(shù)據(jù)和 AI 結(jié)合

下面通過(guò)兩個(gè)案例,來(lái)解釋為什么需要大數(shù)據(jù)與 AI 的聯(lián)動(dòng)。

案例 1:知識(shí)庫(kù)檢索增強(qiáng)的大模型問(wèn)答系統(tǒng)

在大模型問(wèn)答系統(tǒng)中,首先要用到基礎(chǔ)模型,然后把目標(biāo)的文檔進(jìn)行 embedding 化,并將 embedding 化的結(jié)果存在向量數(shù)據(jù)庫(kù)中。文檔的數(shù)量可能會(huì)非常大,因此 embedding 化時(shí)需要批處理的能力。本身基礎(chǔ)模型的推理服務(wù)也是很耗資源的,當(dāng)然這也取決于用多大的基礎(chǔ)模型,以及如何并行化。產(chǎn)生的所有 embedding 灌入到向量數(shù)據(jù)庫(kù)中,在查詢(xún)時(shí),query 也要經(jīng)過(guò)向量化,然后通過(guò)向量檢索,把可能跟這個(gè)問(wèn)答有關(guān)的知識(shí)從向量數(shù)據(jù)庫(kù)里面提取出來(lái)。這需要非常好的推理服務(wù)的性能。

提取出向量后,需要把向量所代表的文檔作為 context,再去約束這個(gè)大模型,在此基礎(chǔ)上做出問(wèn)答,這樣回答的效果就會(huì)遠(yuǎn)遠(yuǎn)好于自己搜索方式得到的結(jié)果,并且是以人的自然語(yǔ)言的方式來(lái)回答的。

在上述過(guò)程中,既需要有離線的分布式大數(shù)據(jù)平臺(tái)去快速產(chǎn)生 embedding,又需要有對(duì)大模型訓(xùn)練和服務(wù)的 AI 平臺(tái),將整個(gè)流程連起來(lái),才能構(gòu)成一個(gè)大模型問(wèn)答系統(tǒng)。

我是一位愛(ài)學(xué)習(xí)的老人!本站主要是些學(xué)習(xí)體驗(yàn)與分享(其中會(huì)引用一些作品的原話并結(jié)合我的一生體會(huì)與經(jīng)驗(yàn)加工整理而成!在此一并感謝!如有不妥之處敬請(qǐng)與我聯(lián)系,我會(huì)妥善處理,謝謝!)我寫(xiě)的主要是中老年人各方面應(yīng)注意的事兒!退休后我希望通過(guò)這個(gè)平臺(tái)廣交朋友,互助交流,共筑美好生活?。。。。。?更多文章請(qǐng)參看http://www.趙站長(zhǎng)的博客。期待大家的光臨與指教哦^0^!歡迎大家轉(zhuǎn)發(fā)! 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多