|
2. 為什么需要將大數(shù)據(jù)和 AI 結(jié)合 下面通過(guò)兩個(gè)案例,來(lái)解釋為什么需要大數(shù)據(jù)與 AI 的聯(lián)動(dòng)。 案例 1:知識(shí)庫(kù)檢索增強(qiáng)的大模型問(wèn)答系統(tǒng) 在大模型問(wèn)答系統(tǒng)中,首先要用到基礎(chǔ)模型,然后把目標(biāo)的文檔進(jìn)行 embedding 化,并將 embedding 化的結(jié)果存在向量數(shù)據(jù)庫(kù)中。文檔的數(shù)量可能會(huì)非常大,因此 embedding 化時(shí)需要批處理的能力。本身基礎(chǔ)模型的推理服務(wù)也是很耗資源的,當(dāng)然這也取決于用多大的基礎(chǔ)模型,以及如何并行化。產(chǎn)生的所有 embedding 灌入到向量數(shù)據(jù)庫(kù)中,在查詢(xún)時(shí),query 也要經(jīng)過(guò)向量化,然后通過(guò)向量檢索,把可能跟這個(gè)問(wèn)答有關(guān)的知識(shí)從向量數(shù)據(jù)庫(kù)里面提取出來(lái)。這需要非常好的推理服務(wù)的性能。 提取出向量后,需要把向量所代表的文檔作為 context,再去約束這個(gè)大模型,在此基礎(chǔ)上做出問(wèn)答,這樣回答的效果就會(huì)遠(yuǎn)遠(yuǎn)好于自己搜索方式得到的結(jié)果,并且是以人的自然語(yǔ)言的方式來(lái)回答的。 在上述過(guò)程中,既需要有離線的分布式大數(shù)據(jù)平臺(tái)去快速產(chǎn)生 embedding,又需要有對(duì)大模型訓(xùn)練和服務(wù)的 AI 平臺(tái),將整個(gè)流程連起來(lái),才能構(gòu)成一個(gè)大模型問(wèn)答系統(tǒng)。 我是一位愛(ài)學(xué)習(xí)的老人!本站主要是些學(xué)習(xí)體驗(yàn)與分享(其中會(huì)引用一些作品的原話并結(jié)合我的一生體會(huì)與經(jīng)驗(yàn)加工整理而成!在此一并感謝!如有不妥之處敬請(qǐng)與我聯(lián)系,我會(huì)妥善處理,謝謝!)我寫(xiě)的主要是中老年人各方面應(yīng)注意的事兒!退休后我希望通過(guò)這個(gè)平臺(tái)廣交朋友,互助交流,共筑美好生活?。。。。。?更多文章請(qǐng)參看http://www.趙站長(zhǎng)的博客。期待大家的光臨與指教哦^0^!歡迎大家轉(zhuǎn)發(fā)! |
|
|