电竞比分网-中国电竞赛事及体育赛事平台

分享

人工智能[3640]金融行業(yè)湖倉(cāng)一體架構(gòu)及數(shù)據(jù)平臺(tái)的技術(shù)演進(jìn)[7]

 趙站長(zhǎng)的博客 2024-04-05 發(fā)布于北京

2、基于 Alluxio 的湖倉(cāng)一體化實(shí)踐:AI 和數(shù)據(jù)湖有機(jī)結(jié)合

最初的湖倉(cāng)一體的架構(gòu)是面向結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),但是現(xiàn)在隨著 AI 大模型的突飛猛進(jìn),金融行業(yè)從傳統(tǒng)的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘,轉(zhuǎn)變?yōu)?AI 大模型體系,面對(duì)著非常多的非結(jié)構(gòu)化數(shù)據(jù)。因此需要將 AI 與數(shù)據(jù)湖有機(jī)結(jié)合。

圖片

作為在線服務(wù),模型的更新會(huì)非常頻繁,隨著大模型的推廣,模型文件越來越大,更新上線效率挑戰(zhàn)也越來越大。另外,因?yàn)?GPU 資源的稀缺性,模型訓(xùn)練往往需要跟著 GPU 分散在多個(gè)云上云下平臺(tái),模型訓(xùn)練獲取數(shù)據(jù)的挑戰(zhàn)也越來越大。

痛點(diǎn)主要有以下兩方面:

在線推理服務(wù)往往跟離線數(shù)倉(cāng)不在一起,并且使用的 S3 或者 FUSE 接口也不是 HDFS 可以提供的。

不論是推理服務(wù)的模型結(jié)果數(shù)據(jù)還是模型訓(xùn)練的訓(xùn)練數(shù)據(jù)以往都是通過搬運(yùn)數(shù)據(jù)解決的:需要維護(hù)復(fù)雜的工程,占用大量的重復(fù)存儲(chǔ)成本,數(shù)據(jù)等待也影響了GPU 利用率。

通過 Alluxio,連接唯一數(shù)據(jù)湖/倉(cāng)庫(kù)作為模型訓(xùn)練和推理集群的唯一真實(shí)數(shù)據(jù)來源,使用 GPU 集群的本地 SSD 資源作為緩存,只需要利用少量緩存空間即可,既實(shí)現(xiàn)了接口轉(zhuǎn)義也保障了性能。帶來的價(jià)值收益包括:

性能提升:GPU 利用率從 20-30% 提高到了 90+%

工程成本降低:數(shù)據(jù)遷移和搬運(yùn)的開發(fā)和維護(hù)成本降低 75%。

存儲(chǔ)成本降低:只需要整個(gè)數(shù)據(jù)集不到 3% 的緩存成本即可滿足需求。

圖片

上圖中展示了 AI 與數(shù)據(jù)湖結(jié)合的邏輯示意圖。基于唯一的一個(gè)數(shù)據(jù)湖,構(gòu)建訓(xùn)練集群,通過 Alluxio 實(shí)現(xiàn)數(shù)據(jù)鏈路的鏈接。通過 Alluxio 的數(shù)據(jù)預(yù)加載機(jī)制,配合數(shù)據(jù)模型訓(xùn)練實(shí)現(xiàn)數(shù)據(jù)的預(yù)加載,基于唯一的真實(shí)數(shù)據(jù)源建立起AI 和數(shù)據(jù)湖的有機(jī)結(jié)合。使得數(shù)據(jù)的時(shí)效性新鮮度大大提升,GPU 利用率也更高,而同時(shí)維護(hù)改造成本則更低,數(shù)據(jù)遷移和多副本管理的成本都完全消除了。并且,不用再去額外采購(gòu)高性能存儲(chǔ)介質(zhì),現(xiàn)有存儲(chǔ)即能支撐模型訓(xùn)練。

我是一位愛學(xué)習(xí)的老人!本站主要是些學(xué)習(xí)體驗(yàn)與分享(其中會(huì)引用一些作品的原話并結(jié)合我的一生體會(huì)與經(jīng)驗(yàn)加工整理而成!在此一并感謝!如有不妥之處敬請(qǐng)與我聯(lián)系,我會(huì)妥善處理,謝謝!)我寫的主要是中老年人各方面應(yīng)注意的事兒!退休后我希望通過這個(gè)平臺(tái)廣交朋友,互助交流,共筑美好生活!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多