电竞比分网-中国电竞赛事及体育赛事平台

分享

清華教授裴丹:大模型與智能運(yùn)維的融合

 yi321yi 2024-01-17 發(fā)布于上海

圖片

圖片


圖片

大模型時(shí)代下,有4個(gè)運(yùn)維界普遍關(guān)注的問(wèn)題,比如大模型落地運(yùn)維場(chǎng)景,面臨哪些技術(shù)挑戰(zhàn)?與較為成熟的 AIOps 小模型有什么關(guān)系?面對(duì)百模大戰(zhàn)的情況,如何選擇大模型的底座?以及近期、中期、長(zhǎng)期有哪些落地的應(yīng)用?

今天將為大家?guī)?lái)個(gè)人的一些觀點(diǎn),供大家參考。

分享嘉賓|裴丹 清華大學(xué)計(jì)算機(jī)系 長(zhǎng)聘副教授、博士生導(dǎo)師

內(nèi)容已做精簡(jiǎn),如需獲取專(zhuān)家完整版視頻實(shí)錄和課件,請(qǐng)掃碼領(lǐng)取。


01

大模型時(shí)代,智能運(yùn)維的變化與趨勢(shì)
圖片
以上面左圖為例,在大模型之前,我們有很多還不錯(cuò)的工具,但實(shí)際操作起來(lái)跟決策者之間有一個(gè)鴻溝,因?yàn)樗僮髌饋?lái)是有一定的技術(shù)門(mén)檻,不是很方便。但是到了大模型時(shí)代,決策者或者資深專(zhuān)家是能夠現(xiàn)場(chǎng)決策的,可以通過(guò)自然語(yǔ)言,跟智能運(yùn)維的工具所結(jié)合。
上面右圖可以類(lèi)比當(dāng)前智能運(yùn)維領(lǐng)域現(xiàn)狀:我們現(xiàn)在有不少大模型的AIOps工具,可以類(lèi)比于星球大戰(zhàn)電影里R2-D2機(jī)器人,可以實(shí)現(xiàn)遙感、遙測(cè)、操作、處置等各種能力,但缺點(diǎn)是不會(huì)說(shuō)人話。星球大戰(zhàn)的主角作為決策者,無(wú)法直接跟R2-D2機(jī)器人進(jìn)行對(duì)話,所以需要一個(gè)大語(yǔ)言模型,也就是中間的金色機(jī)器人,專(zhuān)門(mén)做翻譯,實(shí)現(xiàn)讓已有工具說(shuō)人話的希望。
在此基礎(chǔ)上,除了要說(shuō)人話,AIOps還需要把語(yǔ)言模型和各種小模型工具有機(jī)的整合。
圖片
這是一個(gè)什么概念?上圖右上角有很多的運(yùn)維場(chǎng)景,左下角有很多不同模態(tài)的運(yùn)維數(shù)據(jù),面對(duì)復(fù)雜的場(chǎng)景,多模態(tài)數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的數(shù)據(jù)關(guān)系,取決于拓?fù)涞榷喾N依賴關(guān)系數(shù)據(jù)。
這種組合出來(lái)很多工具,表面看起來(lái)能力還蠻強(qiáng)的,也用到了AI,但是實(shí)際上它只是解決非常聚焦的一小部分。小模型眾多,除了說(shuō)人話以外,能不能把這些小模型工具有機(jī)的整合起來(lái)?是落地過(guò)程中很重要的一個(gè)問(wèn)題,也是大家關(guān)注的。
圖片
不久之前,比爾蓋茨在博客發(fā)表了一篇文章,核心內(nèi)容提到 AI Agent 即將徹底改變?nèi)祟?lèi)使用計(jì)算機(jī)的方式,會(huì)有各種各樣的AI助手幫你定差旅、做各種事情。那么落實(shí)到運(yùn)維領(lǐng)域,這種智能體可能是助理、教練、顧問(wèn)、參謀、內(nèi)部專(zhuān)家等等,但是要落實(shí)到這樣的角色上,絕對(duì)不是說(shuō)簡(jiǎn)單的翻譯能力,一定是具備多重且復(fù)雜的能力。
圖片
這是一篇英文版的學(xué)術(shù)論文,他試圖總結(jié)智能體的概念。大語(yǔ)言模型只是左上角的一小部分,而框內(nèi)的整體是一個(gè)智能體Agent,它會(huì)跟外界進(jìn)行實(shí)時(shí)的交互,除了對(duì)話以外,還要感知世界、了解世界、采取行動(dòng)干預(yù)世界。
將上述關(guān)系抽象出來(lái),就是右邊的流程圖:感知世界、做出判斷、做出選擇、進(jìn)行執(zhí)行,然后再重新感知,這就是智能體大概的概念。
那么大語(yǔ)言模型落到運(yùn)維領(lǐng)域,就需要運(yùn)維的大語(yǔ)言模型:
  • 具有語(yǔ)義記憶,也可以認(rèn)為是各種結(jié)構(gòu)化的知識(shí),包括基于知識(shí)圖譜的方式,或者拓?fù)鋽?shù)據(jù)庫(kù)的方式,來(lái)存儲(chǔ)語(yǔ)義知識(shí);
  • 具有情景性記憶,類(lèi)似于歷史數(shù)據(jù)中的歷史工單、告警、操作記錄等;
  • 同時(shí)需要支持各種決策,比如要做排查故障,類(lèi)似醫(yī)學(xué)一步一步排查,需要包含決策的機(jī)制;
  • 可以實(shí)現(xiàn)感知,比如一個(gè)人形機(jī)器人,要有視覺(jué)和聽(tīng)覺(jué),對(duì)于運(yùn)維來(lái)說(shuō),要針對(duì)不同模態(tài)的運(yùn)維數(shù)據(jù),有各種算法等等。
總結(jié)后會(huì)發(fā)現(xiàn),過(guò)去說(shuō)的智能運(yùn)維的小工具,在智能體的架構(gòu)里面,可能有些是 plug-in、有些是知識(shí)、有些是隨機(jī)文檔或情景性的數(shù)據(jù)、有些是邏輯等等,這些整體構(gòu)成大的智能體。

02

百模大戰(zhàn),各個(gè)底座大模型的性能評(píng)測(cè)
我們針對(duì)主流的大語(yǔ)言模型做了統(tǒng)一測(cè)評(píng),形成了一個(gè)榜單。將大模型在我們的GPU集群上進(jìn)行系統(tǒng)性的評(píng)測(cè),比如說(shuō) Zero-shot,3-shot,然后再加上思維鏈,和其他的機(jī)制。
圖片
上圖是評(píng)測(cè)的結(jié)果,在運(yùn)維領(lǐng)域聯(lián)合中興、華為、騰訊、聯(lián)想等十多家機(jī)構(gòu)出了一萬(wàn)道題,從結(jié)果來(lái)看基本分成三檔,GPT 4和GPT 3.5屬于第一梯隊(duì),中間部分屬于第二梯隊(duì),更早期的一些版本屬于第三梯隊(duì)。
運(yùn)維的細(xì)分領(lǐng)域中,會(huì)發(fā)現(xiàn)結(jié)果還是有參差不齊的地方。所以大家會(huì)存在一些困惑,大模型底座是怎么選?通識(shí)大模型聽(tīng)不懂運(yùn)維語(yǔ)言,那能聽(tīng)懂運(yùn)維語(yǔ)言的大語(yǔ)言模型是一個(gè)什么概念呢?
參照現(xiàn)在的大語(yǔ)言模型,在行業(yè)應(yīng)用中基本上分三層:第一層是大模型的底座,第二層是行業(yè)的大語(yǔ)言模型,第三層是私有部署的大語(yǔ)言模型,有些行業(yè)領(lǐng)域會(huì)認(rèn)為第三層是面向場(chǎng)景的,基本差異不大。
03
運(yùn)維領(lǐng)域大模型應(yīng)用的不足和挑戰(zhàn)
首先,大語(yǔ)言模型在運(yùn)維領(lǐng)域的普遍落地中,需要避免過(guò)于樂(lè)觀,因?yàn)樗€存在不少的技術(shù)挑戰(zhàn)。
1)運(yùn)維領(lǐng)域,對(duì)錯(cuò)誤容忍度低,需要盡量避免幻覺(jué)產(chǎn)生;
2)垂直領(lǐng)域內(nèi)判斷答案對(duì)錯(cuò)的標(biāo)注門(mén)檻比較高,想進(jìn)行微調(diào),得請(qǐng)專(zhuān)家來(lái)提供標(biāo)準(zhǔn)的問(wèn)答;
3)對(duì)于結(jié)果要求必須可解釋性強(qiáng),又要支持低開(kāi)銷(xiāo)的私有部署;
4)落地過(guò)程中運(yùn)維語(yǔ)料還有不足,特別是私有語(yǔ)料,質(zhì)量和數(shù)量都不足;
5)針對(duì)存量中大量的結(jié)構(gòu)化知識(shí)怎么融合,大語(yǔ)言模型無(wú)法直接處理結(jié)構(gòu)化的、多模態(tài)的、實(shí)時(shí)的數(shù)據(jù);
6)如何結(jié)合大量存量的運(yùn)維工具。
同時(shí),也要避免悲觀,前述所有的技術(shù)挑戰(zhàn)都有技術(shù)思路可以解決。
圖片
1)為了避免幻覺(jué)和做到可解釋性強(qiáng),可以通過(guò)檢索增強(qiáng),增大顯式知識(shí)占比,類(lèi)似知識(shí)圖譜的方式。具體操作可以有思維鏈、思維樹(shù)、思維圖、知識(shí)圖譜。同時(shí)為了增強(qiáng)可解釋性,要用“有據(jù)可依”的生成策略提供可解釋性;
2)嚴(yán)肅語(yǔ)料不足的問(wèn)題,可以通過(guò)由易到難課程學(xué)習(xí)的方式進(jìn)行訓(xùn)練;
3)私有部署開(kāi)銷(xiāo)低,以及私域數(shù)據(jù)的數(shù)量質(zhì)量不足,可以在剛才說(shuō)的模型分層中,在第三層盡量不做預(yù)訓(xùn)練,甚至微調(diào)都要謹(jǐn)慎,因?yàn)榭赡芨鞣矫尜Y源和數(shù)據(jù)都不夠,然后在公域數(shù)據(jù)做運(yùn)維的預(yù)訓(xùn)練,微調(diào)一部分的提示工程,把它做到盡量的好,再私有部署。檢索結(jié)合本地知識(shí)庫(kù),文檔提示可以作為便捷的知識(shí)工程手段,同時(shí)在實(shí)際進(jìn)行推理的時(shí)候也需要資源,通過(guò)降低模型的精度,從而降低私有部署的推理開(kāi)銷(xiāo);
4)在底座選型的時(shí)候,盡量與開(kāi)源大語(yǔ)言模型的底座解耦,將來(lái)萬(wàn)一要做底座替換的時(shí)候,只需要付出重新訓(xùn)練的成本,但是之前所有的探索可能都是能夠保留、積累、沉淀下來(lái)的;
5)對(duì)于結(jié)構(gòu)化、多模態(tài)、實(shí)時(shí)數(shù)據(jù)的處理,可以有專(zhuān)門(mén)的多模態(tài)基礎(chǔ)模型群、AIOps結(jié)構(gòu)化大模型;
6)關(guān)于結(jié)合自動(dòng)化運(yùn)維工具,可以利用智能體的方式,把已有的工具結(jié)合在一起;
這是大致的思路,在具體應(yīng)用的時(shí)候,其實(shí)不求全面開(kāi)花,而是小步快跑。
04
運(yùn)維大語(yǔ)言模型的應(yīng)用舉例
有了大語(yǔ)言模型,近中期應(yīng)用的定位,我認(rèn)為可能以助理、教練、顧問(wèn)、參謀這種方式,不做拍板、不做決策、不做處置,只提各種建議。中長(zhǎng)期的應(yīng)用,可能變成了內(nèi)部專(zhuān)家,可以做一些處置和決策拍板。
應(yīng)用1:數(shù)字化運(yùn)維助手

圖片

這個(gè)助手只是問(wèn)答,不直接對(duì)接數(shù)據(jù),甚至可以從某個(gè)工具里截屏發(fā)圖給他,但是不做直接的數(shù)據(jù)對(duì)接,只是對(duì)類(lèi)似排查故障的決策樹(shù),對(duì)這種結(jié)構(gòu)化的知識(shí)進(jìn)行檢索。
用戶可以問(wèn)運(yùn)維助手,故障可能的原因是什么,運(yùn)維助手對(duì)著決策樹(shù),一層一層的問(wèn)下去,一直到最后發(fā)現(xiàn)是某個(gè)問(wèn)題,就可以看直接怎么處置。
應(yīng)用2:私有文檔的問(wèn)答
圖片
大多數(shù)企業(yè)都有大量的運(yùn)維排障文檔、應(yīng)急手冊(cè)、產(chǎn)品手冊(cè)、API 文檔等等,但是其實(shí)使用的效果都不是很好。結(jié)合大語(yǔ)言模型,希望能夠把文檔統(tǒng)一通過(guò)大語(yǔ)言模型問(wèn)答的方式獲取。
這里不是單個(gè)文檔上傳后,可以進(jìn)行單個(gè)文檔的問(wèn)答,而是針對(duì)所有的問(wèn)題,把所有的文檔結(jié)合在一起,介于檢索增強(qiáng)的方式,同時(shí)生成策略要有據(jù)可依。
應(yīng)用3:腳本解讀
圖片
對(duì)存量的腳本進(jìn)行文字解讀,這個(gè)腳本可以是SQL、圖SQL、日志查詢語(yǔ)句、命令行的腳本、配置,可以用于培訓(xùn),新員工進(jìn)來(lái)之后,節(jié)省高級(jí)別的專(zhuān)家時(shí)間,提升效率。
應(yīng)用4:數(shù)據(jù)注釋
圖片
例如系統(tǒng)提示告警,產(chǎn)生了一段日志,里邊有各種字段,那對(duì)它進(jìn)行有效的解釋?zhuān)@里用自然語(yǔ)言的方式表達(dá)出來(lái),也是比較常見(jiàn)的一種應(yīng)用。
有很多工具,比如告警工具,國(guó)內(nèi)、國(guó)外都已經(jīng)在做這個(gè)工作了;在安全領(lǐng)域,有很多安全的設(shè)備,告警也都在這方面做了一些嘗試,我覺(jué)得這個(gè)是切實(shí)可行的。
應(yīng)用5:近中期與中長(zhǎng)期應(yīng)用
近中期的應(yīng)用,可以通過(guò)自然語(yǔ)言變成各種的查詢,可能是企業(yè)內(nèi)的API,也可能是公網(wǎng)的API,也可以是生成SQL,生成圖SQL 。這里相對(duì)前面的應(yīng)用來(lái)說(shuō)會(huì)稍微謹(jǐn)慎一點(diǎn),數(shù)據(jù)要標(biāo)準(zhǔn)化,工具接口要標(biāo)準(zhǔn)化。因?yàn)閺哪_本和配置進(jìn)行解釋?zhuān)钜稽c(diǎn)關(guān)系不大。但是反過(guò)來(lái),像 SQL 這類(lèi)參數(shù)差一點(diǎn),可能結(jié)果是不對(duì)的。
再往后的應(yīng)用,就可以結(jié)合前面說(shuō)的智能體了。
圖片
前面是為單個(gè)的工具進(jìn)行增強(qiáng),那如果有一個(gè)復(fù)雜的任務(wù),基于大語(yǔ)言模型,對(duì)實(shí)時(shí)的故障工單進(jìn)行自動(dòng)的生成。這里展示的是谷歌 SRE 那本書(shū)里面的內(nèi)容,比如現(xiàn)在出了一個(gè)故障,現(xiàn)在事故的實(shí)時(shí)故障文檔里面,自動(dòng)生成了一條記錄,過(guò)一會(huì)兒這個(gè)系統(tǒng)做了一些操作,它再自動(dòng)的生成一條,大致判斷是哪里出現(xiàn)了問(wèn)題,正在進(jìn)行什么排查,但是還沒(méi)有結(jié)論,一直繼續(xù),直到這個(gè)問(wèn)題被解決。
你可以想象這是一個(gè)非常復(fù)雜的任務(wù),它一定是智能體的感覺(jué),需要結(jié)合大量已經(jīng)拆解的工具、智能運(yùn)維的算法、結(jié)構(gòu)化的語(yǔ)義、知識(shí)圖譜,以及場(chǎng)景化的小算法,再進(jìn)行結(jié)合編排,然后推理、交互,有時(shí)甚至需要干預(yù)一下,然后看看結(jié)果怎么樣,再回來(lái)判斷。甚至有些檢查是觸發(fā)式的,要跟外界交互,最后輸結(jié)果。
AIOps小模型的工具,在大模型時(shí)代是一個(gè)共生、互相促進(jìn)、互相補(bǔ)充,最后構(gòu)成了大模型時(shí)代智能體的解決方案。
05
大模型在AIOps領(lǐng)域的應(yīng)用落地路徑總結(jié)
面對(duì)運(yùn)維大模型,仍然面臨不少挑戰(zhàn),需要避免過(guò)于樂(lè)觀,但同時(shí)這些挑戰(zhàn)也都有解決方式,也要避免過(guò)于悲觀。
圖片
應(yīng)用的定位建議先從助手開(kāi)始,可能是幫著做一些工作,然后是培訓(xùn)的教練、顧問(wèn)、參謀,最后是內(nèi)部專(zhuān)家。上面也舉了一些近期的例子,比如數(shù)字化的運(yùn)維助手、私有運(yùn)維文檔的問(wèn)答、腳本解讀注釋、運(yùn)維數(shù)據(jù)注釋等等。對(duì)于近中期,單個(gè)運(yùn)維工具可以進(jìn)行自然語(yǔ)言交互增強(qiáng)。對(duì)于中長(zhǎng)期,基于智能體編排多個(gè)工具,完成更復(fù)雜的運(yùn)維任務(wù)。
整體而言,我個(gè)人的觀點(diǎn)認(rèn)為大模型的時(shí)代已經(jīng)切切實(shí)實(shí)的到來(lái),我們需要持謹(jǐn)慎樂(lè)觀的態(tài)度,因?yàn)樗谴髣?shì)所趨,前景非??善冢瑱C(jī)遇挑戰(zhàn)并存,同時(shí)我們也需要協(xié)同創(chuàng)新,以用促建。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多