【原】?？低曈^瀾大模型白皮書

AIGC部落 2024-09-19 發(fā)布于廣東

展開全文

第一章人工智能時代到來

隨著歷史的推移，人類一直在努力地認(rèn)識、解讀并影響著周圍的世界。從最初用石頭和棍棒去捕食，到現(xiàn)在利用高級算法去解決復(fù)雜問題，我們始終在學(xué)習(xí)和進化。回首過去數(shù)千年的廣袤時光，我們可以清晰地感知到，科技一直是推動人類發(fā)展和社會進步的核心力量。

在石器時代，簡陋石制工具誕生，是人類第一次有意識地作用于自然界，通過改變與環(huán)境的交互方式實現(xiàn)了更好的生存，這是人類文明史上的一次重大突破，代表了人類智慧的覺醒，標(biāo)志著人與自然關(guān)系的初步轉(zhuǎn)變。

在農(nóng)業(yè)文明時代，我們不再單純地狩獵和采集，通過開墾土地、制造農(nóng)具以及灌溉等方式，初步開始了對大自然的控制，人類的智慧逐漸升華，對自然界有了更為深刻的認(rèn)識和掌握，人類生活方式和文明觀念發(fā)生質(zhì)變。

在工業(yè)革命時代，以蒸汽機的發(fā)明和電力的應(yīng)用為標(biāo)志，人類智慧的運用在更大范圍和更高層次上體現(xiàn)，實現(xiàn)了對自然力量的更好掌握，從自然中大規(guī)模地提取能量，驅(qū)動各種機械，人類社會獲得了前所未有的發(fā)展動能，生產(chǎn)要素發(fā)生了根本性重構(gòu)，生產(chǎn)力獲得大幅提升，時間和空間觀念被重新定義，人類全球化和快速進步的章開啟。

在信息革命時代，計算機和互聯(lián)網(wǎng)進一步改變了我們對世界的認(rèn)知方式，移動通信則重塑了人與人之間的連接，打破了地域和時間的界限，加速了全球經(jīng)濟的發(fā)展和信息的傳播，極大地提升了人類對于復(fù)雜問題的理解和解決能力，標(biāo)志著人類智慧在認(rèn)知層面的個巨大飛躍。

而現(xiàn)在，我們正處于另一個歷史性的轉(zhuǎn)折點，正在經(jīng)歷并見證一個新的時代。AlphaGo 成為了第一個擊敗人類圍棋世界冠軍的計算機程序，在此之前，人們普遍認(rèn)為圍棋的復(fù)雜度超出了機器的理解范圍，但是 AlphaGo成功打破這一觀念，證明了人工智能的強大潛力，不僅推進了圍棋研究，更為人們理解復(fù)雜系統(tǒng)提供了全新途徑。GraphCast作為一種先進的天氣預(yù)測系統(tǒng)，利用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，更加精確地預(yù)測了全球天氣系統(tǒng)的復(fù)雜變化，對于農(nóng)業(yè)、交通、災(zāi)害管理等領(lǐng)域具有重要的意義，能夠幫助人類更好地應(yīng)對極端氣候變化帶來的挑戰(zhàn)。Neuralink通過其開創(chuàng)性的腦機接口技術(shù)，在人腦與計算機系統(tǒng)之間建立連接，為人類提供了一個全新的認(rèn)知和溝通方式，不僅有望為醫(yī)療和通信領(lǐng)域帶來革命性變革，還預(yù)示著人類智慧與機器智能融合的未來，將全面擴展人類的智能。以O(shè)penAI的 GPT系列模型為代表的大模型技術(shù)，因其出色的數(shù)據(jù)分析、自然語言處理和預(yù)測能力，能大幅提升各行各業(yè)的效率和創(chuàng)新性，從醫(yī)療診斷、營銷管理、客戶服務(wù)到內(nèi)容創(chuàng)作，原有的工作流程和業(yè)務(wù)模式都因此而改變，更重要的是，大模型技術(shù)能有效地整合和分析大量復(fù)雜數(shù)據(jù)，提供深刻的洞見，已經(jīng)滲透到各行各業(yè)，成為高效生產(chǎn)力的助推器和產(chǎn)業(yè)變革的新引擎。從復(fù)雜系統(tǒng)的模擬，到跨學(xué)科技術(shù)的深度融合，再到知識邊界的擴展，這一切都昭示著，人工智能正在引領(lǐng)我們進入一個全新的革命時代。人工智能時代不僅繼承了信息革命的遺產(chǎn)，是所有先前技術(shù)革命的綜合和提升，還將人類智慧與計算能力結(jié)合得更為緊密，重新定義了“智慧”的含義。不再僅僅是人的智慧，機器的智慧也成為了推動社會發(fā)展的關(guān)鍵因素。

從石器時代到現(xiàn)在，每一次技術(shù)革命都改變了人們與世界的交互方式。在石器時代，作為人類文明的起點，人類第一次使用工具主動作用于自然界，讓我們看到，即使是最簡單的工具，也有可能引發(fā)重大的社會和文化變革。進入人工智能革命時代，我們同樣面臨-個交互方式的重大改變。人工智能大模型不只是技術(shù)的進步，不僅僅是生產(chǎn)力的新引擎，它還囊括了互聯(lián)網(wǎng)世界的海量知識，是人類智慧的一個集大成者，反映了我們對于模仿、擴展甚至超越人類認(rèn)知和決策能力的無限追求。正如石器時代的工具改變了人類與自然界的關(guān)系，大模型則有可能成為改變?nèi)伺c信息、人與機器、人與社會關(guān)系的新引擎，將可能重新塑造我們對世界的認(rèn)識和與之互動的方式，也為人類打開了一扇通往未知世界的大門，提供了一個全新的方式來認(rèn)識和改造世界。

1.1人工智能的發(fā)展歷程

人工智能(Artificial Intelligence)的發(fā)展歷程可以追溯到上世紀(jì) 40-50年代。在 AI-詞尚未出現(xiàn)前，物理學(xué)家和數(shù)學(xué)家們就在嘗試如何利用邏輯推理來模擬人類智能和利用控制理論來對物理實體進行操縱，這兩條路線誕生了人工智能最初兩大方向:符號主義(Symbolicism)和行為主義(Actionism)。1950年，英國數(shù)學(xué)家艾倫·圖靈(AlanTuring)提出著名的圖靈測試，旨在評估機器是否能夠表現(xiàn)出與人類相似的智能。圖靈測試成為衡量人工智能進展的重要標(biāo)準(zhǔn)之一。1956年達特茅斯會議召開，大會正式提出了工智能”一詞，討論了如何使用計算機模擬人類智能的問題，標(biāo)志著AI學(xué)科的正式誕生。1957年弗蘭克·羅森布拉特(FrankRosenblat)于提出了感知機，這是一種早期的人工神經(jīng)網(wǎng)絡(luò)模型，模擬了人腦神經(jīng)元的工作原理，使得機器能夠從數(shù)據(jù)中學(xué)習(xí)，并具備非常有限的判別能力。感知機是人工智能第三大方向連接主義(Connectionism)的最初形態(tài)，至此人工智能領(lǐng)域的三大流派均以各自的理念開始展開一場跨越大半個世紀(jì)的宏大征途。

第一次浪潮:在人工智能的早期發(fā)展中，符號主義中邏輯推理和專家系統(tǒng)等技術(shù)在啟發(fā)式推理等任務(wù)上取得了一定的成功。符號主義的研究工作在20世紀(jì)80年代初達到高潮，誕生了專家系統(tǒng)理論。但是符號主義路線也面臨著知識表示和推理能力不足的挑戰(zhàn)。隨著時間的推移，連接主義和行為主義的發(fā)展掀起了統(tǒng)計機器學(xué)習(xí)、機器人控制等新的技術(shù)浪潮，人工智能的研究進入了新的階段。

第二次浪潮:從20世紀(jì)80年代開始，人工智能的研究者們開始強調(diào)用統(tǒng)計機器學(xué)習(xí)(連接主義路線)來實現(xiàn)智能。基于1957年就開始的對感知機的探索經(jīng)驗之上，1986年杰佛里·辛頓(Geofrey Hinton)提出了反向傳播算法，這是這一時期的重要理論突破之該算法使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成為可能。同時，支持向量機(SVM)也在這個時期開始-。得到廣泛應(yīng)用，標(biāo)志著統(tǒng)計機器學(xué)習(xí)成為人工智能研究的主流。支持向量機在處理復(fù)雜的非線性問題時表現(xiàn)相對出色，在圖像識別、文本分類和生物信息學(xué)等領(lǐng)域取得了重要的成果，甚至具備了一定的實用價值。人工智能中連接主義路線真正開始從理論走向?qū)嵺`。然而，統(tǒng)計機器學(xué)習(xí)的發(fā)展也面臨一些挑戰(zhàn)，如維數(shù)災(zāi)難和過擬合等，其泛化能力不足，不能適應(yīng)互聯(lián)網(wǎng)大數(shù)據(jù)時代。

第三次浪潮:隨著對神經(jīng)網(wǎng)絡(luò)/感知機研究的深入及硬件技術(shù)等的持續(xù)提升，2006年深度學(xué)習(xí)的出現(xiàn)在人工智能領(lǐng)域掀起了一場新的革命。深度學(xué)習(xí)的核心思想是模仿人類大腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過多層神經(jīng)元之間的連接和學(xué)習(xí)來實現(xiàn)智能化任務(wù)。通過大量的數(shù)據(jù)和逐層的特征提取，深度學(xué)習(xí)模型可以自動地學(xué)習(xí)和發(fā)現(xiàn)復(fù)雜模式和規(guī)律。2012年，辛頓等人結(jié)合 GPU硬件的能力設(shè)計出著名的 AlexNet神經(jīng)網(wǎng)絡(luò)架構(gòu)，經(jīng)過在當(dāng)時剛發(fā)布不久的lmageNet大規(guī)模數(shù)據(jù)集上訓(xùn)練，應(yīng)用于計算機視覺任務(wù)上，取得了令人驚嘆的性能優(yōu)勢，展現(xiàn)了深度學(xué)習(xí)的強大。人工智能有了“數(shù)據(jù)、算法、算力”三駕馬車的拉動，開始加速前行。2016年 AlphaGo橫空出世，其融合了連接主義和行為主義算法的思想，利用深度強化學(xué)習(xí)成功優(yōu)化了圍棋策略，戰(zhàn)勝圍棋世界冠軍李世石，展示了人工智能在復(fù)雜領(lǐng)域中的超越人類的能力。

新一代技術(shù):2017年，Google提出基于注意力機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Transformer，能夠高效學(xué)習(xí)和處理序列數(shù)據(jù)，在自然語言處理領(lǐng)域引起了巨大的影響。2020年，OpenAI基于 Transformer 訓(xùn)練了 1750億參數(shù)的 GPT-3 大語言模型，在文本生成和語言理解方面展現(xiàn)了極強的表達能力和泛化能力。接著，2022年底，OpenAI基于GPT-3.5大模型推出ChatGPT聊天服務(wù)，上線2個月，月活過1億。2023年，2023年，OpenAI相繼推出GPT4 語言大模型和 GPT-4V/t 多模態(tài)大模型，標(biāo)志著人類科技邁向通用人工智能成為可能。我國在人工智能領(lǐng)域，人才技術(shù)、算力數(shù)據(jù)、產(chǎn)業(yè)配套等方面都正在如火如茶地發(fā)展。大模型領(lǐng)域，近兩年已有推出超過百余個大模型，華為、百度、科大訊飛等分別推出了盤古、文心、星火等大模型，整體生態(tài)呈現(xiàn)百花齊放之勢。

1.2 ?？低暤娜斯ぶ悄苤?/p>

海康威視成立于 2001年，從研發(fā)視頻壓縮板卡起步，歷經(jīng)二十余年的發(fā)展，一步步突破“視頻監(jiān)控”、“綜合安防”的業(yè)務(wù)邊界，現(xiàn)在將業(yè)務(wù)領(lǐng)域定位為“智能物聯(lián)AIoT”在這個過程中，人工智能技術(shù)一直是?？低暤暮诵募夹g(shù)之一。早在 2006年，面對行業(yè)日益增長的視頻分析智能化需求，?？低暰徒M建了算法團隊，開始了人工智能算法的研究，并發(fā)布了一系列行業(yè)智能產(chǎn)品，包括商業(yè)的客流統(tǒng)計、交通的車牌識別、金融的 ATM 防護等產(chǎn)品。從這年開始，海康威視在人工智能領(lǐng)域不斷加大投入，持續(xù)跟蹤和實踐學(xué)界業(yè)界的人工智能技術(shù)研究。

2012年，隨著深度學(xué)習(xí)技術(shù)的進一步突破，?？低曌プC會，快速布局，研發(fā)了基于深度學(xué)習(xí)的人臉識別、車牌識別、視頻結(jié)構(gòu)化、行為分析等技術(shù)，率先將深度學(xué)習(xí)技術(shù)落地于行業(yè)應(yīng)用中。到2015年，海康威視在同行業(yè)率先推出了基于GPU 和深度學(xué)習(xí)技術(shù)的視頻結(jié)構(gòu)化服務(wù)器和車輛圖片結(jié)構(gòu)化服務(wù)器，憑借對AI在視頻領(lǐng)域的應(yīng)用經(jīng)驗及產(chǎn)品集成能力，將搭載人工智能技術(shù)的智能化產(chǎn)品快速落地應(yīng)用，引領(lǐng)了智能安防乃至智能物聯(lián)產(chǎn)業(yè)的發(fā)展。

2016年，?？低曆芯吭簣F隊在ImageNet大規(guī)模圖像識別競賽中奪得場景分類第名，并在此后多次奪得 PASCALVOC、KITTI、Momentsin Time 等三十余項國際學(xué)術(shù)競賽的冠軍。與此同時，在產(chǎn)品端，越來越多基于人工智能技術(shù)的產(chǎn)品被不斷推出，如?？党X系列 NVR、海康神捕智能交通系列產(chǎn)品、人臉分析服務(wù)器系列產(chǎn)品等。2015、2016約兩年時間，海康威視形成了全系列的智能產(chǎn)品家族并持續(xù)不斷擴展智能產(chǎn)品體系

隨著人工智能技術(shù)不斷進步，市場參與者廣泛涌入，AI產(chǎn)業(yè)落地成為焦點。海康威視除了在技術(shù)、產(chǎn)品端持續(xù)發(fā)力，也搭建了人工智能產(chǎn)業(yè)落地體系。2017年，?？低暟l(fā)布AICloud 架構(gòu)，融入了“云邊融合”的理念，由“邊緣節(jié)點、邊緣域、云中心”三層架構(gòu)組成，拓展出將傳統(tǒng)信息化、設(shè)備設(shè)施物聯(lián)、場景智能物聯(lián)融于一體的數(shù)字化解決方案，為 AI落地應(yīng)用提供了有益的行業(yè)實踐。

海康威視面對的行業(yè)需求一直都呈現(xiàn)碎片化、場景化、個性化的特征。為了更好滿足各行各業(yè)用戶多種多樣的 AI應(yīng)用需求，2018年開始，海康威視推出了 AI開放平臺，致力于幫助零算法基礎(chǔ)的客戶開發(fā)自己行業(yè)的智能算法,讓各行業(yè)從業(yè)者擁有專屬智能硬件產(chǎn)品和解決方案。2019年8月，科技部授予?？低旳I開放平臺“視頻感知”國家新一代人工智能開放創(chuàng)新平臺的稱號，發(fā)揮?？低曉诟兄悄芎虯I應(yīng)用方面的優(yōu)勢，促進視頻感知技術(shù)與產(chǎn)業(yè)應(yīng)用深度融合。隨著人工智能與產(chǎn)業(yè)融合加深，AI開放平臺已經(jīng)成為了新型基礎(chǔ)設(shè)施的重要組成部分。在海康威視所在的智能物聯(lián)領(lǐng)域，碎片化 AI需求日益增長的同時，?？低曇苍诓粩嗌堿I開放平臺，在全面感知、認(rèn)知計算、大模型基座等領(lǐng)域拓展 AI開放平臺的能力，并向外界開放賦能。

不只發(fā)力 AI技術(shù)、產(chǎn)品，海康威視還在同步強化工程化能力。自 2019年開始，?？低暢掷m(xù)完善AI工程化服務(wù)體系，組建專業(yè)團隊，為用戶提供一系列智能方案的落地保障，并通過培訓(xùn)合作伙伴等方式，共同開拓AI在各領(lǐng)域場景的應(yīng)用。2022年，?？低旳I工程化服務(wù)助力打造了一系列智能模型，覆蓋作業(yè)合規(guī)、輔助自動化、倉儲管理、物料盤點、門店零售等通用性業(yè)務(wù)場景，幫助用戶有效實現(xiàn)隱患排查、效率提升等業(yè)務(wù)管理目標(biāo)。隨著AI應(yīng)用場景不斷涌現(xiàn)，截至2023年6月，AI開放平臺的企業(yè)用戶數(shù)從8.000余家快速增加到 20.000 余家。

2021年新年伊始，海康威視正式啟動了大規(guī)模預(yù)訓(xùn)練模型相關(guān)的研發(fā)工作。隨著海康威視大模型相關(guān)技術(shù)的產(chǎn)業(yè)應(yīng)用鋪開，千行百業(yè)將享受到大模型帶來的技術(shù)紅利。

這篇技術(shù)白皮書立足?？低晫τ谌斯ぶ悄芎痛竽Ｐ桶l(fā)展的認(rèn)知和實踐，探討如何在物聯(lián)網(wǎng)世界中更好應(yīng)用大模型技術(shù)，期望依托人工智能和大模型技術(shù)，以創(chuàng)新的智能物聯(lián)應(yīng)用建設(shè)便捷、高效、安心的智能世界，助力人人享有美好未來.

第二章觀瀾大模型體系

?？低曈^瀾大模型的名字源自《孟子·盡心上》，所謂“觀水有術(shù)，必觀其瀾”“觀瀾”寓意盡心知命，追本溯源，了解事物的根本。觀瀾大模型源于產(chǎn)業(yè)，用于產(chǎn)業(yè)，期望通過強大的智能基礎(chǔ)能力，洞察萬物的狀態(tài)和規(guī)律，幫助物理世界和數(shù)字世界實現(xiàn)更好地鏈接，推動社會、產(chǎn)業(yè)和生活的智能化發(fā)展。

2.1人工智能落地應(yīng)用面臨的挑戰(zhàn)

在正式介紹觀瀾大模型架構(gòu)之前，不妨讓我們先回到技術(shù)大時代與產(chǎn)業(yè)大轉(zhuǎn)型交匯的十字路口，向內(nèi)審視一下人工智能在行業(yè)應(yīng)用中的問題。

智能產(chǎn)業(yè)發(fā)展至今，業(yè)界普遍認(rèn)為“數(shù)據(jù)、算法、算力”構(gòu)成了人工智能的三大要素。這三大要素共同推動了人工智能第三次浪潮的蓬勃發(fā)展，根據(jù)IDC統(tǒng)計數(shù)據(jù)顯示，預(yù)計2026年，中國人工智能軟件及應(yīng)用市場規(guī)模將會達到211億美元，各行業(yè)的需求正大力推進 AI的發(fā)展，將推動市場的持續(xù)增長。

然而，在人工智能賦能各行各業(yè)的過程中，這三大要素均遭遇了一系列的挑戰(zhàn):數(shù)據(jù)的依賴性:深度學(xué)習(xí)以大數(shù)據(jù)為驅(qū)動是當(dāng)前人工智能行業(yè)的共識。在行業(yè)應(yīng)用中，下游業(yè)務(wù)啟動前的數(shù)據(jù)采集往往是比較困難的，同時傳統(tǒng)監(jiān)督式深度學(xué)習(xí)還需要預(yù)先對數(shù)據(jù)進行精細標(biāo)定，以上兩項會帶來高昂的數(shù)據(jù)成本。

傳統(tǒng)深度學(xué)習(xí)的局限性:深度學(xué)習(xí)算法優(yōu)秀的性能已被市場所接受，但隨著行業(yè)應(yīng)用的深入，場景變得多元化、復(fù)雜化，算法領(lǐng)域面臨以下幾個問題:

泛化能力不足。例如，一個僅使用白天采集的車輛數(shù)據(jù)訓(xùn)練出來的檢測模型，在夜晚使用時性能就會大打折扣。傳統(tǒng)的深度學(xué)習(xí)往往難以兼顧這些場景差異性，導(dǎo)致不得不為每一個場景量身定制模型。

傳統(tǒng)結(jié)構(gòu)出現(xiàn)性能天花板。傳統(tǒng)深度學(xué)習(xí)結(jié)構(gòu)，如CNN、RNN、LSTM等，關(guān)注于感知輸入信號的局部信息，對知識的容量有限，數(shù)據(jù)規(guī)模和模態(tài)種類持續(xù)增加帶來的邊際效益下降。

缺乏推理與認(rèn)知能力。傳統(tǒng)深度學(xué)習(xí)以監(jiān)督學(xué)習(xí)方法為主，其基本原理是訓(xùn)練神經(jīng)網(wǎng)絡(luò)來擬合監(jiān)督標(biāo)簽，無法形成邏輯認(rèn)知。對于沒有見過的新任務(wù)或復(fù)雜的業(yè)務(wù)邏輯均需要重標(biāo)重訓(xùn)或手工排程。

算力的成本問題:模型的訓(xùn)練和部署往往需要大量的存儲和計算資源，這也帶來了巨大的成本壓力。對于許多希望利用 AI技術(shù)的企業(yè)來說，這樣的成本仍是一大制約。

面對以上各種挑戰(zhàn)和不足，?？低暣竽Ｐ图夹g(shù)能夠有效突破人工智能產(chǎn)業(yè)落地過程中面對的瓶頸。?？低曍S富的的多維感知能力能夠幫助行業(yè)客戶獲取更全面、更精細的業(yè)務(wù)數(shù)據(jù)，同時大模型通過自監(jiān)督學(xué)習(xí)可在無標(biāo)注數(shù)據(jù)中學(xué)習(xí)獲取大量“知識”，可有效緩解數(shù)據(jù)依賴問題;預(yù)訓(xùn)練過程本身能夠大幅增加人工智能的小樣本學(xué)習(xí)能力和泛化能力;通過感知能力與語言能力的融合，使得大模型具備了強大的理解能力和認(rèn)知推理能力。我們認(rèn)為，大模型的這些優(yōu)點，將進一步推動人工智能技術(shù)在產(chǎn)業(yè)數(shù)字化進程中深入落地應(yīng)用。

目前，?？低暯?jīng)過近三年的努力，已經(jīng)構(gòu)建了一套完整的觀瀾大模型技術(shù)體系，同時在多維感知、模型精簡、大規(guī)模平臺軟件等領(lǐng)域也積累了充分的技術(shù)能力，由此構(gòu)建的產(chǎn)品及解決方案，將能夠幫助各行各業(yè)的用戶快速落地智能應(yīng)用，提升自身競爭力。

2.2 觀瀾大模型架構(gòu)

觀瀾大模型整體分為三級架構(gòu)，分別為基礎(chǔ)大模型、行業(yè)大模型和任務(wù)模型基礎(chǔ)大模型:基礎(chǔ)大模型吸收了海量數(shù)據(jù)的知識，具有參數(shù)量大、高可泛化、性能優(yōu)異等特點。根據(jù)輸入模態(tài)的不同，基礎(chǔ)大模型可分為視覺大模型、音頻大模型、語言大模型、多模態(tài)大模型等。基于?？低曉谥悄芪锫?lián)領(lǐng)域的積累和優(yōu)勢，我們還開發(fā)了光纖大模型、X光大模型等物聯(lián)感知領(lǐng)域的基礎(chǔ)大模型，提升物聯(lián)空間的智能感知能力。

行業(yè)大模型:行業(yè)大模型是在基礎(chǔ)大模型的基礎(chǔ)上，利用行業(yè)數(shù)據(jù)進一步預(yù)訓(xùn)練和微調(diào)而成，在針對性行業(yè)領(lǐng)域內(nèi)具有專家級別的能力，進行適當(dāng)?shù)膲嚎s加速后可在云中心和邊緣側(cè)進行推理應(yīng)用。海康威視現(xiàn)有行業(yè)大模型包括電力大模型、公路大模型、煤礦大模型、水利大模型、零售大模型、軌道大模型、工業(yè)制造大模型、城管大模型等。

任務(wù)模型:任務(wù)模型專注于某個具體的場景或業(yè)務(wù)，是大模型能力落地的重要方式。任務(wù)模型的形態(tài)多種多樣，根據(jù)用戶不同的需求，基于行業(yè)大模型進行針對性的優(yōu)化工作，使得模型可以在云上部署(較大的任務(wù)模型)或邊端部署(較小的任務(wù)模型)，實現(xiàn)云邊端一體方案，在各級平臺上為客戶提供高性價比模型方案。?？低暤奶厣蝿?wù)模型包括表計巡檢、皮帶巡檢、商品陳列檢測、門店巡檢、生產(chǎn)運行異常檢測、交通事件檢測、收費車型識別、路面病害識別、水面漂浮物識別、施工機械識別、市容秩序巡查、垃圾分類檢測等。

2.3 觀瀾基礎(chǔ)大模型家族

2.3.1視覺大模型

計算機視覺是深度學(xué)習(xí)技術(shù)發(fā)展的核心領(lǐng)域之一，視覺數(shù)據(jù)在物聯(lián)網(wǎng)空間中占到大約80%的數(shù)據(jù)量。在實際應(yīng)用場景中，傳統(tǒng)深度學(xué)習(xí)模型往往存在數(shù)據(jù)依賴和場景泛化等難題，需要多次采集現(xiàn)場數(shù)據(jù)進行迭代優(yōu)化，實施成本高且周期長，泛化能力依然局限于數(shù)據(jù)覆蓋的場景。

預(yù)訓(xùn)練技術(shù)是提升模型場景泛化能力，降低下游任務(wù)數(shù)據(jù)依賴的核心手段。深度學(xué)習(xí)技術(shù)誕生以來，ImageNetCOC0 數(shù)據(jù)集預(yù)訓(xùn)練+下游任務(wù)微調(diào)一直是深度學(xué)習(xí)技術(shù)應(yīng)用的主流范式。這是由于預(yù)訓(xùn)練時學(xué)到了豐富的可遷移特征，能夠被不同類型的下游任務(wù)廣泛復(fù)用。

隨著任務(wù)越來越復(fù)雜，場景越來越豐富，百萬級規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集的模型性能已經(jīng)難以滿足用戶需求。同時，受自然語言處理領(lǐng)域大語言模型進展的啟發(fā)，探索合適的視覺大模型預(yù)訓(xùn)練算法，通過進一步放大視覺模型容量、訓(xùn)練數(shù)據(jù)規(guī)模來獲得更強的視覺能力成為計算機視覺領(lǐng)域的研究熱點。

自2021年以來，工業(yè)界、學(xué)術(shù)界在視覺大模型領(lǐng)域取得了顯著的進展，預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模達到百億、模型訓(xùn)練參數(shù)達到百億。目前已經(jīng)驗證成功的視覺模型預(yù)訓(xùn)練方式有三種:有監(jiān)督預(yù)訓(xùn)練、多模態(tài)預(yù)訓(xùn)練和自監(jiān)督預(yù)訓(xùn)練。有監(jiān)督預(yù)訓(xùn)練的代表性工作是ViT-22B，其使用Google內(nèi)部構(gòu)建的多標(biāo)簽圖像分類數(shù)據(jù)集JFT-4B進行有監(jiān)督預(yù)訓(xùn)練，其優(yōu)勢在于學(xué)習(xí)效率高，是傳統(tǒng)預(yù)訓(xùn)練方式的直接擴展，缺點在于對標(biāo)簽強依賴，而有標(biāo)簽數(shù)據(jù)集的構(gòu)建成本非常高。多模態(tài)預(yù)訓(xùn)練的代表性工作是CLIP，其使用互聯(lián)網(wǎng)上爬取的4億圖文數(shù)據(jù)對，利用圖文對比學(xué)習(xí)的方式進行預(yù)訓(xùn)練，其優(yōu)勢在于利用與圖像匹配的文本作為監(jiān)督信號進行學(xué)習(xí)，降低了對標(biāo)簽的依賴，同時極大豐富了用于預(yù)訓(xùn)練的視覺概念數(shù)量。自監(jiān)督預(yù)訓(xùn)練的代表性工作是MAE，其使用無標(biāo)簽圖像數(shù)據(jù)進行預(yù)訓(xùn)練，不需要任何人工標(biāo)定的監(jiān)督信息，最大程度上降低了對標(biāo)簽的依賴。依靠超大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺大模型，編碼海量的視覺知識，能夠非常好地解決場景泛化問題，為通用視覺模型鋪平了道路。

海康威視自 2021年初開始投入視覺大模型的研發(fā)，視覺大模型方案吸收了自監(jiān)督預(yù)訓(xùn)練和多模態(tài)預(yù)訓(xùn)練兩種方式的優(yōu)點，從數(shù)據(jù)治理、模型結(jié)構(gòu)、預(yù)訓(xùn)練算法、分布式訓(xùn)練算法等維度進行創(chuàng)新，能夠以更小的算力成本、更高的樣本效率獲得業(yè)內(nèi)領(lǐng)先的預(yù)訓(xùn)練性能

數(shù)據(jù)治理:互聯(lián)網(wǎng)的公開數(shù)據(jù)存在數(shù)據(jù)噪聲、數(shù)據(jù)重復(fù)、長尾分布、語義截斷等一系列降質(zhì)問題，會嚴(yán)重影響最終模型的性能，并帶來算力的極大浪費。?？低曉谝曈X大模型探索過程中，通過去重去噪、概念均衡、語義擴充等方式，形成了一套完善的自動化數(shù)據(jù)治理流程，顯著提升了數(shù)據(jù)質(zhì)量，最終保留了數(shù)十億高質(zhì)量樣本數(shù)據(jù)。實驗表明，僅使用原始數(shù)據(jù)規(guī)模 20%的高質(zhì)量數(shù)據(jù)，相比全量數(shù)據(jù)獲得了超過8%的性能提升。模型結(jié)構(gòu):大模型的訓(xùn)練穩(wěn)定性問題是超大規(guī)模預(yù)訓(xùn)練的核心難點。?？低晫LP領(lǐng)域的模型結(jié)構(gòu)和訓(xùn)練技術(shù)引入到視覺模型中，能夠顯著改善模型的激活流和梯度流穩(wěn)定性，并獲得更高的泛化性能，從模型結(jié)構(gòu)設(shè)計的角度提升了大模型的訓(xùn)練穩(wěn)定性。

預(yù)訓(xùn)練算法:在預(yù)訓(xùn)練算法方面，海康威視自研了統(tǒng)一模態(tài)學(xué)習(xí)方案，通過自監(jiān)督預(yù)訓(xùn)練挖掘視覺信號的結(jié)構(gòu)信息，通過多模態(tài)預(yù)訓(xùn)練挖掘視覺信號的語義信息，同時基于統(tǒng)一解碼器引入細粒度監(jiān)督信息，形成圖像級、區(qū)域級和像素級的高質(zhì)量視覺表征，同時包含細粒度識別、精細定位、OCR 等豐富的能力。

目前觀瀾視覺大模型已經(jīng)在開放平臺、云眸、視頻結(jié)構(gòu)化、周界等各類平臺和產(chǎn)品中得到廣泛應(yīng)用，并產(chǎn)生了顯著的收益。

在內(nèi)部構(gòu)造的多行業(yè)最多 200張訓(xùn)練樣本的泛化任務(wù)上，觀瀾視覺大模型在同場景上的性能上限和跨場景上的泛化性能都有明顯提升:其中同場景測試集性能相對提升達18.9%，跨場景測試集性能相對提升達63.8%，體現(xiàn)了大模型的跨場景泛化通用性，業(yè)務(wù)的逐場景定制需求大幅減少。

再例如對于跨場景泛化性仍然不滿足工業(yè)應(yīng)用紅線的業(yè)務(wù)，可以通過提供少量該場景下的標(biāo)定樣本進行微調(diào)的方式，快速提升大模型在該場景的性能。下圖展示了10個任務(wù)上小模型全量樣本(4萬張以上數(shù)據(jù)量)訓(xùn)練和大模型小樣本訓(xùn)練的平均性能對比。受益于超大規(guī)模預(yù)訓(xùn)練過程中學(xué)習(xí)的豐富的可遷移知識，視覺大模型相比業(yè)務(wù)小模型，僅需要原來 10%以內(nèi)的數(shù)據(jù)，就可以在跨場景情況下超過小模型使用全量數(shù)據(jù)的性能，從而顯著降低了模型定制的成本。2.3.2音頻大模型

音頻是深度學(xué)習(xí)技術(shù)發(fā)展的核心領(lǐng)域之一，在實際應(yīng)用場景中，基于深度學(xué)習(xí)的算法訓(xùn)練對業(yè)務(wù)場景數(shù)據(jù)依賴性高，帶來訓(xùn)練周期長，標(biāo)定成本高，模型泛化性不足的問題。2019年以來，預(yù)訓(xùn)練技術(shù)在音頻智能領(lǐng)域蓬勃發(fā)展，其中自監(jiān)督預(yù)訓(xùn)練技術(shù)不依賴海量音頻標(biāo)注數(shù)據(jù)，極大降低了訓(xùn)練門檻。預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)技術(shù)，在語音識別、音頻分類等技術(shù)領(lǐng)域廣泛應(yīng)用，并取得超過傳統(tǒng)深度學(xué)習(xí)模型性能。2021年微軟發(fā)布的語音預(yù)訓(xùn)練模型 WavLM 在 SUPERB 所有 13 項語音任務(wù)測評中超過先前所有模型，在多個語音任務(wù)中取得最佳性能。2022年后，工業(yè)界、學(xué)術(shù)界在音頻大模型領(lǐng)域取得了顯著進展音頻大模型訓(xùn)練數(shù)據(jù)規(guī)模達千萬小時，模型參數(shù)達十億級，典型模型如 OpenAI發(fā)布的Whisper，Google 發(fā)布的 USM 等。

音頻大模型的優(yōu)勢是，可以支持不同類型語言、不同類型任務(wù)，并具備較好泛化能力。隨著音頻大模型的發(fā)展，單一模型多語言識別能力提升明顯，比如Whisper 支持近百種語言識別;音頻大模型往往支持多個語音任務(wù)，包含語音識別、語音翻譯、情感識別、語音合成、音頻分類等，典型模型如 AudioPaLM、LAURAGPT等，能很好地解決因任務(wù)特性不同導(dǎo)致模型結(jié)構(gòu)不統(tǒng)一的問題;音頻大模型提供強大的音頻信息抽取能力，依托大語言模型強大的推理能力，能更好解決復(fù)雜場景開放式音頻理解問題，成為當(dāng)前重要的發(fā)展方向。

海康威視自 2022年初開始投入音頻大模型的研發(fā)，觀瀾音頻大模型設(shè)計參數(shù)十億級，訓(xùn)練數(shù)據(jù)達百萬小時，構(gòu)建了一套完整的數(shù)據(jù)清洗、治理和標(biāo)定流程，采用自監(jiān)督預(yù)訓(xùn)練方式和基于 Transformer 的 Encoder-Decoder 網(wǎng)絡(luò)架構(gòu)，通過分布式方式優(yōu)化訓(xùn)練速度，模型訓(xùn)練成本節(jié)約 30%。自主訓(xùn)練的音頻大模型，在英文識別、中英文自由說識別場景取得顯著的性能提升。此外，?？低暬谝纛l大模型和高質(zhì)量工業(yè)場景數(shù)據(jù)做SFT訓(xùn)練，發(fā)布了工業(yè)場景行業(yè)大模型，專注音頻檢測分類領(lǐng)域，目前在電力、能源等設(shè)備異常檢測場景落地應(yīng)用。2.3.3語言大模型

人類語言(又稱自然語言)具有歧義性、抽象性、語義組合性和進化性等特點，自然語言理解被譽為“人工智能皇冠上的明珠”，理解語言能夠幫助機器掌握知識和推理等認(rèn)知能力。

自 2018年開始，為解決深度學(xué)習(xí)型需要大量標(biāo)注數(shù)據(jù)的問題，自然語言理解全面轉(zhuǎn)向基于預(yù)訓(xùn)練模型的方法，其突出特點是充分利用大模型、大數(shù)據(jù)和大計算以求更好效果。但當(dāng)時的預(yù)訓(xùn)練模型并不能真正克服深度學(xué)習(xí)模型魯棒性差、推理能力缺失的問題，在深層次語義理解和生成上與人類認(rèn)知水平還相去甚遠，直到 ChatGPT 出現(xiàn)，使人們看到了解決自然語言處理這一認(rèn)知智能核心問題的一條可能的路徑。

GPT 系列模型區(qū)別于以往的預(yù)訓(xùn)練模型，其特性主要體現(xiàn)四個方面:知識壓縮、涌現(xiàn)、推理能力以及對齊。其中壓縮能力體現(xiàn)在語言大模型通過對海量文本的學(xué)習(xí)，實現(xiàn)對知識的壓縮和整合:涌現(xiàn)則是模型達到一定規(guī)模后，涌現(xiàn)出預(yù)料之外的能力，模型泛化性大幅增強，數(shù)據(jù)的邊際效應(yīng)擴大。GPT系列模型實現(xiàn)與人類意圖與價值觀的對齊，并通過思維鏈可以釋放復(fù)雜推理能力，實現(xiàn)智能能力的階躍。

觀瀾語言大模型的訓(xùn)練主要分為三個步驟:預(yù)訓(xùn)練、有監(jiān)督微調(diào)、基于人類反饋的強化學(xué)習(xí)。
預(yù)訓(xùn)練，教給模型知識。從海量優(yōu)質(zhì)數(shù)據(jù)中抽取出短語(詞組或一句話)，要求語言模型學(xué)會預(yù)測接下來的一個詞。這種訓(xùn)練模式結(jié)合參數(shù)規(guī)模巨大的 Transfommer 模型，幫助模型積累廣泛的知識。?？低晿?gòu)建以數(shù)據(jù)質(zhì)量為核心的數(shù)據(jù)治理系統(tǒng)，積累數(shù)萬億token數(shù)量的優(yōu)質(zhì)文本數(shù)據(jù)，覆蓋自然科學(xué)、計算機、社會文化、經(jīng)濟和教育等多個領(lǐng)域，具備行業(yè)一流水平。觀瀾語言大模型針對特定行業(yè)進行重點優(yōu)化，在通用模型的基礎(chǔ)上進行持續(xù)預(yù)訓(xùn)練，為基礎(chǔ)模型注入更專業(yè)的行業(yè)知識。?？低曌匝写竽Ｐ颓Эú⑿杏?xùn)練框架在 GPU有效利用率上達到58%，具備一流的行業(yè)競爭力。

有監(jiān)督微調(diào)，教會模型理解意圖。監(jiān)督微調(diào)階段，數(shù)據(jù)的難度與多樣性是關(guān)鍵，?？低暰邆渖詈竦男袠I(yè)經(jīng)驗，包括行業(yè)需求、行業(yè)數(shù)據(jù)以及行業(yè)專家等資源，為微調(diào)語言大模型提供肥沃的土壤。有監(jiān)督微調(diào)利用行業(yè)專家設(shè)計的多樣行業(yè)任務(wù)，讓模型統(tǒng)一以問答方式來學(xué)習(xí)完成。問答任務(wù)直接可以用“給上文、補下文”方式實現(xiàn)，還可以在上文中加上提示。以翻譯為例，除了告訴模型需要翻譯的內(nèi)容外，還要指示模型翻譯成哪種目標(biāo)語言。這一步提示學(xué)習(xí)完成之后，模型即已博覽群書而胸有成竹，又能領(lǐng)會意圖而對答如流，已處于基本可用的狀態(tài)。目前基于觀瀾語言大模型發(fā)展的行業(yè)級大模型已經(jīng)在水利、客服、辦公等領(lǐng)域進行落地應(yīng)用。

強化學(xué)習(xí)，教會模型反饋擇優(yōu)。語言大模型可能會生成帶有偏見、歧視或者令人不適的回答。對于同一個問題，模型能夠生成多個不同的回答。?？低晱挠杏眯院桶踩越嵌瘸霭l(fā)，提升了回答質(zhì)量排序的一致性，以此訓(xùn)練得到更加穩(wěn)定有效的獎勵模型，然后采用強化學(xué)習(xí)算法進一步調(diào)整語言大模型，使其輸出更符合人們期望的回答，達到與人們期望對齊的效果。海康威視在自研語言大模型過程中，始終將安全可靠作為重要標(biāo)準(zhǔn)，在事實性回答、安全內(nèi)容生成方面，經(jīng)過強化學(xué)習(xí)后的模型顯著超過提示精調(diào)的模型。

2.3.4多模態(tài)大模型

觀瀾多模態(tài)大模型在視覺、音頻、文本三大基礎(chǔ)模態(tài)之外，還關(guān)聯(lián)了其它多源異構(gòu)的模態(tài)信息，包括但不限于激光雷達信號、毫米波雷達信號、光纖信號、X光信號等。在統(tǒng)一的嵌入空間中，模型通過對兩類或兩類以上不同來源的信號模態(tài)的融合學(xué)習(xí)，衍生出用于解決各種基礎(chǔ)問題的多模態(tài)模型。接下來我們將舉例介紹兩種觀瀾多模態(tài)大模型技術(shù)。圖文多模態(tài)大模型:圖文多模態(tài)大模型是在大語言模型的基礎(chǔ)上，使用圖文多模態(tài)數(shù)據(jù)進行持續(xù)預(yù)訓(xùn)練，獲得視覺感知和視覺認(rèn)知能力，同時保持在文本任務(wù)上的性能。傳統(tǒng)的視覺感知模型聚焦于完成從像素到語義的映射，在對視覺信號的解構(gòu)過程中無法很好地結(jié)合人類在各個領(lǐng)域積累的知識。同時，僅基于視覺表觀信息的泛化能力容易受到開放世界中對抗性樣本的干擾，導(dǎo)致模型魯棒性不足。圖文多模態(tài)大模型在大語言模型積累的豐富世界知識基礎(chǔ)上，將像素、語義、知識三要索緊密融合，不僅具有很強的視覺認(rèn)知能力，同時也能獲得更魯棒的視覺感知能力。受益于圖文多模態(tài)大模型強大的感知能力和跨任務(wù)泛化能力，視覺智能業(yè)務(wù)的應(yīng)用門檻將被顯著降低:用戶只需要提供圖像，并根據(jù)自身的業(yè)務(wù)需求調(diào)整輸入的指令，模型即能夠根據(jù)指令實現(xiàn)對圖像的理解，利用感知到的信息端到端地完成用戶的需求。

?？低晫τ趫D文多模態(tài)大模型的投入較早，積累較多。有豐富的多模態(tài)訓(xùn)練數(shù)據(jù)，并完成了相關(guān)能力的驗證，成功觀察到圖文多模態(tài)大模型的縮放定律和部分視覺認(rèn)知方面的能力。

雷視多模態(tài)大模型:在智能交通領(lǐng)域，?？低暲煤撩撞ɡ走_和高清攝像機，積累了數(shù)百萬段雷視感知片段，并構(gòu)建了同時感知空間物理信息與圖像語義信息的雷視融合大模型。該模型具備超遠距離的感知能力和超過 95%的高精度車流軌跡探測能力，已在雷視電警、雷視車檢器等數(shù)十款交通產(chǎn)品中廣泛應(yīng)用。相較于視覺或雷達單一模態(tài)的模型，雷視多模態(tài)大模型通過提取多維信號中的有效信息，挖掘不同模態(tài)信息間的潛在關(guān)系，增強了對物理世界的全面理解。雷視多模態(tài)大模型分別利用圖像編碼器和點云編碼器對多幀圖像、雷達點云提取特征，再通過融合解碼器將多幀圖像特征和點云特征融合，獲得目標(biāo)的語義信息與物理信息，從而輸出圖像像素坐標(biāo)、物理空間坐標(biāo)、速度、類型和軌跡等。

為了充分發(fā)揮大模型的優(yōu)勢，?？低暦謩e打造了路端和車端部署的真值系統(tǒng)，可在真實生產(chǎn)環(huán)境中持續(xù)積累高精度、高質(zhì)量的點云數(shù)據(jù)。與此同時，海康威視在云端構(gòu)建起一套面向四維數(shù)據(jù)的自動化標(biāo)注流程，可以為雷視大模型源源不斷地提供真實、海量的多模態(tài)數(shù)據(jù)。在極大提高真值精度的同時，大幅降低標(biāo)注成本，從而形成了端云協(xié)同發(fā)展的高速飛輪。

此外，不滿足于單一雷視設(shè)備的應(yīng)用，海康威視還基于組網(wǎng)的多雷視設(shè)備，構(gòu)建了覆蓋完整路口路段的多模態(tài)、多設(shè)備、跨時段的路網(wǎng)感知大模型，有效降低單一視角引起的遮擋、透視、局部過曝/過暗等不利環(huán)境因素影響，進一步提高全域感知能力和系統(tǒng)魯棒性，可以在新一代交通數(shù)字孿生系統(tǒng)中提供核心的感知能力。

2.3.5 預(yù)測大模型

預(yù)測大模型基于海量物聯(lián)數(shù)據(jù)，學(xué)習(xí)多樣的回歸、分類模式，能夠為企業(yè)生產(chǎn)、交通、能源、自然資源等各個領(lǐng)域提供精準(zhǔn)的狀態(tài)預(yù)測、異常檢測和決策支持。

伴隨著IoT設(shè)備的快速增長和感知處理能力的發(fā)展,海量的物聯(lián)數(shù)據(jù)能夠以結(jié)構(gòu)化的形式存儲起來,并與業(yè)務(wù)系統(tǒng)的表格數(shù)據(jù)逐步融合,形成多維序列數(shù)據(jù)。該類數(shù)據(jù)具有順序性、季節(jié)性、趨勢性、突變性，以及多序列關(guān)聯(lián)等特點，其本質(zhì)上反映的是變量隨時間、空間不斷變化的趨勢和規(guī)律。預(yù)測大模型通過深入理解回歸、分類的本質(zhì)，挖掘數(shù)據(jù)中的潛在模式和規(guī)律，構(gòu)建物聯(lián)背景下通用的預(yù)測能力，持續(xù)提升數(shù)據(jù)價值。

預(yù)測大模型基于 Transformer 的 Encoder-Decoder 網(wǎng)絡(luò)架構(gòu)，利用自回歸、序列重構(gòu)和對比學(xué)習(xí)等技術(shù)進行大模型的預(yù)訓(xùn)練。針對不同領(lǐng)域多維序列數(shù)據(jù)量綱類型、序列長度、采集頻率等差異巨大的難題，設(shè)計數(shù)據(jù)對齊方法，使預(yù)測大模型更好地適應(yīng)不同領(lǐng)域的序列數(shù)據(jù)。設(shè)計多種數(shù)據(jù)增強的方式，使預(yù)測大模型能夠?qū)W習(xí)到不同的序列分布情況和變化模式。預(yù)測大模型利用少量類別、數(shù)值等標(biāo)簽信息進行有監(jiān)督的微調(diào)，在多種預(yù)測任務(wù)上實現(xiàn)有效泛化。海康在智慧交通、智能制造等多個場景中持續(xù)打磨預(yù)測大模型，呈現(xiàn)出良好的應(yīng)用前景。

2.3.6光纖大模型

光纖傳感利用光纖為傳感介質(zhì)，利用光波特性探測進行信息獲取，具備4大優(yōu)勢，特別適合于特殊環(huán)境下的信息獲取。光纖傳感大致可以分為兩類，一類是以光纖干涉結(jié)構(gòu)和光纖光柵為主要代表的“點式”光纖傳感，已在航空航天、海洋水聲、橋梁大壩大型建筑的健康監(jiān)測領(lǐng)域得到廣泛應(yīng)用;另一類是分布式光纖，利用連續(xù)分布式散射效應(yīng)，可以像神經(jīng)系統(tǒng)一樣準(zhǔn)確測量光纖任意位置的參量在時間和空間的信息分布，具有獨一無二的信息獲取能力，克服了點式傳感技術(shù)難以進行空間連續(xù)監(jiān)測的缺陷。

?？低晣@光纖傳感布局，通過光纖傳感可以捕捉到溫度、振動、聲音等數(shù)據(jù)，具備良好的環(huán)境適應(yīng)性。預(yù)訓(xùn)練大模型能夠抽取多維信號的統(tǒng)一特征表示，提高模型的泛化

能力，減少對大量標(biāo)注數(shù)據(jù)的依賴。?？低晸碛薪f條高質(zhì)量光纖數(shù)據(jù)，通過異常過濾、缺失值補全、無監(jiān)督去噪等方式，構(gòu)建了一套完善的數(shù)據(jù)清洗流程，開發(fā)了自動化數(shù)據(jù)清洗工具，顯著提升數(shù)據(jù)質(zhì)量。觀瀾光纖大模型采用基于 Transformer 網(wǎng)絡(luò)的編碼-解碼器結(jié)構(gòu)，編碼器負責(zé)信號理解，捕捉時序信號的上下文依賴，形成事件級、片段級的高質(zhì)量信號表征;解碼器引入細粒度監(jiān)督信息，負責(zé)時序信號生成，通過自監(jiān)督預(yù)訓(xùn)練挖掘多維信號的結(jié)構(gòu)信息，具備音頻事件檢測、定位等能力。

目前觀瀾光纖大模型僅需傳統(tǒng)深度學(xué)習(xí)模型10%的數(shù)據(jù)量，就可以快速完成場景適配和部署，在多個內(nèi)部測試集上平均準(zhǔn)確率提升超13%，并在鋼鐵、煤炭、電力等行業(yè)中落地應(yīng)用。

2.4 觀瀾大模型實踐優(yōu)勢

2.4.1全面的感知能力，獲取豐富的模態(tài)數(shù)據(jù)

全面的感知能力是物理世界通往數(shù)字世界的橋梁。海康威視構(gòu)建了包括可見光、熱成像、雷達、X光等電磁波，聲波、超聲波等機械波，以及多種物理傳感技術(shù)的全面感知體系，助力打造了具備多維感知能力的大模型。例如在光纖傳感領(lǐng)域，觀瀾光纖大模型基于千萬級高質(zhì)量光纖傳感數(shù)據(jù)，實現(xiàn)工業(yè)設(shè)備異常問題高精度檢測和智能診斷;在雷達傳感領(lǐng)域，觀瀾雷視大模型融合了雷達和攝像機的感知能力，具備全天候、超遠距離的車輛和車流軌跡探測能力。

?？低曉谥悄芪锫?lián)領(lǐng)域具有 20多年的積累，為了滿足更多行業(yè)用戶的智能化需求,我們面向交通、電力、鋼鐵、煤炭、安檢等諸多垂直行業(yè)，結(jié)合高質(zhì)量的領(lǐng)域數(shù)據(jù)和領(lǐng)域知識，打造行業(yè)大模型。海康威視在海量數(shù)據(jù)上進行了大規(guī)模預(yù)訓(xùn)練，生產(chǎn)基礎(chǔ)大模型，吸收通用知識，再加入行業(yè)數(shù)據(jù)進行微調(diào)生產(chǎn)行業(yè)大模型，在保留了基礎(chǔ)大模型的高泛化能力基礎(chǔ)上具備了專業(yè)的行業(yè)能力。“預(yù)訓(xùn)練基礎(chǔ)大模型+行業(yè)微調(diào)”的開發(fā)范式大大提高了 AI模型開發(fā)的效率和跨場景泛化能力，構(gòu)建了領(lǐng)先的行業(yè)應(yīng)用能力。例如在周界防范業(yè)務(wù)中，以觀瀾視覺大模型作為基座，利用高效微調(diào)技術(shù)生產(chǎn)行業(yè)模型，整體誤報率降低了 95%。

觀瀾大模型針對?？低曍S富的云邊端產(chǎn)品線，構(gòu)建了包括模型精簡、蒸餾在內(nèi)的完整的硬件部署技術(shù)體系。自研模型精簡技術(shù)，同結(jié)構(gòu)大模型壓縮后部署對比16精度部署，可實現(xiàn)資源占用15倍以上高效壓縮，實際推理加速達到10倍以上。自研蒸餾技術(shù)，可實現(xiàn)大模型向端邊緣小模型的有效知識遷移，該技術(shù)在AI開放平臺中上線，可將小模型與大模型的性能差異平均縮小 50%以上。以面向企事業(yè)用戶場景的部署為例，海康威視提供邊緣、云端及云邊融合三種大模型部署方案，以滿足不同行業(yè)和場景中用戶對于推理模式、系統(tǒng)規(guī)模等多樣化需求。同時，?？低曁峁┬袠I(yè)應(yīng)用平臺和云眸的開放接口，便于企業(yè)或合作伙伴的集成應(yīng)用。

2.4.3.1邊緣部署，滿足高實時性的場景應(yīng)用

邊緣部署是一種將大模型及小模型部署在邊緣端設(shè)備(如智能分析服務(wù)器、智能NVR等)的不同性能的GPU或其他AI處理器上，并利用這些設(shè)備的計算資源進行推理的方式。這種方式具有以下優(yōu)勢:

首先，針對部分邊緣端智能設(shè)備計算資源有限，無法直接部署大模型的問題，海康威視通過蒸餾技術(shù)手段，將大模型的知識部分遷移到小模型上，這使得小模型能夠順利部署至此類智能設(shè)備上，降低了大模型的使用門檻。

其次，由于數(shù)據(jù)無需傳輸?shù)皆贫耍虼丝梢员Ｗo用戶敏感信息，有效保障數(shù)據(jù)的安全

性。

最后，由于大模型及小模型直接部署在邊緣設(shè)備上，可以有效克服網(wǎng)絡(luò)傳輸延遲和帶寬的限制，實現(xiàn)快速響應(yīng)和高效處理。

邊緣推理尤其適用于數(shù)據(jù)敏感性、實時性要求高的應(yīng)用場景，已經(jīng)在制造、能源、電力、煤礦等行業(yè)得到廣泛應(yīng)用，并取得良好的應(yīng)用效果，

2.4.3.2云端部署，降低智能應(yīng)用的推理成本

云端部署是一種將大模型部署在?？翟祈?AI推理集群中，借助云計算平臺的強大計算能力完成處理數(shù)據(jù)和計算任務(wù)的方法。這種技術(shù)的優(yōu)勢在于利用云計算平臺的規(guī)模效應(yīng)和資源共享，從而降低推理成本。

在云端部署方案中，高清攝像機用于抓拍現(xiàn)場圖片，這些圖片隨后被上傳至部署大模型的云眸上，利用云計算平臺的強大計算資源，可以對這些圖片進行智能化分析。云端部署適用于數(shù)據(jù)敏感性和實時性要求較低的聯(lián)網(wǎng)場景。

2.4.3.3云邊融合，提供場景智能的更多選擇云邊融合方案整合邊緣端和云中心的部署的特點，并充分發(fā)揮?？低暤漠a(chǎn)品優(yōu)勢和云端 Saas 應(yīng)用能力。

首先，通過利用設(shè)備端小模型的實時視頻流分析能力，可以提高目標(biāo)檢測的準(zhǔn)確率;同時，借助云端大模型進行二次分析過濾，可以降低誤報率，滿足用戶對識別對象的高檢出率和低誤報率的雙重要求，并提供持續(xù)的視頻分析能力。

其次，借助云端 AI算法編排能力，可以減輕邊緣端設(shè)備的性能壓力，使其能夠適應(yīng)更多的應(yīng)用場景;同時，云端編排邏輯部署便捷，無需對設(shè)備進行固件升級，進一步簡化系統(tǒng)維護和升級的流程。

最后，通過與第三方業(yè)務(wù)數(shù)據(jù)和平臺己有模塊的業(yè)務(wù)聯(lián)動，云端AI邏輯引擎能夠響應(yīng)更多的業(yè)務(wù)需求，為企業(yè)提供更加靈活、高效的解決方案。

云邊融合具備低延時、高實時、經(jīng)濟性等特點，能夠滿足連鎖、制造、電力、煤礦、商業(yè)、教育教學(xué)、建筑等眾多行業(yè)的智能化應(yīng)用需求，為場景智能應(yīng)用提供更多的選擇。無論是云端部署模式還是云邊融合部署模式，SaaS服務(wù)平臺都是其中的核心應(yīng)用。云眸是海康威視自研的 SaaS 云服務(wù)管理平臺，始終以用戶需求為核心理念，深度挖掘業(yè)務(wù)需求，致力于成為“大連鎖”場景的運營管理專家。為了實現(xiàn)這一目標(biāo)，云眸提供豐富的物聯(lián)場景應(yīng)用，并在連鎖行業(yè)中得到廣泛應(yīng)用。截至2023年底，?？翟祈呀?jīng)成功接入超過490萬路終端設(shè)備，每日接口調(diào)用次數(shù)接近1億次。同時，?？翟七€為超過1000萬戶社區(qū)業(yè)主、1050 萬師生家長、45 萬家物流網(wǎng)點以及37萬家連鎖門店提供服務(wù)。

2.4.4 完善的工程化能力，賦能大模型快速應(yīng)用

隨著碎片化 AI需求的日益增長，自2019年開始，?？低暢掷m(xù)完善從業(yè)務(wù)調(diào)研、方案設(shè)計、算法實現(xiàn)到實施交付全過程覆蓋的AI工程化服務(wù)體系，為用戶提供一系列智能方案的落地保障，并面向合作伙伴開展賦能。其中，如何更快速地響應(yīng)定制化算法實現(xiàn)需求，縮短落地周期是 AI工程化的“關(guān)鍵因子”，為此，海康威視構(gòu)建了 AI開放平臺。

平臺構(gòu)建了數(shù)據(jù)采集，數(shù)據(jù)標(biāo)注、模型訓(xùn)練、硬件適配，設(shè)備推理、業(yè)務(wù)應(yīng)用的AI落地全流程能力，致力于幫助零基礎(chǔ)用戶開發(fā)自己行業(yè)的智能算法、幫助廣大 AI從業(yè)者擁有智能硬件產(chǎn)品和解決方案，助力產(chǎn)業(yè)智能化轉(zhuǎn)型升級。

2.4.4.1?？低?AI開放平臺技術(shù)架構(gòu)?？低?AI開放平臺以觀瀾大模型為技術(shù)底座，通過高性能基礎(chǔ)設(shè)施和完善的服務(wù)能力為文撐，賦能千行百業(yè)。

2.4.4.2 大模型推理能力開放?？低?AI開放平臺面向工商企業(yè)、住宅建筑、醫(yī)療衛(wèi)生、智慧交通等數(shù)十種行業(yè)，開放了50+的場景 AI推理能力，用戶可直接在平臺上體驗和下載使用，實現(xiàn)了大模型能力的“開箱即用”這些任務(wù)模型不僅保留了基礎(chǔ)大模型的高泛化能力，在行業(yè)數(shù)據(jù)的融合下，在特定場景表現(xiàn)出更加專精的能力。如平臺開放的工地安全穿戴識別算法，大模型的效果對比傳統(tǒng)小模型有著十分明顯的提升。同時，部分用戶在行業(yè)場景下兼具一些個性化的需求，AI開放平臺也提供了模型迭代的功能，用戶可在已有的任務(wù)模型的基礎(chǔ)上，添加少部分的場景數(shù)據(jù)，通過迭代訓(xùn)練獲取更加符合自身業(yè)務(wù)場景的迭代模型，來應(yīng)對更加復(fù)雜的個性化需求。

2.4.4.3基于大模型的自定義算法訓(xùn)練

除行業(yè)性需求外，相當(dāng)一部分客戶還有著完全個性化的業(yè)務(wù)需求，此類需求有著“千人千面”的特征，每個業(yè)務(wù)場景都需要根據(jù)具體需求定制生成AI算法。因此，海康威視AI開放平臺提供了基于大模型的自定義算法訓(xùn)練能力，平臺預(yù)置了16種建模場景，基于觀瀾大模型的技術(shù)底座，以“預(yù)訓(xùn)練大模型+場景微調(diào)”的訓(xùn)練模式，AI開放平臺的訓(xùn)練啟動數(shù)據(jù)量可降低 90%以上，并且平均算法精度也提升了50%以上。這意味著用戶只需少量的樣本輸入，即可生成高精度的算法模型，在降低AI落地成本的同時，也提升了AI應(yīng)用的效果和效率。如通過平臺自定義訓(xùn)練出的各類場景識別算法，在效果上有極為顯著的提升。2.4.4.4多樣的訓(xùn)練模式

超高精度訓(xùn)練模式:基于觀瀾預(yù)訓(xùn)練基礎(chǔ)大模型，結(jié)合用戶場景數(shù)據(jù)共同訓(xùn)練得到的超高精度的大模型，最大程度地保留了大模型高泛化能力。并目，通過海康威視自研算軟硬協(xié)同優(yōu)化方案，超高精度的大模型已支持近十款國產(chǎn)高性能芯片。蒸餾訓(xùn)練模式:通過自研的蒸餾技術(shù)的高級訓(xùn)練方式，實現(xiàn)大模型向端邊緣小模型的有效知識遷移，將大模型良好的精度水平和強大的泛化能力，快速遷移到小模型中。在資源消耗跟傳統(tǒng)模型一致的前提下，將小模型與大模型的性能差異平均縮小50%以上。通過?？低暢掷m(xù)的芯片適配和深度優(yōu)化，蒸餾模型已支持海康威視大部分邊端推理設(shè)備第三章觀大模型內(nèi)部實踐

作為行業(yè)內(nèi)最早一批布局AI的科技企業(yè)，海康威視既是行業(yè)智能化解決方案的提供者,也是實踐者。海康威視持續(xù)運用自主研發(fā)的AI技術(shù)推進公司不同環(huán)節(jié)的智能化升級,并將自身的經(jīng)驗以產(chǎn)品化的方式輸出，幫助更多行業(yè)數(shù)字化轉(zhuǎn)型。

海康威視所處的智能物聯(lián)行業(yè)，應(yīng)用需求高度碎片化、場景化，如何在滿足個性化需求、形成場景化解決方案的同時，更規(guī)模化、快速地響應(yīng)客戶需求，是對所有行業(yè)參與者的挑戰(zhàn)。要管理海康威視這樣一個業(yè)務(wù)遍布全球、客戶需求高度碎片化的科技公司，可以說是一項復(fù)雜的“系統(tǒng)工程”

為了將這個復(fù)雜的體系高效運營起來，二十余年來，公司努力在研發(fā)、制造、營銷等經(jīng)營管理的各個方面，持續(xù)提升自己的能力。如今，觀瀾大模型的構(gòu)建，帶來了新思路新路徑。近年來，?？低暢掷m(xù)對內(nèi)探索場景與實踐，把自身作為大模型落地應(yīng)用的“試驗田”，已將觀瀾大模型應(yīng)用于公司的不同業(yè)務(wù)環(huán)節(jié)中，提升經(jīng)營管理綜合能力，為向客戶持續(xù)提供優(yōu)質(zhì)的產(chǎn)品和服務(wù),構(gòu)建了更堅實的技術(shù)保障。以下重點就觀瀾大模型在?？低暤漠a(chǎn)品研發(fā)、生產(chǎn)制造兩大環(huán)節(jié)的應(yīng)用情況做進一步介紹。

3.1觀瀾大模型助力產(chǎn)品持續(xù)創(chuàng)新

海康威視從生產(chǎn)視頻壓縮板卡起步，不斷將通用技術(shù)(硬件技術(shù)、工藝材料、嵌入式軟件、系統(tǒng)級軟件開發(fā)、大數(shù)據(jù)技術(shù)、網(wǎng)絡(luò)安全等)與場景化應(yīng)用技術(shù)進行組合、融合和集合，以實現(xiàn)產(chǎn)品創(chuàng)新，形成了從探測器、模組、設(shè)備到系統(tǒng)的完整產(chǎn)品體系。目前公司在售硬件產(chǎn)品型號已超過3萬個，軟件產(chǎn)品200多款。當(dāng)前，觀瀾大模型的能力已深入融合到?？低暤漠a(chǎn)品創(chuàng)新和實際應(yīng)用當(dāng)中，拓展模型能力邊界，提升智能產(chǎn)品性能，加快 AI落地部署應(yīng)用。

3.1.1 提升產(chǎn)品性能，增強產(chǎn)品競爭力

海康威視在產(chǎn)品研發(fā)中，利用大模型小樣本學(xué)習(xí)能力強、泛化能力強、性能上限高等特點，不斷推出準(zhǔn)確率、檢出率更佳的算法，幫助提升產(chǎn)品性能，增強競爭力。

以應(yīng)用范圍最廣泛的視覺 AI為例，觀瀾視覺大模型在數(shù)據(jù)治理、模型結(jié)構(gòu)、預(yù)訓(xùn)練算法等方面進行了深入研究，相比傳統(tǒng)小模型，大大提高了感興趣目標(biāo)的檢出率和檢準(zhǔn)率，降低誤報，在海康威視AI開放平臺、海康云眸等平臺中廣泛部署。在?？低晝?nèi)部構(gòu)建的多個跨行業(yè)的泛化任務(wù)上，大模型帶來的平均性能提升超過50%，可支持響應(yīng)更多復(fù)雜的業(yè)務(wù)需求，在智慧城市管理、智慧社區(qū)管理、自然資源保護等場景中取得廣泛應(yīng)用。與此同時，觀瀾大模型進一步提升了海康威視產(chǎn)品體系的智能感知能力，為不斷開發(fā)新品、豐富智能物聯(lián)產(chǎn)品矩陣提供了技術(shù)支撐。例如，在雷視產(chǎn)品的研發(fā)中，海康威視構(gòu)建了具備同時感知空間物理信息與目標(biāo)語義信息的雷視多模態(tài)大模型，讓雷視產(chǎn)品得以突破晝夜以及雨霧環(huán)境下的性能極限，并實現(xiàn)規(guī)模化的產(chǎn)品落地。?？低曆邪l(fā)的“超遠距離雷達+多日長短焦視頻”雷視一體機，具備超遠距離車輛和車流軌跡高精度探測能力，并形成了系列產(chǎn)品方案。雷視融合產(chǎn)品在檢測距離上的突破，可大幅降低數(shù)字化道路的建設(shè)成本，提升交通擁堵治理、交通安全保障、車路協(xié)同的能力。3.1.2提升落地部署能力，加速AI工程化進程

千行百業(yè)對 AI的需求海量而碎片化，沒有標(biāo)準(zhǔn)化通用的解決方案，每個細分場景的需求滿足往往都需要定制化的開發(fā)，而在傳統(tǒng)深度學(xué)習(xí)算法開發(fā)過程中，存在數(shù)據(jù)采集困難、算法泛化性能差等問題，算法開發(fā)周期往往以季度計，無法滿足AI快速落地的需求。?？低暬谟^瀾大模型打造了“預(yù)訓(xùn)練大模型+場景微調(diào)”的算法開發(fā)范式，可顯著降低對場景訓(xùn)練樣本的依賴，并大幅縮短從數(shù)據(jù)收集到算法部署的全過程，使開發(fā)效率更

高、落地周期更短、跨場景泛化能力更強，高效地支撐行業(yè)應(yīng)用。首先，觀瀾大模型可降低90%的訓(xùn)練啟動數(shù)據(jù)量，有效緩解數(shù)據(jù)采集難的問題;其次，針對這部分訓(xùn)練數(shù)據(jù)，還可應(yīng)用觀瀾大模型的智能標(biāo)注能力，只需要對智能標(biāo)注后的數(shù)據(jù)進行復(fù)核，即可發(fā)起訓(xùn)練，進一步縮短了開發(fā)過程中的數(shù)據(jù)標(biāo)注周期;最后，場景微調(diào)的模式無需從頭開始訓(xùn)練，即可獲得滿足不同場景需求的模型，大大降低了訓(xùn)練時長同時，基于預(yù)訓(xùn)練大模型訓(xùn)練出的任務(wù)模型，具備更高的泛化能力和推理認(rèn)知能力，可兼顧不同場景的差異性，并保持較高的識別精度。這意味著一款開發(fā)出來的AI產(chǎn)品在不同場景可長期保持良好的識別效果，可避免頻繁的重標(biāo)重訓(xùn)，降低模型迭代次數(shù)與成本。相較于以往動輒幾個月的產(chǎn)品交付工期，基于觀瀾大模型進行開發(fā)，可使開發(fā)周期縮短約80%。

以海康威視推出的光纖傳感產(chǎn)品為例，光纖信號處理和解調(diào)難度高，如何在這些復(fù)雜的信號中準(zhǔn)確識別微小的信號變化，如何通過信號變化準(zhǔn)確反演外界真實場景，實現(xiàn)高準(zhǔn)確度的異常診斷，是研發(fā)人員需要重點攻克的難題

常規(guī)的信號解調(diào)和處理方案，信噪比低，整體效果較差，需要大量的模型校準(zhǔn)調(diào)優(yōu)工作，研發(fā)過程漫長。而結(jié)合基于千萬級光纖傳感數(shù)據(jù)的光纖大模型后，可以降低產(chǎn)品對信號解調(diào)質(zhì)量的要求。同時，在應(yīng)用落地階段，可有效降低用戶數(shù)據(jù)量要求，數(shù)據(jù)采集工作量降低 90%。此外，光纖大模型融合了多種復(fù)雜場景下的特征信息，單一模型可兼顧不同場景差異性，實現(xiàn)用戶現(xiàn)場快速部署。3.1.3總結(jié)與價值

大模型的積累與發(fā)展，為海康威視的產(chǎn)品創(chuàng)新打開了新空間。基于觀瀾大模型，海康威視將持續(xù)錘煉產(chǎn)品的研發(fā)、落地能力。在大模型的加持下，更多引領(lǐng)行業(yè)的新產(chǎn)品將不斷被研發(fā)面市，更快速地產(chǎn)品迭代將不斷滿足用戶的發(fā)展需求，比以往更高效便捷的 AI落地部署將加速行業(yè)智能化變革。這些因創(chuàng)新而生的智能物聯(lián)產(chǎn)品，將深入到千行百業(yè)成為AI生產(chǎn)力工具，助推數(shù)字化轉(zhuǎn)型的發(fā)展浪潮:

3.2觀瀾大模型助力生產(chǎn)制造提質(zhì)增效

海康威視智能制造基地(以下簡稱制造基地)承擔(dān)著公司面向全球的產(chǎn)品制造與交付，由于智能物聯(lián)市場高度碎片化，制造基地生產(chǎn)的產(chǎn)品種類達數(shù)千種、型號數(shù)萬種、訂單定配置比例高達 75%，形成了“小批量、多批次、大規(guī)模定制化”的生產(chǎn)制造模式。這種生產(chǎn)模式能更好地滿足客戶個性化的定制需求，但也出現(xiàn)了產(chǎn)品訂單小而零散、產(chǎn)線頻繁切換等情況，對組織生產(chǎn)、管控產(chǎn)品質(zhì)量、控制成本等都帶來了管理挑戰(zhàn)。統(tǒng)計數(shù)據(jù)顯示，?？低曇惶齑蠹s需生產(chǎn)10000個訂單，但每個訂單平均僅 40臺左右。由于這種生產(chǎn)模式對企業(yè)生產(chǎn)、管理提出的嚴(yán)格要求，只有不斷提升制造基地的柔性化、智能化水平才能更好滿足市場需求。

多年來，制造基地逐步構(gòu)建了全流程有效協(xié)同、敏捷精益的大規(guī)模定制智能制造新模式，保障了高可靠性、高可用性、高可控性的產(chǎn)品交付。為不斷提升自身智能制造能力，制造基地利用觀瀾大模型的能力，落地了面向生產(chǎn)的全鏈路解決方案，為從業(yè)人員提供智能、精準(zhǔn)、快速的新工具和新方法，提升了生產(chǎn)交付效率和客戶滿意度。3.2.1計劃排程:精準(zhǔn)制定計劃，提升生產(chǎn)效率和資源利用率

在生產(chǎn)計劃制定過程中，針對?？低暥嗥贩N、小批量的業(yè)務(wù)模式，傳統(tǒng)的計劃作業(yè)方式往往難以有效應(yīng)對迅速變化的市場需求。引入觀瀾大模型的預(yù)測能力后，通過綜合考量產(chǎn)品的歷史需求和變化趨勢、內(nèi)外部不同產(chǎn)品之間的影響關(guān)系以及不同區(qū)域的需求差異等多維度的影響要素，對各種物料需求進行更精確的短中長期預(yù)測?；谠擃A(yù)測結(jié)果，并結(jié)合行業(yè)最佳實踐提取形成的工業(yè)機理模型，對生產(chǎn)要素進行全面分析和深度優(yōu)化，實現(xiàn)大計劃的有效制定、備貨計劃的實時調(diào)整、原材料的采購優(yōu)化、產(chǎn)能計劃的動態(tài)調(diào)整、區(qū)域倉物料的選型和調(diào)撥，最終制定出較為完善的排程方案和生產(chǎn)計劃。

基于實際生產(chǎn)數(shù)據(jù)分析和交互迭代，大模型能夠生成排程方案并持續(xù)優(yōu)化預(yù)測效果，其中交付達成率提高近10%，訂單合單率提升近10%，進一步提高桐廬基地的生產(chǎn)效率和資源利用率，更好滿足市場需求，實現(xiàn)更高的生產(chǎn)效益。

3.2.2控制執(zhí)行:輔助生產(chǎn)執(zhí)行，提升執(zhí)行效率，降低人員工作強度

在生產(chǎn)執(zhí)行過程中，存在大量的控制動作，如何保證控制動作及時精準(zhǔn)地執(zhí)行，實現(xiàn)生產(chǎn)連續(xù)，是業(yè)內(nèi)持續(xù)探索的重點。?？低曉谥圃旎匾胗^瀾大模型，對生產(chǎn)執(zhí)行過程中的物料、產(chǎn)品種類和位置等信息有效識別，輔助生產(chǎn)自動執(zhí)行，提升了生產(chǎn)效率和執(zhí)行準(zhǔn)確率。

在生產(chǎn)裝配環(huán)節(jié)，針對產(chǎn)品自動點膠，通過對產(chǎn)品種類進行有效識別，并自動匹配控制程序和執(zhí)行預(yù)案，精準(zhǔn)引導(dǎo)點膠裝置對產(chǎn)品進行自動精確點膠，減少人工干預(yù)工作量，保障產(chǎn)品質(zhì)量的一致性，進而提升良品率。

在生產(chǎn)測試環(huán)節(jié)，為了保障測試的穩(wěn)定性，基于觀大模型的技術(shù)融合應(yīng)用，使產(chǎn)品的整個測試過程實現(xiàn)全部由測試系統(tǒng)自動測試完成，極大地提升了產(chǎn)品測試質(zhì)量，保障產(chǎn)品質(zhì)量的一致性和穩(wěn)定性。

3.2.3檢測計量:輔助工藝檢測、產(chǎn)品質(zhì)檢，提升產(chǎn)品質(zhì)量

在生產(chǎn)執(zhí)行過程中，設(shè)備和人員是核心參與者，如何實現(xiàn)生產(chǎn)過程防呆防錯和物料齊套性一直是生產(chǎn)質(zhì)量和生產(chǎn)效率的關(guān)鍵因素，同時也直接關(guān)系到客戶滿意度。

為了解決該問題，制造基地通過觀瀾人模型與工業(yè)信息化系統(tǒng)的緊密結(jié)合，制造基地在裝配過程合規(guī)性和包裝過程一致性等環(huán)節(jié)實現(xiàn)智能檢測和計量，構(gòu)建AI防呆防錯體系，提升生產(chǎn)質(zhì)量。

在裝配環(huán)節(jié)中，系統(tǒng)具備精確的識別能力，一旦發(fā)現(xiàn)零部件出現(xiàn)錯裝或漏裝現(xiàn)象，能夠及時發(fā)出提醒，顯著增強生產(chǎn)流程的準(zhǔn)確性，進一步降低生產(chǎn)成木，提升整體生產(chǎn)效益

隨著制造基地自動化水平的不斷提升，自動化設(shè)備已成為企業(yè)的核心資產(chǎn)。其中人機交互的安全已成為影響安全生產(chǎn)的重要因素，如何保障設(shè)備穩(wěn)定運行和人員的安全成為重點研究課題。

制造基地通過觀瀾大模型，配合多維感知技術(shù)，在設(shè)備運行過程中對生產(chǎn)參與者的不安全因素進行有效識別與管理。例如，對設(shè)備上的機械表計進行A讀數(shù)，有效識別設(shè)備的壓力、液位、指示狀態(tài)等多類型異常，并實時預(yù)警提醒:對設(shè)備運行過程中人員的誤入可有效識別和預(yù)警，智能聯(lián)動控制設(shè)備停止運行，保障設(shè)備和人員安全，進一步保障生產(chǎn)的連續(xù)性。3.2.5總結(jié)與價值

依托觀瀾大模型的核心能力，制造基地實現(xiàn)了生產(chǎn)制造過程的全流程智能化管控輔助，涵蓋銷售、計劃排程、生產(chǎn)執(zhí)行、倉儲物流、發(fā)貨運輸和售后服務(wù)全環(huán)節(jié)，推進了?？低曋悄苤圃鞌?shù)字孿生體系建設(shè)，助力打造敏捷、柔性、精益的制造體系，持續(xù)提升精益生產(chǎn)和智能制造水平。

目前，制造基地積累了大量智能制造產(chǎn)業(yè)經(jīng)驗，已成為全球智能物聯(lián)領(lǐng)域頗具規(guī)模高度自動化的產(chǎn)品制造中心，成功入選工信部2021年度智能制造示范工廠揭榜單位，也是浙江省首批認(rèn)定的“未來工廠”，并被評為行業(yè)引領(lǐng)型“頭雁工廠”

隨著市場不斷細分，越來越多的制造企業(yè)在走向類似的個性化、定制化的制造模式，通過智能化解決方案來實現(xiàn)制造全鏈路的提質(zhì)增效成為越來越普遍的選擇。?？低暤闹悄苤圃炷芰Σ粌H應(yīng)用于自身，也在以解決方案的形式為眾多行業(yè)的智慧園區(qū)、智能工廠建設(shè)提供支撐，海康威視所積極探索的智能化路徑與經(jīng)驗，也將慢慢惠及越來越多的制造企業(yè)。

第四章觀型行業(yè)實踐

?？低曉诖竽Ｐ徒ㄔO(shè)上進行了大量的投入和積累，大模型相關(guān)能力不僅應(yīng)用在自身的產(chǎn)品研發(fā)、生產(chǎn)制造等數(shù)字化轉(zhuǎn)型升級過程中，也通過解決方案落地在千行百業(yè)中。

各行各業(yè)的行業(yè)特點、業(yè)務(wù)運營模式不盡相同，當(dāng)前大模型應(yīng)用依然是行業(yè)場景需求驅(qū)動。?？低曉诜?wù)眾多行業(yè)智能化升級時積累了諸多行業(yè)實踐經(jīng)驗，接下來，將選取一些典型行業(yè)和典型場景做進一步的重點介紹。

4.1智慧連鎖

連鎖經(jīng)營已成為品牌企業(yè)主要的商業(yè)模式之一，涵蓋多種社會零售業(yè)態(tài)，如餐飲、醫(yī)藥保健、商超、便利店、汽車4S店等。隨著居民消費能力的提升，品牌企業(yè)不斷擴大規(guī)模，連鎖門店數(shù)量逐漸增加，連鎖化率持續(xù)上升。

在品牌連鎖化率上升的情況下，門店數(shù)量增加給連鎖企業(yè)帶來保持品牌和服務(wù)一致性等挑戰(zhàn)。盡管AI的應(yīng)用能提供一定幫助，但實際應(yīng)用中仍存在阻礙。當(dāng)前，大模型技術(shù)應(yīng)用為連鎖企業(yè)帶來了機遇。大模型具有更強的泛化能力、更高的準(zhǔn)確性和可靠性，正在助力連鎖企業(yè)優(yōu)化業(yè)務(wù)流程、實現(xiàn)高效的運營管理，以達成更好的業(yè)務(wù)表現(xiàn)。4.1.1 安全合規(guī)

門店安全合規(guī)是連鎖企業(yè)的“生命線”。以往需要大量人力，逐一排查資產(chǎn)安全、合規(guī)經(jīng)營、食品安全等多方面的問題，面臨人力成本高、監(jiān)管低效等挑戰(zhàn)。

運用觀瀾大模型，可以實現(xiàn)對門店安全隱患、操作不規(guī)范等異常事件高精度識別，輔助工作人員更加智能高效地守護門店安全。

例如在餐飲企業(yè)后廚場景，AI技術(shù)可識別鼠患、員工防護用品佩戴情況、吸煙、垃圾桶未加蓋等衛(wèi)生隱患，并自動預(yù)警，有效提醒員工規(guī)范作業(yè)，減少食安隱患，守護食品安全。而在連鎖門店收銀場景，采用云邊方案，可以實現(xiàn)違規(guī)飛單管理。

統(tǒng)一管理成千上百家連鎖門店，保證服務(wù)的高水準(zhǔn)，是品牌長青的關(guān)鍵因素。依靠傳統(tǒng)人工巡店，工作量巨大、成本高，且無法確保問題發(fā)現(xiàn)的及時性和整改的有效性。

海康威視運用大模型技術(shù)，通過線上智能巡店的方式，實時分析和處理門店商品、環(huán)境、陳設(shè)等運營規(guī)范的相關(guān)圖像、視頻等數(shù)據(jù)，自動、高效地識別出不符合運營規(guī)范的項目，及時發(fā)出整改通知，實現(xiàn)流程閉環(huán)可追溯，助力連鎖企業(yè)優(yōu)化日常巡店效率。

在助力門店智慧運營管理上，觀瀾大模型也能帶來顯著改變。比如在水果連鎖企業(yè)早期曾嘗試使用線下傳統(tǒng)訓(xùn)練平臺來訓(xùn)練工服、水果種類、數(shù)量、陳列和飽和度檢測等傳統(tǒng)算法模型，然而，在實際應(yīng)用過程中，出現(xiàn)一些問題:首先，算法訓(xùn)練周期長，每次優(yōu)化算法都需要重新標(biāo)注大量的圖片素材，既耗時又耗力，導(dǎo)致對算法落地的信心逐漸下隆:其次，由于門店眾多且水果種類繁多，即使經(jīng)過多次算法選代，仍然無法在更多門店的驗證環(huán)節(jié)達到預(yù)期的準(zhǔn)確度;最后，傳統(tǒng)算法模型的準(zhǔn)確率存在上限，即使優(yōu)化10余次版本后，準(zhǔn)確率也只能達到82%，很難再進一步提高?；谟^瀾大模型，這些過去難以克服的問題，得到有效解決和改善。首先，運用大模型技術(shù)，利用少量素材(每次100張圖片)，快速迭代算法模型;其次，利用云邊協(xié)同部署方案，將穿戴檢測(工服識別)，水果檢測(品類、數(shù)量、飽和度)等感知數(shù)據(jù)與多維度業(yè)務(wù)數(shù)據(jù)融合，有效提升結(jié)果的準(zhǔn)確性。這種主動發(fā)現(xiàn)問題并及時發(fā)出告警的智慧式，為企業(yè)提升內(nèi)部管理、協(xié)同效率提供有力的智能化手段。

4.2智能制造

制造業(yè)作為國家經(jīng)濟文柱，其高質(zhì)量發(fā)展對于經(jīng)濟持續(xù)增長至關(guān)重要。當(dāng)前，我國制造業(yè)發(fā)展正從追求規(guī)模速度轉(zhuǎn)向追求質(zhì)量效益，并在新一輪技術(shù)革命和產(chǎn)業(yè)變革的推動下，向綠色化、智能化、服務(wù)化和定制化發(fā)展。工信部等多部門印發(fā)《“十四五”智能制造發(fā)展規(guī)劃》:到 2025年，規(guī)模以上制造業(yè)企業(yè)大部分實現(xiàn)數(shù)字化、網(wǎng)絡(luò)化，重點行業(yè)骨干企業(yè)初步應(yīng)用智能化;到2035年，規(guī)模以上制造業(yè)企業(yè)全面普及數(shù)字化、網(wǎng)絡(luò)化，重點行業(yè)骨干企業(yè)基本實現(xiàn)智能化。

在產(chǎn)業(yè)端，目前制造業(yè)與智能技術(shù)融合進一步加深，在“研產(chǎn)供銷服”全流程落地智能應(yīng)用。提升制造業(yè)數(shù)字化、智能化水平，實現(xiàn)降本、增效、提質(zhì)，正在成為眾多制造企業(yè)不約而同的選擇。基于?？低暥嗄暝谥圃鞓I(yè)的業(yè)務(wù)積累和技術(shù)應(yīng)用趨勢判斷，觀瀾大模型可應(yīng)用于制造業(yè)全生命周期的各個階段，并聚焦于質(zhì)量管控、設(shè)備管理以及生產(chǎn)排程等主要場景，提高生產(chǎn)效率和質(zhì)量，降低生產(chǎn)成本，提升企業(yè)的核心競爭力。4.2.1 質(zhì)量管控

質(zhì)量是制造的基本要求。因此，質(zhì)量管控智能化的核心是聚焦完善質(zhì)量監(jiān)督流程，加強質(zhì)量管理能力。在生產(chǎn)過程中，因人為操作不規(guī)范和設(shè)備異常等原因，常出現(xiàn)錯誤導(dǎo)致物料浪費、生產(chǎn)返工、產(chǎn)品缺陷、經(jīng)濟損失等，甚至可能引發(fā)安全事故和人員傷亡。這些問題凸顯了全流程質(zhì)量監(jiān)督和高效現(xiàn)場管理的重要性。在離散型制造中，生產(chǎn)過程可以被細分為裝配、檢測和包裝三個主要環(huán)節(jié)。觀瀾大模型在這些環(huán)節(jié)中都能發(fā)揮重要作用:在裝配環(huán)節(jié)，通過對產(chǎn)線圖像進行采集和智能分析，可以識別各個零部件的錯裝和漏裝;在檢測環(huán)節(jié)，對操作音視頻數(shù)據(jù)進行分析，可以判別操作動作的合規(guī)性，降低人為失誤率;在包裝環(huán)節(jié)，可以依托智能識別分析技術(shù)，對產(chǎn)品的外觀完整性和配件錯放和漏放進行判別。打通現(xiàn)場提醒系統(tǒng)和與生產(chǎn)執(zhí)行系統(tǒng)后，可以實現(xiàn)產(chǎn)線的智能聯(lián)動，對缺陷產(chǎn)品智能攔截，通過智能防呆防錯保障生產(chǎn)節(jié)拍、生產(chǎn)質(zhì)量和生產(chǎn)效率，降低缺陷分析、誤工、返工等成本，減少客訴。同時，大模型對數(shù)據(jù)要求降低，泛化能力增強，不同企業(yè)類似環(huán)節(jié)的智能化方案可以快速部署，也具備更高的準(zhǔn)確性和靈活性，可以應(yīng)用到更廣泛的制造場景中。4.2.2設(shè)備管理

隨著自動化水平提升，制造企業(yè)對設(shè)備設(shè)施投入不斷增加，設(shè)備管理將成為企業(yè)管理的重中之重。設(shè)備分為輔助設(shè)備和直接生產(chǎn)設(shè)備兩大類，其運行狀態(tài)影響生產(chǎn)效率和成本，因此保障設(shè)備設(shè)施穩(wěn)定運行是保障連續(xù)性生產(chǎn)的基礎(chǔ)和前提。傳統(tǒng)設(shè)備管理主要依托人工經(jīng)驗，定期巡檢維修，主觀性強，一旦出現(xiàn)意外情況，會對生產(chǎn)造成不可估量的影響，既影響企業(yè)運營管理效率，也增加運營成本。

在這種情況下，基于智能多維感知產(chǎn)品和智能系統(tǒng)，可以實時監(jiān)測設(shè)備狀態(tài)并預(yù)警彌補人工巡檢的不足。同時基于對多種設(shè)備歷史運行數(shù)據(jù)、關(guān)聯(lián)情況、運行狀態(tài)的智能分析，可以預(yù)測設(shè)備故障，提示企業(yè)進行設(shè)備維修保養(yǎng)，最大程度規(guī)避設(shè)備異常，保障生產(chǎn)連續(xù)性。其中，大模型技術(shù)能夠協(xié)助傳感器或平臺快速判別真實故障，提升準(zhǔn)確性。

4.2.3生產(chǎn)排程

制定生產(chǎn)計劃是制造的核心環(huán)節(jié)，高效排程能夠在滿足市場需求和供應(yīng)鏈運轉(zhuǎn)中取得更好平衡，提升企業(yè)運營效率。特別是在生產(chǎn)環(huán)節(jié)越來越復(fù)雜、客戶需求越來越多樣化的當(dāng)下，傳統(tǒng)生產(chǎn)計劃編制方式難以應(yīng)對生產(chǎn)過程的快速變化和多樣化需求，對生產(chǎn)效率、產(chǎn)品質(zhì)量、交付效率等造成連鎖影響。

大模型技術(shù)應(yīng)用后，可以借助海量數(shù)據(jù)和算法模型對生產(chǎn)過程進行全面分析和優(yōu)化，給企業(yè)提供生產(chǎn)流程、供應(yīng)鏈優(yōu)化等環(huán)節(jié)的決策支持。利用大模型等A1技術(shù)，可以綜合分析訂單數(shù)量、庫存狀況、人力資源以及設(shè)備利用率等多種因素，以確定更優(yōu)的生產(chǎn)計劃和排程方案，實現(xiàn)生產(chǎn)過程自動化和智能化，達到更佳的生產(chǎn)效率和資源利用率。

第五章總結(jié)與展望

從刀耕火種，到工業(yè)革命、信息革命，再到當(dāng)今的智能社會，人類的文明與技術(shù)進步環(huán)環(huán)相扣。近十年來，人工智能技術(shù)持續(xù)推動人類社會發(fā)展，各行各業(yè)掀起了智能化升級的浪潮。未來，大模型技術(shù)的持續(xù)創(chuàng)新與突破將助力人工智能的大規(guī)?？蓮?fù)制落地。

大模型能力將呈跳躍式發(fā)展。未來的大模型不僅能夠理解和處理不同的信息模態(tài)，如文本、語音、圖像、視頻等，還能夠進行高層次的推理、規(guī)劃和執(zhí)行，在各種領(lǐng)域和任務(wù)中表現(xiàn)出接近通用人工智能的能力。這樣的人工智能技術(shù)將對人類社會和經(jīng)濟產(chǎn)生深遠的影響。

高質(zhì)量的領(lǐng)域數(shù)據(jù)和領(lǐng)域知識在構(gòu)建大模型應(yīng)用中仍將發(fā)揮重要的作用。一方面，領(lǐng)域數(shù)據(jù)集構(gòu)造使用了豐富而有代表性的訓(xùn)練樣本，在通用知識的基礎(chǔ)上，給模型注入特定場景的領(lǐng)域知識來提升其專業(yè)能力，以適配各行業(yè)任務(wù)中高精度與高泛化性的要求;另一方面，高質(zhì)量的數(shù)據(jù)篩選和清洗，能使數(shù)據(jù)規(guī)模大幅降低的同時有效保障系統(tǒng)的準(zhǔn)確性和可靠性。

大模型部署向端側(cè)化發(fā)展，大小模型協(xié)同工作。未來，大型與小型的協(xié)同將成為一個重要趨勢。大模型將負責(zé)提供高級能力和知識，而小模型則專注于處理特定任務(wù)，形成端邊云協(xié)同的解決方案，為個人和企業(yè)提供更加可靠、低成本、安全、個性化的 AI服務(wù)。

未來的人工智能將是由不同的子模型和一個或多個調(diào)度模型組成的智能 Agent 系統(tǒng)。智能 Agent 系統(tǒng)將管理各種模型，按照其擅長的領(lǐng)域進行劃分，并根據(jù)環(huán)境和任務(wù)的不同合理調(diào)度它們的執(zhí)行順序和資源分配。這種組合模型的機制將為人工智能領(lǐng)域帶來一種新的強大能力，可以實現(xiàn)更高層次的智能決策和優(yōu)化，能夠更加高效地利用系統(tǒng)的資源，并靈活地適應(yīng)工作負載的變化。培養(yǎng)和發(fā)展Algent的智能能力，是人工智能發(fā)展的一個重要趨勢，將帶來更廣泛的應(yīng)用領(lǐng)域和更高水平的智能技術(shù)。然而，我們還必須清醒地認(rèn)識到，人工智能的落地之路任重道遠。從時間維度上看，人工智能對不同行業(yè)的賦能是有時間層次的。在準(zhǔn)確性要求較低的行業(yè)和場景，將較早實現(xiàn)應(yīng)用:而對準(zhǔn)確度要求更高的應(yīng)用和行業(yè)，還需要進一步的調(diào)試和探索時間。面對現(xiàn)實世界中的各類復(fù)雜問題，智能化轉(zhuǎn)型升級依然需要從規(guī)劃到實施的長期投入，甚至是重塑業(yè)務(wù)流程，各行各業(yè)仍需進一步的探索與實踐。

挖掘場景創(chuàng)新的潛力。在行業(yè)智能化的過程中，除了數(shù)據(jù)、算法、算力之外，還需要重點把握的一個關(guān)鍵因素是場景。當(dāng)前，隨著AI在不同行業(yè)的拓展，由場景碎片化帶來的需求個性化對 AI落地提出了挑戰(zhàn)。但“硬幣”的另一面是，這些碎片化而海量的應(yīng)用場景，正是 AI不斷取得長足發(fā)展、具備超大規(guī)模市場的一大優(yōu)勢。把技術(shù)用于場景，在場景中打磨技術(shù)并產(chǎn)品化，通過“技術(shù)-場景-技術(shù)-場景”循序迭代、積累經(jīng)驗。以場景為驅(qū)動的創(chuàng)新，已成為人工智能技術(shù)升級、產(chǎn)業(yè)增長的關(guān)鍵驅(qū)動力之

提升全面的 AI工程化能力。AI落地的“最后一公里”中，工程化能力尤為重要。如果把 AI模型比作為汽車發(fā)動機，那么AI工程化就是使發(fā)動機能成為一臺完整的汽車并可自如行駛的工程化過程。不同的場景需求和交付具有很大的差異化，AI工程化要完善的是從業(yè)務(wù)調(diào)研、方案設(shè)計、算法實現(xiàn)到實施交付的全流程能力，并跳出單一的人工智能技術(shù)，實現(xiàn)從單點技術(shù)到跨技術(shù)的協(xié)同，從單一學(xué)科向多學(xué)科的交叉融合，形成綜合的技術(shù)應(yīng)用能力。加強產(chǎn)業(yè)鏈的生態(tài)協(xié)同。生態(tài)共建是促進AI發(fā)展的有效路徑，產(chǎn)業(yè)界上下游共同探索，可為 AI應(yīng)用的“百花齊放”提供肥沃的土壤。政府、企業(yè)和社會還需共同從政策支持、人才培養(yǎng)、技術(shù)研發(fā)、數(shù)據(jù)共享、國際合作和創(chuàng)新環(huán)境等方面入手，攜手打通人工智能的“創(chuàng)新路”

發(fā)展安全可信的 AI。高度自動化的人工智能系統(tǒng)已經(jīng)成為許多領(lǐng)域的核心應(yīng)用。這些系統(tǒng)能夠自主地學(xué)習(xí)、決策和執(zhí)行任務(wù)，同時也面臨著諸多安全威脅和風(fēng)險。例如通過植入后門以在特定情景下產(chǎn)生預(yù)設(shè)反應(yīng)，大量的個人數(shù)據(jù)和敏感信息嵌在系統(tǒng)中容易泄漏，系統(tǒng)的決策和行為帶來偏見問題和倫理問題等。我們需要推動技術(shù)向善，更加負責(zé)任地、以人為本地發(fā)展AI應(yīng)用，積極探索和制定相應(yīng)的標(biāo)準(zhǔn)規(guī)范，確保人工智能的發(fā)展符合人類的價值觀和倫理標(biāo)準(zhǔn)。只有具備高可信度的安全機制，高度自動化的人工智能系統(tǒng)才能夠真正發(fā)揮其潛力，成為人類社會進步和發(fā)展的有力工具。現(xiàn)代管理學(xué)之父德魯克說，預(yù)測未來最好的辦法就是創(chuàng)造它。人工智能的時代車輪滾滾向前，我們已經(jīng)可以預(yù)見，智能化的應(yīng)用，將如雨后春筍般生長;智能化的未來，將是片星辰大海。作為人工智能產(chǎn)業(yè)森林中的“一棵樹”，?？低晫远ú灰频匕l(fā)展新技術(shù)、探索新應(yīng)用，以自身的技術(shù)實力、產(chǎn)品方案、行業(yè)實踐經(jīng)驗、工程化能力等全方位的積累，助力千行百業(yè)加速智能化落地，共創(chuàng)更美好的智能世界。