一、前言 站在技術(shù)視角理解 AI大模型,核心就是搞懂一件事,大模型到底做了些什么? 其實(shí),大模型的工作很簡(jiǎn)單,一次添加一個(gè)詞。
表面觀察 : 當(dāng)使用 DeepSeek 生成文本時(shí),確實(shí)會(huì)看到文字逐個(gè)出現(xiàn),如同打字機(jī)輸出:
'自然▌?wù)Z言▌處理▌是▌...' (每個(gè)▌代表一次生成步驟)
二、詞元(Token) AI大模型的核心機(jī)制是基于序列生成架構(gòu),通過(guò)海量文本數(shù)據(jù)訓(xùn)練建立概率模型實(shí)現(xiàn)逐詞預(yù)測(cè)。 Token 作為語(yǔ)義處理的基本單元,既決定模型對(duì)輸入的結(jié)構(gòu)化解析能力,也直接影響輸出質(zhì)量。 上下文窗口容量 是衡量模型性能的核心參數(shù),其擴(kuò)展深度直接決定系統(tǒng)對(duì)長(zhǎng)程語(yǔ)義關(guān)聯(lián)的捕獲能力和生成內(nèi)容的邏輯連貫性。在工程應(yīng)用層面,Token消耗量構(gòu)成服務(wù)計(jì)費(fèi)的核心要素,與計(jì)算資源成本呈正相關(guān)。
2.1.生活化例子 樂(lè)高積木 :就像用不同大小的積木塊搭建模型,Token是AI大模型理解語(yǔ)言的最小積木單位 切水果 :處理文本就像切水果,可以切成整塊(詞語(yǔ)級(jí))或小丁(字母級(jí)) 快遞分揀 :AI處理句子時(shí),像快遞站把包裹拆分成標(biāo)準(zhǔn)大小的箱子來(lái)處理 記憶畫(huà)板(上下文窗口) :想象AI有個(gè)工作臺(tái),能同時(shí)處理的文字積木數(shù)量就是它的'記憶畫(huà)板'尺寸。就像大畫(huà)板能攤開(kāi)更多樂(lè)高說(shuō)明書(shū),AI的'記憶畫(huà)板'越大,就能記住更多前文,生成的內(nèi)容就越貼合主題 2.2.概念講解 基本定義 :Token是AI大模型處理文本的最小單位,可以是字/詞/標(biāo)點(diǎn)符號(hào)等 中文:通常拆分為詞語(yǔ)或單字(如'人工智能'→「人工」「智能」) 英文:拆分更靈活(如'unhappy'→「un」「happy」) 影響模型理解能力(拆分方式?jīng)Q定AI如何'讀懂'文本) 決定計(jì)算成本(token數(shù)量≈處理工作量) 影響生成長(zhǎng)度(模型有最大token限制) 2.3.簡(jiǎn)單記法 口訣記憶: 「字詞標(biāo)點(diǎn)皆令牌,拆分組合模型明 數(shù)量多寡定消耗,長(zhǎng)短限制要記清」
像「文字樂(lè)高」:每個(gè)token都是積木塊 像「語(yǔ)言貨幣」:AI用token作為計(jì)算'硬幣' 2.4.圖示 圖示 這個(gè)示意圖展示了:
原始語(yǔ)句被拆分成不同顏色標(biāo)記的token 標(biāo)點(diǎn)符號(hào)也是獨(dú)立token 2.5.圖示模型 & 價(jià)格 下表所列 DeepSeek 模型價(jià)格以“百萬(wàn) tokens”為單位。Token 是模型用來(lái)表示自然語(yǔ)言文本的的最小單位,可以是一個(gè)詞、一個(gè)數(shù)字或一個(gè)標(biāo)點(diǎn)符號(hào)等。我們將根據(jù)模型輸入和輸出的總 token 數(shù)進(jìn)行計(jì)量計(jì)費(fèi)。
一般情況下模型中 token 和字?jǐn)?shù)的換算比例大致如下:
1 個(gè)英文字符 ≈ 0.3 個(gè) token。 1 個(gè)中文字符 ≈ 0.6 個(gè) token。 經(jīng)驗(yàn)值僅供參考
三、溫度(Temperature) 引入溫度概念可以增加AI大模型內(nèi)容生成的隨機(jī)性,調(diào)節(jié)溫度參數(shù)可以影響大模型的活躍程度和生成結(jié)果的表現(xiàn)。主要是用來(lái)設(shè)定AI大模型回復(fù)的確定性,值越小,表示確定性越強(qiáng),值越大,表示隨機(jī)性越強(qiáng)。
3.1.生活化例子 拋硬幣決策 :就像用拋硬幣決定向左走還是向右走,給AI決策增加不確定性 抽卡游戲機(jī)制 :類(lèi)似游戲中SSR卡的低爆率設(shè)計(jì),控制隨機(jī)出現(xiàn)的概率分布 調(diào)收音機(jī)雜音 :像在清晰信號(hào)中混入靜電噪音,平衡確定性與創(chuàng)造力 3.2.概念講解 訓(xùn)練階段:Dropout(隨機(jī)屏蔽神經(jīng)元) 推理階段:溫度參數(shù)(Temperature)控制輸出分布 增加回答的多樣性(如不同風(fēng)格的詩(shī)句生成) 避免陷入局部最優(yōu)解(像探險(xiǎn)時(shí)故意走岔路) 完全隨機(jī)(溫度→∞):可能產(chǎn)生胡言亂語(yǔ) 適度隨機(jī)(溫度=1):平衡創(chuàng)意與邏輯 3.3. 簡(jiǎn)單記法 口訣記憶: 「概率分布做骰子,溫度調(diào)鈕控火候, Dropout像蒙眼練,采樣策略篩候選」
像「AI調(diào)酒師」:基酒是確定性的,隨機(jī)性就是搖酒手法 如「智能彩票」:中獎(jiǎng)號(hào)碼由概率權(quán)重決定 似「烹飪火候」:溫度參數(shù)就是控制隨機(jī)性的燃?xì)忾y 3.4. 圖示 圖示 這個(gè)示意圖展示了:
輸入經(jīng)過(guò)模型處理時(shí)注入骰子符號(hào)代表的隨機(jī)性 底部控制面板調(diào)節(jié)溫度參數(shù)和采樣策略 虛線箭頭表示參數(shù)對(duì)處理過(guò)程的影響 輸出結(jié)果因隨機(jī)性產(chǎn)生變化(問(wèn)號(hào)表示不確定性) 3.5.Temperature 設(shè)置 以下為 DeepSeek 官網(wǎng)推薦的 Temperature 參數(shù)設(shè)置。
四、向量(Embedding) 向量(Embedding)是 AI 大模型中的另一個(gè)重要概念,牽涉到大模型生成文本的細(xì)節(jié)。大模型的工作是一次添加一個(gè)Token,大模型的處理中,將Token轉(zhuǎn)換為低維密集向量,然后對(duì)編碼結(jié)果進(jìn)行壓縮,得到最終需要的結(jié)果。之所以要將字符串轉(zhuǎn)換為向量,簡(jiǎn)單理解,就是現(xiàn)在大部分的 AI 算法只支持向量。
4.1.生活化例子 圖書(shū)館分類(lèi)編碼 :就像給每本書(shū)貼上包含「題材+作者+年代」的編碼標(biāo)簽,embedding是給文字打上的多維數(shù)字標(biāo)簽 色彩調(diào)色板 :每個(gè)詞像顏色,embedding就是RGB數(shù)值(如紅色=255,0,0),用數(shù)字組合精確描述語(yǔ)義 樂(lè)高說(shuō)明書(shū) :把抽象的文字指令(如'建造城堡')轉(zhuǎn)化為具體的積木組合編號(hào) 4.2.概念講解 將離散的文字/符號(hào)轉(zhuǎn)換為連續(xù)向量(一組數(shù)字)的過(guò)程 數(shù)學(xué)表達(dá):詞/句 → 高維空間中的坐標(biāo)點(diǎn)(通常200-1000維) 例:'貓' → [0.24, -0.57, 1.32,..., 0.03] 稠密向量 :每個(gè)維度都攜帶語(yǔ)義信息(對(duì)比稀疏編碼) 語(yǔ)義保留 :語(yǔ)義相近的詞向量距離近(如'犬'和'狗'的向量余弦相似度高) 可計(jì)算性 :支持向量運(yùn)算(如:'機(jī)器學(xué)習(xí)'與'深度學(xué)習(xí)'的向量余弦相似度可達(dá)0.85,而'機(jī)器學(xué)習(xí)'與'籃球'的相似度僅為0.12) 推薦系統(tǒng)(用戶興趣向量匹配內(nèi)容向量) 4.3.簡(jiǎn)單記法 三句口訣: 「萬(wàn)物皆可坐標(biāo)化,語(yǔ)義藏在數(shù)字里 ,近義詞是鄰家友,加減運(yùn)算顯神奇」
像「文字GPS」:每個(gè)詞有獨(dú)一無(wú)二的坐標(biāo) 如「語(yǔ)義DNA」:用數(shù)字序列編碼含義 似「語(yǔ)言條形碼」:掃描向量就能識(shí)別語(yǔ)義 右手比劃坐標(biāo)軸旋轉(zhuǎn)動(dòng)作 左手做抓取文字塞進(jìn)坐標(biāo)系的動(dòng)作 4.4. 圖示 圖示 這個(gè)示意圖展示了:
高維語(yǔ)義空間中相近詞的聚集現(xiàn)象 坐標(biāo)系簡(jiǎn)化呈現(xiàn)(實(shí)際為高維空間) 五、總結(jié) 本章圍繞大模型的核心概念展開(kāi),重點(diǎn)闡述了以下三個(gè)關(guān)鍵概念:
1. Token與上下文窗口 Token是大模型處理文本的基本單元,其形式靈活多樣,可能對(duì)應(yīng)完整單詞、詞組或單詞片段(如子詞),這也解釋了大模型能創(chuàng)造新詞的特性。上下文窗口的大小直接決定模型單次可處理的Token數(shù)量,窗口越大,模型能同時(shí)分析的信息范圍越廣,處理復(fù)雜任務(wù)的能力越強(qiáng)。此外,Token數(shù)量通常作為大模型服務(wù)計(jì)費(fèi)的重要依據(jù)。
2. 溫度參數(shù):控制輸出的隨機(jī)性 溫度參數(shù)用于調(diào)節(jié)模型生成結(jié)果的隨機(jī)性強(qiáng)弱。當(dāng)溫度值較高時(shí),模型會(huì)提升選擇非常見(jiàn)詞匯的概率,使輸出更具創(chuàng)造性和多樣性,表現(xiàn)為更'活躍'的應(yīng)答;反之,低溫設(shè)置會(huì)增強(qiáng)確定性,使回答更偏向保守和可預(yù)測(cè),適用于需要嚴(yán)謹(jǐn)性的場(chǎng)景。這一機(jī)制讓開(kāi)發(fā)者能通過(guò)參數(shù)調(diào)節(jié)平衡結(jié)果的創(chuàng)新性與可靠性。
3. 文本向量化處理流程 大模型通過(guò)將文本轉(zhuǎn)換為AI可處理的向量:
嵌入層壓縮 :利用嵌入矩陣將高維向量壓縮為低維密集向量,保留語(yǔ)義關(guān)聯(lián)性 這種轉(zhuǎn)換使文本信息既滿足算法對(duì)向量輸入的要求,又通過(guò)降維提升了計(jì)算效率,同時(shí)捕獲詞匯間的深層語(yǔ)義關(guān)系(如近義詞向量距離相近)。 這些機(jī)制共同支撐著大模型'逐詞生成'的核心功能,通過(guò)調(diào)節(jié)溫度參數(shù)控制生成風(fēng)格,結(jié)合上下文窗口的語(yǔ)義理解范圍,最終實(shí)現(xiàn)類(lèi)人的文本生成效果。
參考資料:
[1] 鄭曄, 《程序員的AI開(kāi)發(fā)第一課》. 極客時(shí)間, 2024.