零基礎(chǔ) | 測(cè)試運(yùn)維人必知必會(huì)AI大模型技術(shù)名詞

精誠(chéng)至_金石開(kāi) 2025-03-12

展開(kāi)全文

一、前言

站在技術(shù)視角理解 AI大模型，核心就是搞懂一件事，大模型到底做了些什么？其實(shí)，大模型的工作很簡(jiǎn)單，一次添加一個(gè)詞。

表面觀察：當(dāng)使用 DeepSeek 生成文本時(shí)，確實(shí)會(huì)看到文字逐個(gè)出現(xiàn)，如同打字機(jī)輸出：

'自然▌?wù)Z言▌處理▌是▌...'（每個(gè)▌代表一次生成步驟）

二、詞元（Token）

AI大模型的核心機(jī)制是基于序列生成架構(gòu)，通過(guò)海量文本數(shù)據(jù)訓(xùn)練建立概率模型實(shí)現(xiàn)逐詞預(yù)測(cè)。Token作為語(yǔ)義處理的基本單元，既決定模型對(duì)輸入的結(jié)構(gòu)化解析能力，也直接影響輸出質(zhì)量。上下文窗口容量是衡量模型性能的核心參數(shù)，其擴(kuò)展深度直接決定系統(tǒng)對(duì)長(zhǎng)程語(yǔ)義關(guān)聯(lián)的捕獲能力和生成內(nèi)容的邏輯連貫性。在工程應(yīng)用層面，Token消耗量構(gòu)成服務(wù)計(jì)費(fèi)的核心要素，與計(jì)算資源成本呈正相關(guān)。

2.1.生活化例子

樂(lè)高積木：就像用不同大小的積木塊搭建模型，Token是AI大模型理解語(yǔ)言的最小積木單位
切水果：處理文本就像切水果，可以切成整塊（詞語(yǔ)級(jí)）或小丁（字母級(jí)）
快遞分揀：AI處理句子時(shí)，像快遞站把包裹拆分成標(biāo)準(zhǔn)大小的箱子來(lái)處理
記憶畫(huà)板（上下文窗口）：想象AI有個(gè)工作臺(tái)，能同時(shí)處理的文字積木數(shù)量就是它的'記憶畫(huà)板'尺寸。就像大畫(huà)板能攤開(kāi)更多樂(lè)高說(shuō)明書(shū)，AI的'記憶畫(huà)板'越大，就能記住更多前文，生成的內(nèi)容就越貼合主題

2.2.概念講解

基本定義：Token是AI大模型處理文本的最小單位，可以是字/詞/標(biāo)點(diǎn)符號(hào)等
分詞特點(diǎn)：

中文：通常拆分為詞語(yǔ)或單字（如'人工智能'→「人工」「智能」）
英文：拆分更靈活（如'unhappy'→「un」「happy」）

核心作用：

影響模型理解能力（拆分方式?jīng)Q定AI如何'讀懂'文本）
決定計(jì)算成本（token數(shù)量≈處理工作量）
影響生成長(zhǎng)度（模型有最大token限制）

2.3.簡(jiǎn)單記法

口訣記憶：「字詞標(biāo)點(diǎn)皆令牌，拆分組合模型明數(shù)量多寡定消耗，長(zhǎng)短限制要記清」
類(lèi)比記憶：

像「文字樂(lè)高」：每個(gè)token都是積木塊
像「語(yǔ)言貨幣」：AI用token作為計(jì)算'硬幣'

2.4.圖示

這個(gè)示意圖展示了：

原始語(yǔ)句被拆分成不同顏色標(biāo)記的token
中英文的不同處理方式
標(biāo)點(diǎn)符號(hào)也是獨(dú)立token
圖例說(shuō)明不同token類(lèi)型
虛線箭頭表示文本流處理過(guò)程

2.5.圖示模型 & 價(jià)格

下表所列 DeepSeek 模型價(jià)格以“百萬(wàn) tokens”為單位。Token 是模型用來(lái)表示自然語(yǔ)言文本的的最小單位，可以是一個(gè)詞、一個(gè)數(shù)字或一個(gè)標(biāo)點(diǎn)符號(hào)等。我們將根據(jù)模型輸入和輸出的總 token 數(shù)進(jìn)行計(jì)量計(jì)費(fèi)。在這里插入圖片描述

一般情況下模型中 token 和字?jǐn)?shù)的換算比例大致如下：

1 個(gè)英文字符 ≈ 0.3 個(gè) token。
1 個(gè)中文字符 ≈ 0.6 個(gè) token。

經(jīng)驗(yàn)值僅供參考

三、溫度（Temperature）

引入溫度概念可以增加AI大模型內(nèi)容生成的隨機(jī)性，調(diào)節(jié)溫度參數(shù)可以影響大模型的活躍程度和生成結(jié)果的表現(xiàn)。主要是用來(lái)設(shè)定AI大模型回復(fù)的確定性，值越小，表示確定性越強(qiáng)，值越大，表示隨機(jī)性越強(qiáng)。

3.1.生活化例子

拋硬幣決策：就像用拋硬幣決定向左走還是向右走，給AI決策增加不確定性
抽卡游戲機(jī)制：類(lèi)似游戲中SSR卡的低爆率設(shè)計(jì)，控制隨機(jī)出現(xiàn)的概率分布
調(diào)收音機(jī)雜音：像在清晰信號(hào)中混入靜電噪音，平衡確定性與創(chuàng)造力

3.2.概念講解

基本定義：

在AI確定性計(jì)算中注入可控的不確定性
不是完全隨機(jī)，而是基于概率分布的選擇

常見(jiàn)引入方式：

訓(xùn)練階段：Dropout（隨機(jī)屏蔽神經(jīng)元）
推理階段：溫度參數(shù)（Temperature）控制輸出分布
采樣策略：Top-k/Top-p 篩選候選詞

核心作用：

防止模型輸出過(guò)于機(jī)械死板
增加回答的多樣性（如不同風(fēng)格的詩(shī)句生成）
避免陷入局部最優(yōu)解（像探險(xiǎn)時(shí)故意走岔路）

控制維度：

完全隨機(jī)（溫度→∞）：可能產(chǎn)生胡言亂語(yǔ)
適度隨機(jī)（溫度=1）：平衡創(chuàng)意與邏輯
零隨機(jī)（溫度→0）：完全選擇最高概率詞

3.3. 簡(jiǎn)單記法

口訣記憶：「概率分布做骰子，溫度調(diào)鈕控火候， Dropout像蒙眼練，采樣策略篩候選」
類(lèi)比記憶：

像「AI調(diào)酒師」：基酒是確定性的，隨機(jī)性就是搖酒手法
如「智能彩票」：中獎(jiǎng)號(hào)碼由概率權(quán)重決定
似「烹飪火候」：溫度參數(shù)就是控制隨機(jī)性的燃?xì)忾y

3.4. 圖示

這個(gè)示意圖展示了：

輸入經(jīng)過(guò)模型處理時(shí)注入骰子符號(hào)代表的隨機(jī)性
底部控制面板調(diào)節(jié)溫度參數(shù)和采樣策略
概率分布曲線可視化隨機(jī)選擇過(guò)程
虛線箭頭表示參數(shù)對(duì)處理過(guò)程的影響
輸出結(jié)果因隨機(jī)性產(chǎn)生變化（問(wèn)號(hào)表示不確定性）

3.5.Temperature 設(shè)置

以下為 DeepSeek 官網(wǎng)推薦的 Temperature 參數(shù)設(shè)置。

四、向量（Embedding）

向量（Embedding）是 AI 大模型中的另一個(gè)重要概念，牽涉到大模型生成文本的細(xì)節(jié)。大模型的工作是一次添加一個(gè)Token，大模型的處理中，將Token轉(zhuǎn)換為低維密集向量，然后對(duì)編碼結(jié)果進(jìn)行壓縮，得到最終需要的結(jié)果。之所以要將字符串轉(zhuǎn)換為向量，簡(jiǎn)單理解，就是現(xiàn)在大部分的 AI 算法只支持向量。

4.1.生活化例子

圖書(shū)館分類(lèi)編碼：就像給每本書(shū)貼上包含「題材+作者+年代」的編碼標(biāo)簽，embedding是給文字打上的多維數(shù)字標(biāo)簽
色彩調(diào)色板：每個(gè)詞像顏色，embedding就是RGB數(shù)值（如紅色=255,0,0），用數(shù)字組合精確描述語(yǔ)義
樂(lè)高說(shuō)明書(shū)：把抽象的文字指令（如'建造城堡'）轉(zhuǎn)化為具體的積木組合編號(hào)

4.2.概念講解

基本定義：

將離散的文字/符號(hào)轉(zhuǎn)換為連續(xù)向量（一組數(shù)字）的過(guò)程
數(shù)學(xué)表達(dá)：詞/句 → 高維空間中的坐標(biāo)點(diǎn)（通常200-1000維）
例：'貓' → [0.24, -0.57, 1.32,..., 0.03]

核心特點(diǎn)：

稠密向量：每個(gè)維度都攜帶語(yǔ)義信息（對(duì)比稀疏編碼）
語(yǔ)義保留：語(yǔ)義相近的詞向量距離近（如'犬'和'狗'的向量余弦相似度高）
可計(jì)算性：支持向量運(yùn)算（如：'機(jī)器學(xué)習(xí)'與'深度學(xué)習(xí)'的向量余弦相似度可達(dá)0.85，而'機(jī)器學(xué)習(xí)'與'籃球'的相似度僅為0.12）

典型應(yīng)用：

推薦系統(tǒng)（用戶興趣向量匹配內(nèi)容向量）
語(yǔ)義搜索（查詢與文檔的向量相似度排序）
文本聚類(lèi)（高維向量降維可視化）

4.3.簡(jiǎn)單記法

三句口訣：「萬(wàn)物皆可坐標(biāo)化，語(yǔ)義藏在數(shù)字里，近義詞是鄰家友，加減運(yùn)算顯神奇」
類(lèi)比記憶：

像「文字GPS」：每個(gè)詞有獨(dú)一無(wú)二的坐標(biāo)
如「語(yǔ)義DNA」：用數(shù)字序列編碼含義
似「語(yǔ)言條形碼」：掃描向量就能識(shí)別語(yǔ)義

手勢(shì)輔助：

雙手張開(kāi)表示高維空間
右手比劃坐標(biāo)軸旋轉(zhuǎn)動(dòng)作
左手做抓取文字塞進(jìn)坐標(biāo)系的動(dòng)作

4.4. 圖示

這個(gè)示意圖展示了：

文字到向量的轉(zhuǎn)換過(guò)程
高維語(yǔ)義空間中相近詞的聚集現(xiàn)象
向量運(yùn)算的數(shù)學(xué)特性
不同語(yǔ)義類(lèi)別的顏色區(qū)分
坐標(biāo)系簡(jiǎn)化呈現(xiàn)（實(shí)際為高維空間）

五、總結(jié)

本章圍繞大模型的核心概念展開(kāi)，重點(diǎn)闡述了以下三個(gè)關(guān)鍵概念：

1. Token與上下文窗口
Token是大模型處理文本的基本單元，其形式靈活多樣，可能對(duì)應(yīng)完整單詞、詞組或單詞片段（如子詞），這也解釋了大模型能創(chuàng)造新詞的特性。上下文窗口的大小直接決定模型單次可處理的Token數(shù)量，窗口越大，模型能同時(shí)分析的信息范圍越廣，處理復(fù)雜任務(wù)的能力越強(qiáng)。此外，Token數(shù)量通常作為大模型服務(wù)計(jì)費(fèi)的重要依據(jù)。

2. 溫度參數(shù)：控制輸出的隨機(jī)性
溫度參數(shù)用于調(diào)節(jié)模型生成結(jié)果的隨機(jī)性強(qiáng)弱。當(dāng)溫度值較高時(shí)，模型會(huì)提升選擇非常見(jiàn)詞匯的概率，使輸出更具創(chuàng)造性和多樣性，表現(xiàn)為更'活躍'的應(yīng)答；反之，低溫設(shè)置會(huì)增強(qiáng)確定性，使回答更偏向保守和可預(yù)測(cè)，適用于需要嚴(yán)謹(jǐn)性的場(chǎng)景。這一機(jī)制讓開(kāi)發(fā)者能通過(guò)參數(shù)調(diào)節(jié)平衡結(jié)果的創(chuàng)新性與可靠性。

3. 文本向量化處理流程
大模型通過(guò)將文本轉(zhuǎn)換為AI可處理的向量：

嵌入層壓縮：利用嵌入矩陣將高維向量壓縮為低維密集向量，保留語(yǔ)義關(guān)聯(lián)性
這種轉(zhuǎn)換使文本信息既滿足算法對(duì)向量輸入的要求，又通過(guò)降維提升了計(jì)算效率，同時(shí)捕獲詞匯間的深層語(yǔ)義關(guān)系（如近義詞向量距離相近）。

這些機(jī)制共同支撐著大模型'逐詞生成'的核心功能，通過(guò)調(diào)節(jié)溫度參數(shù)控制生成風(fēng)格，結(jié)合上下文窗口的語(yǔ)義理解范圍，最終實(shí)現(xiàn)類(lèi)人的文本生成效果。

參考資料：

[1] 鄭曄, 《程序員的AI開(kāi)發(fā)第一課》. 極客時(shí)間, 2024.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：精誠(chéng)至_金石開(kāi) > 《技術(shù)》

舉報(bào)/認(rèn)領(lǐng)