电竞比分网-中国电竞赛事及体育赛事平台

分享

零基礎(chǔ) | 測(cè)試運(yùn)維人必知必會(huì)AI大模型技術(shù)名詞

 精誠(chéng)至_金石開(kāi) 2025-03-12

圖片

一、前言

站在技術(shù)視角理解 AI大模型,核心就是搞懂一件事,大模型到底做了些什么?其實(shí),大模型的工作很簡(jiǎn)單,一次添加一個(gè)詞。

表面觀察: 當(dāng)使用 DeepSeek 生成文本時(shí),確實(shí)會(huì)看到文字逐個(gè)出現(xiàn),如同打字機(jī)輸出:

'自然▌?wù)Z言▌處理▌是▌...'(每個(gè)▌代表一次生成步驟)

二、詞元(Token)

AI大模型的核心機(jī)制是基于序列生成架構(gòu),通過(guò)海量文本數(shù)據(jù)訓(xùn)練建立概率模型實(shí)現(xiàn)逐詞預(yù)測(cè)。Token作為語(yǔ)義處理的基本單元,既決定模型對(duì)輸入的結(jié)構(gòu)化解析能力,也直接影響輸出質(zhì)量。上下文窗口容量是衡量模型性能的核心參數(shù),其擴(kuò)展深度直接決定系統(tǒng)對(duì)長(zhǎng)程語(yǔ)義關(guān)聯(lián)的捕獲能力和生成內(nèi)容的邏輯連貫性。在工程應(yīng)用層面,Token消耗量構(gòu)成服務(wù)計(jì)費(fèi)的核心要素,與計(jì)算資源成本呈正相關(guān)。

2.1.生活化例子

  1. 樂(lè)高積木:就像用不同大小的積木塊搭建模型,Token是AI大模型理解語(yǔ)言的最小積木單位
  2. 切水果:處理文本就像切水果,可以切成整塊(詞語(yǔ)級(jí))或小丁(字母級(jí))
  3. 快遞分揀:AI處理句子時(shí),像快遞站把包裹拆分成標(biāo)準(zhǔn)大小的箱子來(lái)處理
  4. 記憶畫(huà)板(上下文窗口):想象AI有個(gè)工作臺(tái),能同時(shí)處理的文字積木數(shù)量就是它的'記憶畫(huà)板'尺寸。就像大畫(huà)板能攤開(kāi)更多樂(lè)高說(shuō)明書(shū),AI的'記憶畫(huà)板'越大,就能記住更多前文,生成的內(nèi)容就越貼合主題

2.2.概念講解

  1. 基本定義:Token是AI大模型處理文本的最小單位,可以是字/詞/標(biāo)點(diǎn)符號(hào)等
  2. 分詞特點(diǎn)
    • 中文:通常拆分為詞語(yǔ)或單字(如'人工智能'→「人工」「智能」)
    • 英文:拆分更靈活(如'unhappy'→「un」「happy」)
  3. 核心作用
    • 影響模型理解能力(拆分方式?jīng)Q定AI如何'讀懂'文本)
    • 決定計(jì)算成本(token數(shù)量≈處理工作量)
    • 影響生成長(zhǎng)度(模型有最大token限制)

2.3.簡(jiǎn)單記法

  1. 口訣記憶: 「字詞標(biāo)點(diǎn)皆令牌,拆分組合模型明 數(shù)量多寡定消耗,長(zhǎng)短限制要記清」

  2. 類(lèi)比記憶:

    • 像「文字樂(lè)高」:每個(gè)token都是積木塊
    • 像「語(yǔ)言貨幣」:AI用token作為計(jì)算'硬幣'

2.4.圖示

圖示
圖示

這個(gè)示意圖展示了:

  1. 原始語(yǔ)句被拆分成不同顏色標(biāo)記的token
  2. 中英文的不同處理方式
  3. 標(biāo)點(diǎn)符號(hào)也是獨(dú)立token
  4. 圖例說(shuō)明不同token類(lèi)型
  5. 虛線箭頭表示文本流處理過(guò)程

2.5.圖示模型 & 價(jià)格

下表所列 DeepSeek 模型價(jià)格以“百萬(wàn) tokens”為單位。Token 是模型用來(lái)表示自然語(yǔ)言文本的的最小單位,可以是一個(gè)詞、一個(gè)數(shù)字或一個(gè)標(biāo)點(diǎn)符號(hào)等。我們將根據(jù)模型輸入和輸出的總 token 數(shù)進(jìn)行計(jì)量計(jì)費(fèi)。在這里插入圖片描述

一般情況下模型中 token 和字?jǐn)?shù)的換算比例大致如下:

  • 1 個(gè)英文字符 ≈ 0.3 個(gè) token。
  • 1 個(gè)中文字符 ≈ 0.6 個(gè) token。

經(jīng)驗(yàn)值僅供參考

三、溫度(Temperature)

引入溫度概念可以增加AI大模型內(nèi)容生成的隨機(jī)性,調(diào)節(jié)溫度參數(shù)可以影響大模型的活躍程度和生成結(jié)果的表現(xiàn)。主要是用來(lái)設(shè)定AI大模型回復(fù)的確定性,值越小,表示確定性越強(qiáng),值越大,表示隨機(jī)性越強(qiáng)。

3.1.生活化例子

  1. 拋硬幣決策:就像用拋硬幣決定向左走還是向右走,給AI決策增加不確定性
  2. 抽卡游戲機(jī)制:類(lèi)似游戲中SSR卡的低爆率設(shè)計(jì),控制隨機(jī)出現(xiàn)的概率分布
  3. 調(diào)收音機(jī)雜音:像在清晰信號(hào)中混入靜電噪音,平衡確定性與創(chuàng)造力

3.2.概念講解

  1. 基本定義

    • 在AI確定性計(jì)算中注入可控的不確定性
    • 不是完全隨機(jī),而是基于概率分布的選擇
  2. 常見(jiàn)引入方式

    • 訓(xùn)練階段:Dropout(隨機(jī)屏蔽神經(jīng)元)
    • 推理階段:溫度參數(shù)(Temperature)控制輸出分布
    • 采樣策略:Top-k/Top-p 篩選候選詞
  3. 核心作用

    • 防止模型輸出過(guò)于機(jī)械死板
    • 增加回答的多樣性(如不同風(fēng)格的詩(shī)句生成)
    • 避免陷入局部最優(yōu)解(像探險(xiǎn)時(shí)故意走岔路)
  4. 控制維度

    • 完全隨機(jī)(溫度→∞):可能產(chǎn)生胡言亂語(yǔ)
    • 適度隨機(jī)(溫度=1):平衡創(chuàng)意與邏輯
    • 零隨機(jī)(溫度→0):完全選擇最高概率詞

3.3. 簡(jiǎn)單記法

  1. 口訣記憶: 「概率分布做骰子,溫度調(diào)鈕控火候, Dropout像蒙眼練,采樣策略篩候選」

  2. 類(lèi)比記憶:

    • 像「AI調(diào)酒師」:基酒是確定性的,隨機(jī)性就是搖酒手法
    • 如「智能彩票」:中獎(jiǎng)號(hào)碼由概率權(quán)重決定
    • 似「烹飪火候」:溫度參數(shù)就是控制隨機(jī)性的燃?xì)忾y

3.4. 圖示

圖示
圖示

這個(gè)示意圖展示了:

  1. 輸入經(jīng)過(guò)模型處理時(shí)注入骰子符號(hào)代表的隨機(jī)性
  2. 底部控制面板調(diào)節(jié)溫度參數(shù)和采樣策略
  3. 概率分布曲線可視化隨機(jī)選擇過(guò)程
  4. 虛線箭頭表示參數(shù)對(duì)處理過(guò)程的影響
  5. 輸出結(jié)果因隨機(jī)性產(chǎn)生變化(問(wèn)號(hào)表示不確定性)

3.5.Temperature 設(shè)置

以下為 DeepSeek 官網(wǎng)推薦的 Temperature 參數(shù)設(shè)置。圖示

四、向量(Embedding)

向量(Embedding)是 AI 大模型中的另一個(gè)重要概念,牽涉到大模型生成文本的細(xì)節(jié)。大模型的工作是一次添加一個(gè)Token,大模型的處理中,將Token轉(zhuǎn)換為低維密集向量,然后對(duì)編碼結(jié)果進(jìn)行壓縮,得到最終需要的結(jié)果。之所以要將字符串轉(zhuǎn)換為向量,簡(jiǎn)單理解,就是現(xiàn)在大部分的 AI 算法只支持向量。

4.1.生活化例子

  1. 圖書(shū)館分類(lèi)編碼:就像給每本書(shū)貼上包含「題材+作者+年代」的編碼標(biāo)簽,embedding是給文字打上的多維數(shù)字標(biāo)簽
  2. 色彩調(diào)色板:每個(gè)詞像顏色,embedding就是RGB數(shù)值(如紅色=255,0,0),用數(shù)字組合精確描述語(yǔ)義
  3. 樂(lè)高說(shuō)明書(shū):把抽象的文字指令(如'建造城堡')轉(zhuǎn)化為具體的積木組合編號(hào)

4.2.概念講解

  1. 基本定義

    • 將離散的文字/符號(hào)轉(zhuǎn)換為連續(xù)向量(一組數(shù)字)的過(guò)程
    • 數(shù)學(xué)表達(dá):詞/句 → 高維空間中的坐標(biāo)點(diǎn)(通常200-1000維)
    • 例:'貓' → [0.24, -0.57, 1.32,..., 0.03]
  2. 核心特點(diǎn)

    • 稠密向量:每個(gè)維度都攜帶語(yǔ)義信息(對(duì)比稀疏編碼)
    • 語(yǔ)義保留:語(yǔ)義相近的詞向量距離近(如'犬'和'狗'的向量余弦相似度高)
    • 可計(jì)算性:支持向量運(yùn)算(如:'機(jī)器學(xué)習(xí)'與'深度學(xué)習(xí)'的向量余弦相似度可達(dá)0.85,而'機(jī)器學(xué)習(xí)'與'籃球'的相似度僅為0.12)
  3. 典型應(yīng)用

    • 推薦系統(tǒng)(用戶興趣向量匹配內(nèi)容向量)
    • 語(yǔ)義搜索(查詢與文檔的向量相似度排序)
    • 文本聚類(lèi)(高維向量降維可視化)

4.3.簡(jiǎn)單記法

  1. 三句口訣: 「萬(wàn)物皆可坐標(biāo)化,語(yǔ)義藏在數(shù)字里 ,近義詞是鄰家友,加減運(yùn)算顯神奇」

  2. 類(lèi)比記憶:

    • 像「文字GPS」:每個(gè)詞有獨(dú)一無(wú)二的坐標(biāo)
    • 如「語(yǔ)義DNA」:用數(shù)字序列編碼含義
    • 似「語(yǔ)言條形碼」:掃描向量就能識(shí)別語(yǔ)義
  3. 手勢(shì)輔助:

    • 雙手張開(kāi)表示高維空間
    • 右手比劃坐標(biāo)軸旋轉(zhuǎn)動(dòng)作
    • 左手做抓取文字塞進(jìn)坐標(biāo)系的動(dòng)作

4.4. 圖示

圖示
圖示

這個(gè)示意圖展示了:

  1. 文字到向量的轉(zhuǎn)換過(guò)程
  2. 高維語(yǔ)義空間中相近詞的聚集現(xiàn)象
  3. 向量運(yùn)算的數(shù)學(xué)特性
  4. 不同語(yǔ)義類(lèi)別的顏色區(qū)分
  5. 坐標(biāo)系簡(jiǎn)化呈現(xiàn)(實(shí)際為高維空間)

五、總結(jié)

本章圍繞大模型的核心概念展開(kāi),重點(diǎn)闡述了以下三個(gè)關(guān)鍵概念:

1. Token與上下文窗口
Token是大模型處理文本的基本單元,其形式靈活多樣,可能對(duì)應(yīng)完整單詞、詞組或單詞片段(如子詞),這也解釋了大模型能創(chuàng)造新詞的特性。上下文窗口的大小直接決定模型單次可處理的Token數(shù)量,窗口越大,模型能同時(shí)分析的信息范圍越廣,處理復(fù)雜任務(wù)的能力越強(qiáng)。此外,Token數(shù)量通常作為大模型服務(wù)計(jì)費(fèi)的重要依據(jù)。

2. 溫度參數(shù):控制輸出的隨機(jī)性
溫度參數(shù)用于調(diào)節(jié)模型生成結(jié)果的隨機(jī)性強(qiáng)弱。當(dāng)溫度值較高時(shí),模型會(huì)提升選擇非常見(jiàn)詞匯的概率,使輸出更具創(chuàng)造性和多樣性,表現(xiàn)為更'活躍'的應(yīng)答;反之,低溫設(shè)置會(huì)增強(qiáng)確定性,使回答更偏向保守和可預(yù)測(cè),適用于需要嚴(yán)謹(jǐn)性的場(chǎng)景。這一機(jī)制讓開(kāi)發(fā)者能通過(guò)參數(shù)調(diào)節(jié)平衡結(jié)果的創(chuàng)新性與可靠性。

3. 文本向量化處理流程
大模型通過(guò)將文本轉(zhuǎn)換為AI可處理的向量:

  • 嵌入層壓縮:利用嵌入矩陣將高維向量壓縮為低維密集向量,保留語(yǔ)義關(guān)聯(lián)性
    這種轉(zhuǎn)換使文本信息既滿足算法對(duì)向量輸入的要求,又通過(guò)降維提升了計(jì)算效率,同時(shí)捕獲詞匯間的深層語(yǔ)義關(guān)系(如近義詞向量距離相近)。

這些機(jī)制共同支撐著大模型'逐詞生成'的核心功能,通過(guò)調(diào)節(jié)溫度參數(shù)控制生成風(fēng)格,結(jié)合上下文窗口的語(yǔ)義理解范圍,最終實(shí)現(xiàn)類(lèi)人的文本生成效果。

參考資料:

[1] 鄭曄, 《程序員的AI開(kāi)發(fā)第一課》. 極客時(shí)間, 2024.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多