# Token 是什麼?大語言模型 LLM 計費與處理的基本單位定義
在探討大語言模型(LLM)的性能、規格或調用成本時,Token (標記 / 語意片段) 是出現頻率最高的基礎術語。不論是「API 輸入每百萬 Token 收費多少美元」,還是「模型最大支援 128K Token 上下文」,都離不開這項基本單位。
對於初學者與企業採購而言,Token 究竟是什麼?它是如何被計算的?為什麼中英文的計算方式會導致成本差異?本文為您帶來最直白的一針見錯科普。
Token 是大語言模型 (LLM) 處理與計算文字的基本語意單位。當用戶輸入文本時,分詞器 (Tokenizer) 會將句子拆解成碎片化的 Token。一般而言,1 個英文單字約等於 0.75 到 1.3 個 Token,而 1 個繁體中文字則會消耗 1.5 到 2 個 Token。由於主流大模型 API 均是以「每百萬 Token (Per Million Token)」作為輸入與輸出的計費標準,中英文在 Token 消耗比例上的差異,直接導致了繁中應用在調用成本上會顯著高於英文應用。
---
Token 的運作機制:分詞器 (Tokenizer)
大語言模型在本質上並不認識人類的「文字」,它們處理的是「數字(向量)」。因此,當你輸入一段文字給 AI 時,系統會先經過一個叫做 Tokenizer (分詞器) 的預處理程式,把文字切碎成一個個語意片段,並轉換成對應的 Token ID:
輸入文字: "我愛寫程式"
分詞切碎: ["我", "愛", "寫", "程", "式"] 或結合為常用詞
Token IDs: [2394, 1823, 938, 2901, 883]
不同的模型擁有不同的分詞器字典。例如,OpenAI 的 GPT-4o 採用了最新的 tikToken (o200k_base) 字典,而 Qwen 模型則採用了特化中文的字典。分詞字典越大,切分文字的效率就越高。
---
️ 為什麼繁體中文的 Token 成本比英文貴?
這是許多台灣開發者在做財務估算時最常忽略的陷阱:中英文的 Token 效率存在極大差異!
- 英文的效率:
- 繁體中文的效率:
商業影響:
如果一個英文專案的輸入 API 費是 100.00 美元,那麼完全相同語意內容的繁體中文專案,由於 Token 數量膨脹了將近一倍,其 API 帳單可能會飆升至 150.00 美元 到 200.00 美元。這也是為什麼台灣企業在進行大規模調用時,必須更積極地實施 Prompt Cache (提示詞緩存) 與混合模型路由的原因。---
常見的 Token 單位換算公式
為了方便大略估算 API 費用與上下文長度,您可以使用以下概算比例(以 GPT-4o 分詞器為準):
- 1 個中文字 $\approx1.5 美元 ~ 2.0 個 Token
- 1 個英文單字 $\approx1.3 美元 個 Token
- 1 行程式碼 (Code Line) $\approx10 美元 ~ 15 個 Token
- 1 頁雙欄 A4 學術論文 $\approx1,500 美元 ~ 2,000 個 Token
- 1 萬個 Token $\approx$ 約 5,000 到 7,000 個中文字
- 128K Token (標準上下文) $\approx$ 約 7 萬到 9 萬個中文字