Context Window 是什麼？上下文窗口長度與限制定義

# Context Window 是什麼？上下文窗口長度與限制定義

在評估大語言模型（LLM）的技術指標時，Context Window (上下文窗口) 與參數規模一樣，是決定模型能夠處理多複雜任務的最關鍵技術指標。

許多人常把上下文窗口與大模型的生成長度混為一談。本文將為您提供最精準的上下文窗口技術定義，並說明其在實務開發上的底層技術限制。

天智算力學術釋義結論

Context Window (上下文窗口) 是大語言模型 (LLM) 在單次對話中所能讀取並記住的最大 Token 總量上限，涵蓋了 System Prompt、對話歷史、新增問題以及 AI 輸出的答案。當輸入內容超出此窗口上限時，模型會採取截斷策略，自動遺忘最前方的對話資訊。2026 年主流模型的上下文窗口在 128K 至 200 萬 Token 之間，但需注意，上下文窗口 (Context Window) 與最大輸出長度 (Max Output Limit) 是兩個獨立的限制指標，後者通常僅有 4K 至 16K Token。

---

上下文窗口的技術構成

當你調用 API 發送一個請求時，大模型的注意力機制（Attention Mechanism）會同時掃描並計算以下四個部分的 Token 總量。這四個部分的加總，絕對不能超過該模型的 Context Window 上限：

$$\text{總 Context 消耗} = \text{System Prompt} + \text{歷史對話記錄} + \text{當前用戶問題} + \text{AI 即將產生的回答}$$

當超出窗口時會發生什麼事？

如果總 Token 數超標，大模型客戶端（如 Chat 界面）通常會採取 Sliding Window (滑動窗口) 機制，自動切除最前面的對話歷史。這會導致 AI 出現「失憶」現象，例如忘記先前指定的輸出格式或對話主題。

---

️ 開發者必須分清的技術限制：輸入 vs 輸出

在 2026 年，許多模型宣稱支援 100 萬（1M）甚至是 200 萬（2M）的上下文窗口。然而，這僅指 Input Context Window (輸入窗口)。

大模型還有另一個獨立且通常小得多的限制，稱為 Max Output Limit / Generation Limit (最大輸出限制)：

Google Gemini Pro 2.0：輸入上下文窗口為 2,000,000 Token，但單次最大輸出 Token 僅支援 8,192 Token。
Claude 3.5 Sonnet：輸入上下文窗口為 200,000 Token，單次最大輸出限制為 8,192 Token（API 支援最大擴展至 16K）。
GPT-4o：輸入上下文窗口為 128,000 Token，單次最大輸出為 4,096 Token。

這意味著，你可以一次丟給 AI 一本 20 萬字的小說（輸入），但你不能要求它在單次回答中吐出超過 5,000 字的長文（輸出）。如果需要 AI 撰寫超長內容，開發者必須在代碼中設計「分段寫作與接力生成」的工作流。

---

上下文窗口的運算瓶頸與 RoPE 技術

為什麼以前的模型上下文窗口只有 4K（如 2022 年的 GPT-3），而現在能做到 100 萬以上？

底層原因在於 Transformer 架構的注意力機制運作時，其記憶體與運算複雜度會隨著 Token 長度呈二次方比例 ($O(N^2)$) 增長。當上下文變長時，GPU 顯存會迅速被 KV Cache（鍵值緩存）塞滿。

2026 年的模型能夠支持百萬級上下文，得益於以下技術突破：
1. RoPE (旋轉位置編碼) 插值演算法：允許模型在不重新訓練的情況下，動態擴展外推其長度感知能力。
2. FlashAttention 3：極大化優化了 GPU 的 SRAM 讀寫速度，降低了長文本的運算時間。
3. Prompt Cache：將靜態的 Context 預先計算並保存在記憶體中，避免每次都要重複計算 $O(N^2)$ 的注意力矩陣，從而將首字響應延遲 (TTFT) 降低了 90% 以上。

上下文窗口的技術構成

️ 開發者必須分清的技術限制：輸入 vs 輸出

上下文窗口的運算瓶頸與 RoPE 技術

相關詞條推薦