AI 算力評測與選型方法論 | 天智算力 Tenzorouter

大模型（LLM）的基準測試跑分（如 MMLU、GSM8K）雖然眾多，但往往脫離企業商用的實際環境。天智算力 Tenzorouter 平台創立了一套契合在地開發者、關注商用成本與系統延遲的實測方法論。

本頁面公開說明我們如何收集數據、測試模型，以及平台計算器背後的演算法公式。

三大核心評測維度

我們在台北設置獨立的雲端伺服器節點，每 6 小時對各大 API 廠商進行高頻併發調用測試，並記錄以下核心延遲指標：

TTFT (Time to First Token) 首字延遲：從發送 API 請求到模型返回第一個字元的時間。這直接影響聊天機器人與智慧客服的用戶體驗。
TPOT (Time Per Output Token) 逐字輸出延遲：模型輸出每一個 Token 平均所需的毫秒數。這反映了模型在高長度文本生成時的吞吐速度。
連線抖動：評估長時間運行下（如 8 小時），API 出口頻寬是否會出現頻繁的超時（Timeout）或封包遺失。

為了解決西方學術跑分「不接地氣」的問題，天智算力獨立維護了一套擁有 1,500 個真實中文提示詞的 TW-Eval 基準測試集，涵蓋以下四大核心方向：

用語正確性：測試模型是否會主動將用語翻譯成台灣習慣說法（如將「程序」寫成「程式」、「源碼」寫成「原始碼」、「信息」寫成「訊息」）。
在地政經知識：評測模型對台灣法律法規（如勞基法）、稅制以及在地商務環境的熟悉度。
長文本檢索召回 (Needle In A Haystack)：將繁體中文的關鍵句隱藏在 10 萬字以上的文件中，測試模型能否百分之百精確召回，反映長文合約審查能力。

我們的費用計算器不是死板地將「字數等於 Token」進行相乘，而是引入了高度還原商用扣減的計費演算法：

繁中分詞比率 (Tokenizer Ratio)：根據不同分詞器（如 OpenAI o1/gpt-4o 的 `cl100k_base`、`o200k_base`，以及 Qwen 的分詞器），自動帶入不同的繁中分詞權重率（例如 1 個中文字折合為 1.3 至 1.8 個 Token）。
快取緩存扣減 (Prompt Cache)：自動計算當 System Prompt、企業資料庫知識（RAG）被重用時，命中 Cache 扣減後的輸入 API 單價（例如 DeepSeek 命中快取可省下約 90% 輸入成本）。
推理思考 Token (Reasoning Tokens)：將思考推理型模型（如 DeepSeek-R1、OpenAI o1）產生的隱藏推理 Token 計入輸出計費中，確保財務預算不失真。

評測軟硬體配置

所有延遲測試皆基於 Linux Server 台北機房直連各官方 API（非經過第三方中轉代理）；在地化推理評測則由天智算力編輯部人工抽樣，確保評分的公正性與人工核驗（RLHF）的準確。