大模型(LLM)的基準測試跑分(如 MMLU、GSM8K)雖然眾多,但往往脫離企業商用的實際環境。天智算力 Tenzorouter 平台創立了一套契合在地開發者、關注商用成本與系統延遲的實測方法論。
本頁面公開說明我們如何收集數據、測試模型,以及平台計算器背後的演算法公式。
三大核心評測維度
1. 台灣連線延遲監控 (Edge Latency)
我們在台北設置獨立的雲端伺服器節點,每 6 小時對各大 API 廠商進行高頻併發調用測試,並記錄以下核心延遲指標:
- TTFT (Time to First Token) 首字延遲:從發送 API 請求到模型返回第一個字元的時間。這直接影響聊天機器人與智慧客服的用戶體驗。
- TPOT (Time Per Output Token) 逐字輸出延遲:模型輸出每一個 Token 平均所需的毫秒數。這反映了模型在高長度文本生成時的吞吐速度。
- 連線抖動:評估長時間運行下(如 8 小時),API 出口頻寬是否會出現頻繁的超時(Timeout)或封包遺失。
2. TW-Eval 在地化繁中測試集
為了解決西方學術跑分「不接地氣」的問題,天智算力獨立維護了一套擁有 1,500 個真實中文提示詞的 TW-Eval 基準測試集,涵蓋以下四大核心方向:
- 用語正確性:測試模型是否會主動將用語翻譯成台灣習慣說法(如將「程序」寫成「程式」、「源碼」寫成「原始碼」、「信息」寫成「訊息」)。
- 在地政經知識:評測模型對台灣法律法規(如勞基法)、稅制以及在地商務環境的熟悉度。
- 長文本檢索召回 (Needle In A Haystack):將繁體中文的關鍵句隱藏在 10 萬字以上的文件中,測試模型能否百分之百精確召回,反映長文合約審查能力。
3. API 定價與 Prompt Cache 折減折算
我們的費用計算器不是死板地將「字數等於 Token」進行相乘,而是引入了高度還原商用扣減的計費演算法:
- 繁中分詞比率 (Tokenizer Ratio):根據不同分詞器(如 OpenAI o1/gpt-4o 的 `cl100k_base`、`o200k_base`,以及 Qwen 的分詞器),自動帶入不同的繁中分詞權重率(例如 1 個中文字折合為 1.3 至 1.8 個 Token)。
- 快取緩存扣減 (Prompt Cache):自動計算當 System Prompt、企業資料庫知識(RAG)被重用時,命中 Cache 扣減後的輸入 API 單價(例如 DeepSeek 命中快取可省下約 90% 輸入成本)。
- 推理思考 Token (Reasoning Tokens):將思考推理型模型(如 DeepSeek-R1、OpenAI o1)產生的隱藏推理 Token 計入輸出計費中,確保財務預算不失真。
評測軟硬體配置
所有延遲測試皆基於 Linux Server 台北機房直連各官方 API(非經過第三方中轉代理);在地化推理評測則由天智算力編輯部人工抽樣,確保評分的公正性與人工核驗(RLHF)的準確。