評測與選型方法論

作者:天智算力評測實驗室|更新日期:2026-06-24

大模型(LLM)的基準測試跑分(如 MMLU、GSM8K)雖然眾多,但往往脫離企業商用的實際環境。天智算力 Tenzorouter 平台創立了一套契合在地開發者、關注商用成本與系統延遲的實測方法論。

本頁面公開說明我們如何收集數據、測試模型,以及平台計算器背後的演算法公式。

三大核心評測維度

1. 台灣連線延遲監控 (Edge Latency)

我們在台北設置獨立的雲端伺服器節點,每 6 小時對各大 API 廠商進行高頻併發調用測試,並記錄以下核心延遲指標:

2. TW-Eval 在地化繁中測試集

為了解決西方學術跑分「不接地氣」的問題,天智算力獨立維護了一套擁有 1,500 個真實中文提示詞的 TW-Eval 基準測試集,涵蓋以下四大核心方向:

  1. 用語正確性:測試模型是否會主動將用語翻譯成台灣習慣說法(如將「程序」寫成「程式」、「源碼」寫成「原始碼」、「信息」寫成「訊息」)。
  2. 在地政經知識:評測模型對台灣法律法規(如勞基法)、稅制以及在地商務環境的熟悉度。
  3. 長文本檢索召回 (Needle In A Haystack):將繁體中文的關鍵句隱藏在 10 萬字以上的文件中,測試模型能否百分之百精確召回,反映長文合約審查能力。

3. API 定價與 Prompt Cache 折減折算

我們的費用計算器不是死板地將「字數等於 Token」進行相乘,而是引入了高度還原商用扣減的計費演算法:

評測軟硬體配置

所有延遲測試皆基於 Linux Server 台北機房直連各官方 API(非經過第三方中轉代理);在地化推理評測則由天智算力編輯部人工抽樣,確保評分的公正性與人工核驗(RLHF)的準確。