跳轉到主要內容
ARouter 將效能作為首要優先事項進行設計。網關經過深度最佳化,將請求延遲增加量降至最低。

最小開銷

ARouter 透過以下方式降低延遲:
  • 邊緣運算:網關節點在全球部署,盡可能靠近您的應用程式
  • 高效快取:使用者憑證和 API Key 資料在邊緣快取,避免每次請求時都查詢資料庫
  • 最佳化路由:服務商選擇和金鑰池查詢被設計為在個位數毫秒內完成
典型請求的網關開銷遠低於 50 毫秒。

效能注意事項

快取預熱

當邊緣快取處於冷狀態時(通常在新部署或新地區後的前 1-2 分鐘),您可能會遇到略高的延遲,隨著快取預熱會迅速恢復正常。

點數餘額檢查

為了維護準確的計費並防止超支,在以下情況下 ARouter 會執行額外的資料庫檢查:
  • 使用者的點數餘額僅剩個位數美元
  • API Key 接近其設定的點數限制
在這些情況下,快取會被更積極地失效,增加延遲,直到新增更多點數為止。避免此問題的方法:
  • 保持健康的點數餘額(推薦最低:10-20 美元)
  • 設定自動加值或定期計費提醒

多模型路由延遲

使用有序候選模型列表時,如果第一個候選模型不可用,ARouter 會路由到下一個模型。失敗的首次嘗試會為該請求增加延遲。ARouter 持續追蹤服務商健康狀況,並繞過已知不可用的服務商,以最大程度地減少此類情況發生的頻率。

最佳實踐

1. 使用串流回應

對於面向使用者的應用程式,使用串流回應以降低感知延遲。首個 Token 比完整回應更早到達,即使總生成時間相同,也能讓應用程式感覺更快。 參閱串流回應

2. 使用提示詞快取

對於包含重複前綴(系統提示詞、少樣本範例、大型文件)的請求,啟用提示詞快取。快取 Token 以顯著更低的延遲和更低的成本提供服務。 參閱提示詞快取

3. 選擇合適的模型

更小的模型更快。如果您的使用場景不需要最高能力,較小的模型(例如 google/gemini-2.5-flashanthropic/claude-haiku-4-5)與最大變體相比,可將延遲降低 2-5 倍。

4. 使用 :nitro 服務商變體

對於延遲敏感的工作負載,在模型 ID 後附加 :nitro 以優先選擇高吞吐量服務商端點:
{ "model": "anthropic/claude-sonnet-4-6:nitro" }
:nitro 路由到針對最大吞吐量和最低首 Token 時間最佳化的服務商設定。詳情參閱服務商路由

5. 保持健康的點數餘額

將點數餘額保持在合理門檻以上(≥10 美元)可防止計費檢查期間的積極快取失效,這可能增加可測量的延遲。

效能測量

使用回應標頭中的 x-response-time(如果存在)或在客戶端測量來回時間進行基準測試。ARouter 還在您的活動記錄中展示每個請求的延遲資料。