運作原理
ARouter 即時追蹤所有服務商的回應時間、錯誤率和可用性。這些資料驅動智慧路由決策,並在您的活動記錄中提供可靠性資訊。 當某個服務商出現效能下降或中斷時,ARouter 會自動調整路由權重以降低該服務商的優先級——無需您進行任何更改。ARouter 的監控內容
ARouter 對每個服務商和模型持續追蹤:- 成功率:無錯誤完成的請求百分比
- 首 Token 時間(TTFT):從提交請求到第一個串流 Token 的延遲
- 總回應時間:非串流回應的端對端延遲
- 錯誤類型:區分暫態錯誤(5xx、速率限制)和永久錯誤(無效模型、錯誤請求)
中斷時的自動路由
當 ARouter 偵測到某個服務商效能下降時:- 該服務商的路由權重暫時降低或清零
- 後續請求被路由到提供相同模型系列的其他健康服務商
- 該服務商會定期被重新評估,健康指標恢復後重新納入路由
自訂以提高可用性
使用有序候選模型列表
對於關鍵工作負載,指定一個有序的模型列表。ARouter 按序嘗試每個模型直到成功:使用自動路由
將model 設為 "auto",讓 ARouter 根據當前服務商健康狀況、成本和能力動態選擇最佳可用模型:
使用 :floor 進行成本穩定路由
:floor 後綴路由到提供某模型的最低成本服務商,通常與預設服務商不同——提供天然的多樣性: