仕組み
ARouter はすべてのプロバイダーのレスポンスタイム、エラーレート、可用性をリアルタイムで追跡します。このデータはインテリジェントなルーティング決定を駆動し、アクティビティ フィードで信頼性情報を表示します。 プロバイダーでパフォーマンス低下や障害が発生すると、ARouter は自動的にルーティング重みを調整してそのプロバイダーの優先度を下げます — あなた側での変更は不要です。ARouter が監視するもの
各プロバイダーとモデルについて、ARouter は継続的に追跡します:- 成功率: エラーなく完了したリクエストの割合
- 最初のトークンまでの時間 (TTFT): リクエスト送信から最初のストリーミングトークンまでのレイテンシ
- 総レスポンス時間: 非ストリーミングレスポンスのエンドツーエンドレイテンシ
- エラータイプ: 一時的エラー(5xx、レート制限)と永続的エラー(無効なモデル、不正なリクエスト)を区別
障害時の自動ルーティング
ARouter がプロバイダーの低下を検出すると:- プロバイダーのルーティング重みが一時的に削減またはゼロになります
- 後続のリクエストは同じモデルファミリーを提供する他の健全なプロバイダーにルーティングされます
- プロバイダーは定期的に再評価され、ヘルスメトリクスが回復したら再導入されます
高可用性のためのカスタマイズ
順序付きの候補モデルリストを使用する
重要なワークロードには、順序付きのモデルリストを指定します。ARouter は成功するまで順番に各モデルを試みます:自動ルーティングを使用する
model: "auto" を設定して、ARouter が現在のプロバイダーヘルス、コスト、能力に基づいて最適な利用可能モデルを動的に選択するようにします:
コスト安定ルーティングに :floor を使用する
:floor サフィックスはモデルを提供する最低コストのプロバイダーにルーティングします。これはデフォルトとは異なるプロバイダーになることが多く、自然な多様性を提供します: