稼働時間の最適化

ARouter はすべての上流 AI プロバイダーのヘルスと可用性を継続的に監視し、アプリケーションの最大稼働時間を確保します。

仕組み

ARouter はすべてのプロバイダーのレスポンスタイム、エラーレート、可用性をリアルタイムで追跡します。このデータはインテリジェントなルーティング決定を駆動し、アクティビティフィードで信頼性情報を表示します。プロバイダーでパフォーマンス低下や障害が発生すると、ARouter は自動的にルーティング重みを調整してそのプロバイダーの優先度を下げます — あなた側での変更は不要です。

ARouter が監視するもの

各プロバイダーとモデルについて、ARouter は継続的に追跡します：

成功率: エラーなく完了したリクエストの割合
最初のトークンまでの時間 (TTFT): リクエスト送信から最初のストリーミングトークンまでのレイテンシ
総レスポンス時間: 非ストリーミングレスポンスのエンドツーエンドレイテンシ
エラータイプ: 一時的エラー（5xx、レート制限）と永続的エラー（無効なモデル、不正なリクエスト）を区別

障害時の自動ルーティング

ARouter がプロバイダーの低下を検出すると：

プロバイダーのルーティング重みが一時的に削減またはゼロになります
後続のリクエストは同じモデルファミリーを提供する他の健全なプロバイダーにルーティングされます
プロバイダーは定期的に再評価され、ヘルスメトリクスが回復したら再導入されます

これは透過的に行われます — プロバイダーインシデント中もリクエストは成功し続けます。

高可用性のためのカスタマイズ

順序付きの候補モデルリストを使用する

重要なワークロードには、順序付きのモデルリストを指定します。ARouter は成功するまで順番に各モデルを試みます：

{
  "models": [
    "anthropic/claude-sonnet-4-6",
    "openai/gpt-5.4",
    "google/gemini-2.5-pro"
  ],
  "route": "fallback"
}

これにより、プライマリモデルのプロバイダーが完全に利用不可能な場合でも、アプリケーションは動作し続けます。完全な設定リファレンスはモデルルーティングを参照してください。

自動ルーティングを使用する

model: "auto" を設定して、ARouter が現在のプロバイダーヘルス、コスト、能力に基づいて最適な利用可能モデルを動的に選択するようにします：

{ "model": "auto" }

モデルルーティング — 自動ルーティングを参照してください。

コスト安定ルーティングに `:floor` を使用する

:floor サフィックスはモデルを提供する最低コストのプロバイダーにルーティングします。これはデフォルトとは異なるプロバイダーになることが多く、自然な多様性を提供します：

{ "model": "anthropic/claude-sonnet-4-6:floor" }

プロバイダーヘルスの監視

ARouter ダッシュボードでリアルタイムのプロバイダーヘルスデータを確認できます。ダッシュボードはモデルごとの可用性とレイテンシのトレンドを表示するため、ワークロードに対するモデル選択について情報に基づいた決定を行えます。

​仕組み

​ARouter が監視するもの

​障害時の自動ルーティング

​高可用性のためのカスタマイズ

​順序付きの候補モデルリストを使用する

​自動ルーティングを使用する

​コスト安定ルーティングに :floor を使用する

​プロバイダーヘルスの監視

仕組み