メインコンテンツへスキップ
ARouter はパフォーマンスを最優先として設計されています。ゲートウェイはリクエストへのオーバーヘッドを最小限に抑えるよう徹底的に最適化されています。

最小オーバーヘッド

ARouter は以下によってレイテンシを最小化します:
  • エッジコンピューティング: ゲートウェイノードはアプリケーションにできる限り近い場所に世界規模でデプロイされています
  • 効率的なキャッシング: ユーザー認証情報と API Key データはエッジにキャッシュされ、リクエストごとのデータベースアクセスを回避します
  • 最適化されたルーティング: プロバイダー選択とキープール検索は、一桁ミリ秒で完了するよう設計されています
典型的なリクエストのゲートウェイオーバーヘッドは 50ms をはるかに下回ります。

パフォーマンスに関する考慮事項

キャッシュウォームアップ

エッジキャッシュがコールドの場合(通常、デプロイ後または新しいリージョンでの最初の 1-2 分間)、キャッシュがウォームアップするにつれてすぐに正常化する、わずかに高いレイテンシが発生する可能性があります。

クレジット残高チェック

正確な請求を維持し超過を防ぐために、以下の場合に ARouter は追加のデータベースチェックを実行します:
  • ユーザーのクレジット残高が一桁ドル台になった場合
  • API Key が設定されたクレジット制限に近づいた場合
これらの条件下では、キャッシュがより積極的に無効化され、クレジットが追加されるまでレイテンシが増加します。これを回避するには:
  • 健全なクレジット残高を維持する(推奨最低額:$10〜20)
  • 自動チャージや定期的な請求アラートを設定する

マルチモデルルーティングのレイテンシ

順序付きの候補モデルリスト を使用する場合、最初の候補が利用できない場合、ARouter は次のモデルにルーティングします。最初の試みの失敗により、そのリクエストにレイテンシが追加されます。ARouter はプロバイダーのヘルス状態を継続的に追跡し、既知の利用不可プロバイダーを避けてルーティングすることで、この発生頻度を最小化します。

ベストプラクティス

1. ストリーミングを使用する

ユーザー向けアプリケーションでは、ストリーミングレスポンスを使用して体感レイテンシを削減します。最初のトークンは完全なレスポンスよりも早く届くため、総生成時間が同じでもアプリケーションがより速く感じられます。 ストリーミング を参照してください。

2. プロンプトキャッシングを使用する

繰り返しのプレフィックス(システムプロンプト、フューショット例、大きなドキュメント)を持つリクエストには、プロンプトキャッシングを有効にします。キャッシュされたトークンは大幅に低いレイテンシと低コストで提供されます。 プロンプトキャッシング を参照してください。

3. 適切なモデルを選択する

小さいモデルはより速いです。ユースケースが最高の能力を必要としない場合、小さいモデル(例:google/gemini-2.5-flashanthropic/claude-haiku-4-5)は最大バリアントと比較してレイテンシを 2〜5 倍削減できます。

4. :nitro プロバイダーバリアントを使用する

レイテンシが重要なワークロードでは、モデル ID に :nitro を付加して高スループットのプロバイダーエンドポイントを優先します:
{ "model": "anthropic/claude-sonnet-4-6:nitro" }
:nitro は最大スループットと最低の最初のトークン時間に最適化されたプロバイダー構成にルーティングします。詳細は プロバイダールーティング を参照してください。

5. 健全なクレジット残高を維持する

クレジット残高を合理的な閾値以上(≥$10)に保つことで、請求チェック時の積極的なキャッシュ無効化を防ぎ、測定可能なレイテンシの追加を回避できます。

パフォーマンスの測定

x-response-time レスポンスヘッダー(存在する場合)を使用するか、クライアントでラウンドトリップ時間を測定してベンチマークします。ARouter は アクティビティ フィードでリクエストごとのレイテンシデータも表示します。