レイテンシとパフォーマンス

ARouter はパフォーマンスを最優先として設計されています。ゲートウェイはリクエストへのオーバーヘッドを最小限に抑えるよう徹底的に最適化されています。

最小オーバーヘッド

ARouter は以下によってレイテンシを最小化します：

エッジコンピューティング: ゲートウェイノードはアプリケーションにできる限り近い場所に世界規模でデプロイされています
効率的なキャッシング: ユーザー認証情報と API Key データはエッジにキャッシュされ、リクエストごとのデータベースアクセスを回避します
最適化されたルーティング: プロバイダー選択とキープール検索は、一桁ミリ秒で完了するよう設計されています

典型的なリクエストのゲートウェイオーバーヘッドは 50ms をはるかに下回ります。

パフォーマンスに関する考慮事項

キャッシュウォームアップ

エッジキャッシュがコールドの場合（通常、デプロイ後または新しいリージョンでの最初の 1-2 分間）、キャッシュがウォームアップするにつれてすぐに正常化する、わずかに高いレイテンシが発生する可能性があります。

クレジット残高チェック

正確な請求を維持し超過を防ぐために、以下の場合に ARouter は追加のデータベースチェックを実行します：

ユーザーのクレジット残高が一桁ドル台になった場合
API Key が設定されたクレジット制限に近づいた場合

これらの条件下では、キャッシュがより積極的に無効化され、クレジットが追加されるまでレイテンシが増加します。これを回避するには：

健全なクレジット残高を維持する（推奨最低額：$10〜20）
自動チャージや定期的な請求アラートを設定する

マルチモデルルーティングのレイテンシ

順序付きの候補モデルリストを使用する場合、最初の候補が利用できない場合、ARouter は次のモデルにルーティングします。最初の試みの失敗により、そのリクエストにレイテンシが追加されます。ARouter はプロバイダーのヘルス状態を継続的に追跡し、既知の利用不可プロバイダーを避けてルーティングすることで、この発生頻度を最小化します。

ベストプラクティス

1. ストリーミングを使用する

ユーザー向けアプリケーションでは、ストリーミングレスポンスを使用して体感レイテンシを削減します。最初のトークンは完全なレスポンスよりも早く届くため、総生成時間が同じでもアプリケーションがより速く感じられます。ストリーミングを参照してください。

2. プロンプトキャッシングを使用する

繰り返しのプレフィックス（システムプロンプト、フューショット例、大きなドキュメント）を持つリクエストには、プロンプトキャッシングを有効にします。キャッシュされたトークンは大幅に低いレイテンシと低コストで提供されます。プロンプトキャッシングを参照してください。

3. 適切なモデルを選択する

小さいモデルはより速いです。ユースケースが最高の能力を必要としない場合、小さいモデル（例：google/gemini-2.5-flash、anthropic/claude-haiku-4-5）は最大バリアントと比較してレイテンシを 2〜5 倍削減できます。

4. `:nitro` プロバイダーバリアントを使用する

レイテンシが重要なワークロードでは、モデル ID に :nitro を付加して高スループットのプロバイダーエンドポイントを優先します：

{ "model": "anthropic/claude-sonnet-4-6:nitro" }

:nitro は最大スループットと最低の最初のトークン時間に最適化されたプロバイダー構成にルーティングします。詳細はプロバイダールーティングを参照してください。

5. 健全なクレジット残高を維持する

クレジット残高を合理的な閾値以上（≥$10）に保つことで、請求チェック時の積極的なキャッシュ無効化を防ぎ、測定可能なレイテンシの追加を回避できます。

パフォーマンスの測定

x-response-time レスポンスヘッダー（存在する場合）を使用するか、クライアントでラウンドトリップ時間を測定してベンチマークします。ARouter はアクティビティフィードでリクエストごとのレイテンシデータも表示します。

Documentation Index

​最小オーバーヘッド

​パフォーマンスに関する考慮事項

​キャッシュウォームアップ

​クレジット残高チェック

​マルチモデルルーティングのレイテンシ

​ベストプラクティス

​1. ストリーミングを使用する

​2. プロンプトキャッシングを使用する

​3. 適切なモデルを選択する

​4. :nitro プロバイダーバリアントを使用する

​5. 健全なクレジット残高を維持する

​パフォーマンスの測定