最小オーバーヘッド
ARouter は以下によってレイテンシを最小化します:- エッジコンピューティング: ゲートウェイノードはアプリケーションにできる限り近い場所に世界規模でデプロイされています
- 効率的なキャッシング: ユーザー認証情報と API Key データはエッジにキャッシュされ、リクエストごとのデータベースアクセスを回避します
- 最適化されたルーティング: プロバイダー選択とキープール検索は、一桁ミリ秒で完了するよう設計されています
パフォーマンスに関する考慮事項
キャッシュウォームアップ
エッジキャッシュがコールドの場合(通常、デプロイ後または新しいリージョンでの最初の 1-2 分間)、キャッシュがウォームアップするにつれてすぐに正常化する、わずかに高いレイテンシが発生する可能性があります。クレジット残高チェック
正確な請求を維持し超過を防ぐために、以下の場合に ARouter は追加のデータベースチェックを実行します:- ユーザーのクレジット残高が一桁ドル台になった場合
- API Key が設定されたクレジット制限に近づいた場合
- 健全なクレジット残高を維持する(推奨最低額:$10〜20)
- 自動チャージや定期的な請求アラートを設定する
マルチモデルルーティングのレイテンシ
順序付きの候補モデルリスト を使用する場合、最初の候補が利用できない場合、ARouter は次のモデルにルーティングします。最初の試みの失敗により、そのリクエストにレイテンシが追加されます。ARouter はプロバイダーのヘルス状態を継続的に追跡し、既知の利用不可プロバイダーを避けてルーティングすることで、この発生頻度を最小化します。ベストプラクティス
1. ストリーミングを使用する
ユーザー向けアプリケーションでは、ストリーミングレスポンスを使用して体感レイテンシを削減します。最初のトークンは完全なレスポンスよりも早く届くため、総生成時間が同じでもアプリケーションがより速く感じられます。 ストリーミング を参照してください。2. プロンプトキャッシングを使用する
繰り返しのプレフィックス(システムプロンプト、フューショット例、大きなドキュメント)を持つリクエストには、プロンプトキャッシングを有効にします。キャッシュされたトークンは大幅に低いレイテンシと低コストで提供されます。 プロンプトキャッシング を参照してください。3. 適切なモデルを選択する
小さいモデルはより速いです。ユースケースが最高の能力を必要としない場合、小さいモデル(例:google/gemini-2.5-flash、anthropic/claude-haiku-4-5)は最大バリアントと比較してレイテンシを 2〜5 倍削減できます。
4. :nitro プロバイダーバリアントを使用する
レイテンシが重要なワークロードでは、モデル ID に :nitro を付加して高スループットのプロバイダーエンドポイントを優先します:
:nitro は最大スループットと最低の最初のトークン時間に最適化されたプロバイダー構成にルーティングします。詳細は プロバイダールーティング を参照してください。
5. 健全なクレジット残高を維持する
クレジット残高を合理的な閾値以上(≥$10)に保つことで、請求チェック時の積極的なキャッシュ無効化を防ぎ、測定可能なレイテンシの追加を回避できます。パフォーマンスの測定
x-response-time レスポンスヘッダー(存在する場合)を使用するか、クライアントでラウンドトリップ時間を測定してベンチマークします。ARouter は アクティビティ フィードでリクエストごとのレイテンシデータも表示します。