レスポンスの使用量
usage オブジェクトはすべての非ストリーミングレスポンス(およびストリーミングレスポンスの最後のチャンク)で返されます:
Token フィールド
| フィールド | 説明 |
|---|---|
prompt_tokens | 入力 Token の合計(キャッシュされた Token を含む) |
completion_tokens | 出力 Token の合計(推論 Token を含む) |
total_tokens | プロンプト Token + 補完 Token の合計 |
prompt_tokens_details.cached_tokens | プロバイダーのプロンプトキャッシュから提供された Token |
completion_tokens_details.reasoning_tokens | 内部推論に使用された Token(思考モデル) |
completion_tokens_details.accepted_prediction_tokens | 投機的デコードで受け入れられた Token |
completion_tokens_details.rejected_prediction_tokens | 投機的デコードで拒否された Token |
コスト追跡
ARouter は上流プロバイダーが報告する実際の Token 数に基づいて請求します。価格はコストスルーです — 推論マークアップなし。正確なコストを計算するには:ストリーミング使用量
ストリーミングモードでは、最後の SSE チャンクに空のchoices を持つ完全な使用量オブジェクトが含まれます:
stream_options: { include_usage: true } を渡してストリーミング使用量を有効にします。
ダッシュボードレポート
すべての使用量データは アクティビティ ページで以下のフィルタリングと共に確認できます:- 時間帯(1 時間 → 1 年)
- グループ化(モデル、API Key、作成者)