回應中的使用量
usage 物件在每個非串流回應(以及串流回應的最後一個資料區塊)中回傳:
Token 欄位說明
| 欄位 | 說明 |
|---|---|
prompt_tokens | 輸入 Token 總數(包含快取 Token) |
completion_tokens | 輸出 Token 總數(包含推理 Token) |
total_tokens | 提示詞 Token + 補全 Token 之和 |
prompt_tokens_details.cached_tokens | 從服務商提示詞快取中取得的 Token |
completion_tokens_details.reasoning_tokens | 用於內部推理的 Token(思考模型) |
completion_tokens_details.accepted_prediction_tokens | 推測解碼接受的 Token |
completion_tokens_details.rejected_prediction_tokens | 推測解碼拒絕的 Token |
成本追蹤
ARouter 根據上游服務商回報的實際 Token 數量計費,價格按成本直通,不附加推理加價。計算精確成本的公式:串流回應中的使用量
在串流模式下,最後一個 SSE 資料區塊包含完整的使用量物件,choices 為空:
stream_options: { include_usage: true } 以啟用串流使用量統計。
控制台報告
所有使用量資料均可在活動頁面查看,支援依以下條件篩選:- 時間段(1 小時 → 1 年)
- 分組方式(模型、API Key、建立者)