响应中的使用量
usage 对象在每个非流式响应(以及流式响应的最后一个数据块)中返回:
Token 字段说明
| 字段 | 说明 |
|---|---|
prompt_tokens | 输入 Token 总数(包含缓存 Token) |
completion_tokens | 输出 Token 总数(包含推理 Token) |
total_tokens | 提示词 Token + 补全 Token 之和 |
prompt_tokens_details.cached_tokens | 从服务商提示词缓存中获取的 Token |
completion_tokens_details.reasoning_tokens | 用于内部推理的 Token(思考模型) |
completion_tokens_details.accepted_prediction_tokens | 推测解码接受的 Token |
completion_tokens_details.rejected_prediction_tokens | 推测解码拒绝的 Token |
成本追踪
ARouter 根据上游服务商报告的实际 Token 数量计费,价格按成本透传,不附加推理加价。计算精确成本的公式:流式响应中的使用量
在流式模式下,最后一个 SSE 数据块包含完整的使用量对象,choices 为空:
stream_options: { include_usage: true } 来启用流式使用量统计。
控制台报告
所有使用量数据均可在活动页面查看,支持按以下条件筛选:- 时间段(1 小时 → 1 年)
- 分组方式(模型、API Key、创建者)