延迟与性能 - ARouter

ARouter 将性能作为首要优先级进行设计。网关经过深度优化，将请求延迟增加量降至最低。

最小开销

ARouter 通过以下方式降低延迟：

边缘计算：网关节点在全球部署，尽可能靠近您的应用程序
高效缓存：用户凭证和 API Key 数据在边缘缓存，避免每次请求时都查询数据库
优化路由：服务商选择和密钥池查找被设计为在个位数毫秒内完成

典型请求的网关开销远低于 50 毫秒。

性能注意事项

缓存预热

当边缘缓存处于冷状态时（通常在新部署或新地区后的前 1-2 分钟），您可能会遇到略高的延迟，随着缓存预热会迅速恢复正常。

积分余额检查

为了维护准确的计费并防止超支，在以下情况下 ARouter 会执行额外的数据库检查：

用户的积分余额仅剩个位数美元
API Key 接近其配置的积分限额

在这些情况下，缓存会被更积极地失效，增加延迟，直到添加更多积分为止。避免此问题的方法：

保持健康的积分余额（推荐最低：10-20 美元）
设置自动充值或定期计费提醒

多模型路由延迟

使用有序候选模型列表时，如果第一个候选模型不可用，ARouter 会路由到下一个模型。失败的首次尝试会为该请求增加延迟。ARouter 持续跟踪服务商健康状况，并绕过已知不可用的服务商，以最大限度地减少此类情况发生的频率。

最佳实践

1. 使用流式响应

对于面向用户的应用程序，使用流式响应以降低感知延迟。首个 Token 比完整响应更早到达，即使总生成时间相同，也能让应用程序感觉更快。参阅流式响应。

2. 使用提示词缓存

对于包含重复前缀（系统提示词、少样本示例、大型文档）的请求，启用提示词缓存。缓存 Token 以显著更低的延迟和更低的成本提供服务。参阅提示词缓存。

3. 选择合适的模型

更小的模型更快。如果您的使用场景不需要最高能力，较小的模型（例如 google/gemini-2.5-flash、anthropic/claude-haiku-4-5）与最大变体相比，可将延迟降低 2-5 倍。

4. 使用 `:nitro` 服务商变体

对于延迟敏感的工作负载，在模型 ID 后附加 :nitro 以优先选择高吞吐量服务商端点：

{ "model": "anthropic/claude-sonnet-4-6:nitro" }

:nitro 路由到针对最大吞吐量和最低首 Token 时间优化的服务商配置。详情参阅服务商路由。

5. 保持健康的积分余额

将积分余额保持在合理门槛以上（≥10 美元）可防止计费检查期间的积极缓存失效，这可能增加可测量的延迟。

性能测量

使用响应头中的 x-response-time（如果存在）或在客户端测量往返时间进行基准测试。ARouter 还在您的活动记录中展示每个请求的延迟数据。

Documentation Index

​最小开销

​性能注意事项

​缓存预热

​积分余额检查

​多模型路由延迟

​最佳实践

​1. 使用流式响应

​2. 使用提示词缓存

​3. 选择合适的模型

​4. 使用 :nitro 服务商变体

​5. 保持健康的积分余额

​性能测量