跳转到主要内容
ARouter 将性能作为首要优先级进行设计。网关经过深度优化,将请求延迟增加量降至最低。

最小开销

ARouter 通过以下方式降低延迟:
  • 边缘计算:网关节点在全球部署,尽可能靠近您的应用程序
  • 高效缓存:用户凭证和 API Key 数据在边缘缓存,避免每次请求时都查询数据库
  • 优化路由:服务商选择和密钥池查找被设计为在个位数毫秒内完成
典型请求的网关开销远低于 50 毫秒。

性能注意事项

缓存预热

当边缘缓存处于冷状态时(通常在新部署或新地区后的前 1-2 分钟),您可能会遇到略高的延迟,随着缓存预热会迅速恢复正常。

积分余额检查

为了维护准确的计费并防止超支,在以下情况下 ARouter 会执行额外的数据库检查:
  • 用户的积分余额仅剩个位数美元
  • API Key 接近其配置的积分限额
在这些情况下,缓存会被更积极地失效,增加延迟,直到添加更多积分为止。避免此问题的方法:
  • 保持健康的积分余额(推荐最低:10-20 美元)
  • 设置自动充值或定期计费提醒

多模型路由延迟

使用有序候选模型列表时,如果第一个候选模型不可用,ARouter 会路由到下一个模型。失败的首次尝试会为该请求增加延迟。ARouter 持续跟踪服务商健康状况,并绕过已知不可用的服务商,以最大限度地减少此类情况发生的频率。

最佳实践

1. 使用流式响应

对于面向用户的应用程序,使用流式响应以降低感知延迟。首个 Token 比完整响应更早到达,即使总生成时间相同,也能让应用程序感觉更快。 参阅流式响应

2. 使用提示词缓存

对于包含重复前缀(系统提示词、少样本示例、大型文档)的请求,启用提示词缓存。缓存 Token 以显著更低的延迟和更低的成本提供服务。 参阅提示词缓存

3. 选择合适的模型

更小的模型更快。如果您的使用场景不需要最高能力,较小的模型(例如 google/gemini-2.5-flashanthropic/claude-haiku-4-5)与最大变体相比,可将延迟降低 2-5 倍。

4. 使用 :nitro 服务商变体

对于延迟敏感的工作负载,在模型 ID 后附加 :nitro 以优先选择高吞吐量服务商端点:
{ "model": "anthropic/claude-sonnet-4-6:nitro" }
:nitro 路由到针对最大吞吐量和最低首 Token 时间优化的服务商配置。详情参阅服务商路由

5. 保持健康的积分余额

将积分余额保持在合理门槛以上(≥10 美元)可防止计费检查期间的积极缓存失效,这可能增加可测量的延迟。

性能测量

使用响应头中的 x-response-time(如果存在)或在客户端测量往返时间进行基准测试。ARouter 还在您的活动记录中展示每个请求的延迟数据。