仪表板概述
ActiveMotion 监控仪表板提供对代理性能的实时可见性,涉及四个维度:吞吐量、延迟、质量和成本。吞吐量面板显示可配置时间窗口内的请求量、自主解决率和升级频率。延迟面板显示代理处理、工具调用和端到端解决方案的响应时间百分位。质量面板跟踪推理链准确性、用户满意度信号和错误分类。成本面板监控代币消耗、工具调用量和基础设施利用率。所有面板都支持按代理实例、工作流类型、时间范围和结果类别进行过滤。
警报和事件响应
警报是使用基于阈值的规则引擎定义的,该规则引擎根据可配置的基线评估指标。为常见的降级模式提供了标准警报规则:解决率下降到历史基线以下百分之十以上、平均延迟超过 SLA 阈值、错误率峰值超过百分之一或令牌消耗超出预计预算。警报路由到可配置的渠道,包括 Slack、PagerDuty、电子邮件和 Webhook 端点。每个警报都包含有关触发条件、受影响的代理实例和建议的诊断步骤的上下文。对于关键警报,可以配置自动缓解操作,例如中断降级的集成或将流量路由到后备代理实例。
跟踪级日志记录
每个代理交互都会生成一个分布式跟踪,捕获从请求接收到推理、工具调用、验证和响应交付的完整执行路径。跟踪包括每个跨度的结构化元数据:操作类型、持续时间、输入和输出摘要以及任何错误或重试。可以在内置跟踪浏览器中查看跟踪,也可以将跟踪导出到外部跟踪平台,例如 Jaeger、Zipkin 或 Datadog APM。跟踪浏览器支持按请求属性搜索、按持续时间或错误状态过滤以及比较不同代理版本之间的跟踪以验证性能改进。
SLA 跟踪和报告
SLA 定义可根据工作流程类型进行配置,并指定解决时间、自主解决率、准确性和可用性的目标指标。 SLA 跟踪引擎根据目标持续评估实际性能并保持运行合规性百分比。每周和每月 SLA 报告会自动生成并分发给利益相关者。当 SLA 合规性呈下降趋势时,会在实际违反目标之前触发预警警报,从而使运营团队有时间进行调查和补救。保留历史 SLA 数据用于趋势分析和容量规划,帮助组织预测何时需要额外的座席容量或工作流程优化。