Opérations

Surveillance et observabilité

Présentation du tableau de bord

Le tableau de bord de surveillance ActiveMotion offre une visibilité en temps réel sur les performances des agents sur quatre dimensions : débit, latence, qualité et coût. Le panneau de débit affiche le volume des demandes, le taux de résolution autonome et la fréquence d'escalade sur des fenêtres temporelles configurables. Le panneau de latence affiche les percentiles des temps de réponse pour le traitement des agents, les appels d'outils et la résolution de bout en bout. Le panel de qualité suit la précision de la chaîne de raisonnement, les signaux de satisfaction des utilisateurs et la catégorisation des erreurs. Le panneau de coûts surveille la consommation de jetons, le volume d'appels d'outils et l'utilisation de l'infrastructure. Tous les panneaux prennent en charge le filtrage par instance d'agent, type de flux de travail, plage de temps et catégorie de résultat.

Alertes et réponse aux incidents

Les alertes sont définies à l'aide d'un moteur de règles basé sur des seuils qui évalue les métriques par rapport à des références configurables. Des règles d'alerte standard sont fournies pour les modèles de dégradation courants : le taux de résolution chute de plus de dix pour cent en dessous de la référence historique, la latence moyenne dépasse le seuil SLA, le taux d'erreur dépasse un pour cent ou la consommation de jetons dépasse le budget prévu. Les alertes sont acheminées vers des canaux configurables, notamment Slack, PagerDuty, la messagerie électronique et les points de terminaison webhook. Chaque alerte inclut un contexte sur la condition de déclenchement, les instances d'agent affectées et les étapes de diagnostic suggérées. Pour les alertes critiques, des actions d'atténuation automatisées peuvent être configurées, comme interrompre une intégration dégradée ou acheminer le trafic vers une instance d'agent de secours.

Journalisation au niveau de la trace

Chaque interaction d'agent produit une trace distribuée qui capture le chemin d'exécution complet depuis la réception de la demande jusqu'au raisonnement, à l'appel de l'outil, à la vérification et à la livraison de la réponse. Les traces incluent des métadonnées structurées pour chaque période : le type d'opération, la durée, les résumés d'entrée et de sortie, ainsi que les éventuelles erreurs ou tentatives. Les traces peuvent être visualisées dans l'explorateur de traces intégré ou exportées vers des plateformes de traçage externes telles que Jaeger, Zipkin ou Datadog APM. L'explorateur de traces prend en charge la recherche par attributs de requête, le filtrage par durée ou statut d'erreur et la comparaison des traces entre différentes versions d'agent pour valider les améliorations de performances.

Suivi et rapports SLA

Les définitions SLA sont configurables par type de flux de travail et spécifient des mesures cibles pour le temps de résolution, le taux de résolution autonome, la précision et la disponibilité. Le moteur de suivi SLA évalue en permanence les performances réelles par rapport aux objectifs et maintient les pourcentages de conformité en cours. Les rapports SLA hebdomadaires et mensuels sont générés automatiquement et peuvent être distribués aux parties prenantes. Lorsque la conformité aux SLA tend à diminuer, des alertes précoces se déclenchent avant que l'objectif ne soit réellement violé, ce qui donne aux équipes opérationnelles le temps d'enquêter et d'y remédier. Les données historiques des SLA sont conservées à des fins d'analyse des tendances et de planification des capacités, aidant ainsi les organisations à anticiper le moment où une capacité d'agent supplémentaire ou une optimisation du flux de travail est nécessaire.