Operazioni

Monitoraggio e osservabilità

Panoramica del dashboard

Il dashboard di monitoraggio ActiveMotion fornisce visibilità in tempo reale sulle prestazioni degli agenti in quattro dimensioni: throughput, latenza, qualità e costi. Il pannello del throughput mostra il volume delle richieste, il tasso di risoluzione autonoma e la frequenza di escalation in finestre temporali configurabili. Il pannello della latenza mostra i percentili del tempo di risposta per l'elaborazione dell'agente, le chiamate agli strumenti e la risoluzione end-to-end. Il pannello di qualità tiene traccia dell'accuratezza della catena di ragionamento, dei segnali di soddisfazione dell'utente e della categorizzazione degli errori. Il pannello dei costi monitora il consumo di token, il volume delle chiamate agli strumenti e l'utilizzo dell'infrastruttura. Tutti i pannelli supportano il filtraggio per istanza dell'agente, tipo di flusso di lavoro, intervallo di tempo e categoria di risultato.

Avvisi e risposta agli incidenti

Gli avvisi vengono definiti utilizzando un motore di regole basato su soglie che valuta i parametri rispetto a linee di base configurabili. Vengono fornite regole di avviso standard per modelli di degrado comuni: il tasso di risoluzione scende al di sotto della linea di base storica di oltre il 10%, la latenza media supera la soglia SLA, il tasso di errore aumenta oltre l'1% o il consumo di token supera il budget previsto. Gli avvisi vengono indirizzati a canali configurabili tra cui Slack, PagerDuty, email e endpoint webhook. Ogni avviso include il contesto relativo alla condizione di attivazione, alle istanze dell'agente interessato e ai passaggi diagnostici suggeriti. Per gli avvisi critici, è possibile configurare azioni di mitigazione automatizzate, come l'interruzione del circuito di un'integrazione danneggiata o l'instradamento del traffico a un'istanza dell'agente di fallback.

Registrazione a livello di traccia

Ogni interazione dell'agente produce una traccia distribuita che cattura il percorso completo di esecuzione dalla ricezione della richiesta al ragionamento, all'invocazione dello strumento, alla verifica e alla consegna della risposta. Le tracce includono metadati strutturati per ogni intervallo: tipo di operazione, durata, riepiloghi di input e output ed eventuali errori o tentativi. Le tracce possono essere visualizzate nel trace explorer integrato o esportate su piattaforme di tracciamento esterne come Jaeger, Zipkin o Datadog APM. Trace Explorer supporta la ricerca in base agli attributi della richiesta, il filtraggio per durata o stato di errore e il confronto delle tracce tra diverse versioni dell'agente per convalidare i miglioramenti delle prestazioni.

Monitoraggio e reporting degli SLA

Le definizioni degli SLA sono configurabili per tipo di flusso di lavoro e specificano le metriche target per il tempo di risoluzione, il tasso di risoluzione autonoma, l'accuratezza e la disponibilità. Il motore di monitoraggio degli SLA valuta continuamente le prestazioni effettive rispetto agli obiettivi e mantiene le percentuali di conformità in corso. I report SLA settimanali e mensili vengono generati automaticamente e possono essere distribuiti alle parti interessate. Quando la conformità agli SLA tende a diminuire, gli avvisi tempestivi si attivano prima che l'obiettivo venga effettivamente violato, dando ai team operativi il tempo di indagare e porre rimedio. I dati storici sugli SLA vengono conservati per l'analisi delle tendenze e la pianificazione della capacità, aiutando le organizzazioni a prevedere quando è necessaria ulteriore capacità dell'agente o ottimizzazione del flusso di lavoro.