Monitoring

에이전트의 서비스 안정성과 리소스 효율성 모니터링

운영 중인 에이전트의 서비스 안정성과 리소스 효율성을 관제하는 방법을 다룹니다.


1. 운영 지표 대시보드

  • 총 요청 수: 에이전트가 처리한 전체 요청 건수
  • 응답 지연 시간: p50, p95, p99 레이턴시 추적
  • 오류 발생률: 2xx, 4xx 응답 비율 시각화
  • 서비스 상태를 한눈에 파악

2. 토큰 및 리소스 추적

  • LLM 모델의 입력/출력 토큰 사용량 추적
  • 모델 호출 성공 여부 통계 제공
  • 비용 최적화를 위한 토큰 사용 분석

3. 도구 사용 현황

  • 에이전트가 도구(Tool)를 얼마나 자주 호출했는지 통계
  • 도구별 성공/실패 비율 분석
  • 도구 사용 패턴 파악을 통한 최적화

4. 대시보드 주요 지표

지표 설명 활용
Sessions 전체 세션 수 사용량 파악
Avg turns per session 세션당 평균 턴 수 대화 복잡도 분석
Agent invocations 에이전트 호출 횟수 부하 분석
Agent latency 응답 지연 시간 성능 모니터링
Agent request count 초당 요청 수 트래픽 패턴 분석
Agent error rate 오류 발생률 안정성 모니터링
Token usage 토큰 사용량 비용 관리