Evaluation

에이전트 품질과 응답 정확성 평가

Agent의 품질과 응답의 정확성 등을 평가하는 방법을 다룹니다.


1. 평가 방법

Colab 노트북에서 Vertex AI SDK의 GenAI 클라이언트를 사용한 평가 생성을 지원합니다.

2. 주요 평가 지표

측정항목 설명
FINAL_RESPONSE_QUALITY 최종 응답의 품질 평가
TOOL_USE_QUALITY 도구 사용의 적절성 평가
HALLUCINATION 환각(허위 정보) 여부 검출
SAFETY 응답의 안전성 평가

3. 평가 결과 활용

3.1. Summary Metrics

  • 전체 데이터세트의 평균 점수와 표준 편차 표시
  • 모든 측정항목의 집계된 보기

3.2. Agent Info

  • 개발자 지침, 에이전트 설명, 도구 정의 등 포함
  • 평가된 에이전트를 설명하는 정보

3.3. Detailed Results

  • 사례별 분석 (프롬프트, 참조, 후보자 응답)
  • 각 지표에 대한 특정 점수 및 설명
  • 에이전트 상호 작용을 보여주는 추적 포함

4. 평가 실행 예시

from vertexai import types

evaluation_run = client.evals.create_evaluation_run(
    dataset=agent_dataset_with_inference,
    agent_info=agent_info,
    metrics=[
        types.RubricMetric.FINAL_RESPONSE_QUALITY,
        types.RubricMetric.TOOL_USE_QUALITY,
        types.RubricMetric.HALLUCINATION,
        types.RubricMetric.SAFETY,
    ],
    dest=GCS_DEST,
)

# 평가 결과 표시
evaluation_run.show()

5. 기능 상태 요약

기능 주요 용도 상태
Monitoring 서비스 안정성 및 리소스 모니터링 GA
Trace 요청 처리 과정 추적 및 디버깅 Preview
Sessions 대화 히스토리 및 상태 관리 GA
Playground 실험, 시뮬레이션, 디버깅 Preview
Memory Bank 장기 기억 저장 및 개인화 Private Preview
Evaluation 에이전트 품질 평가 GA