Evaluation

에이전트 품질과 응답 정확성 평가

Agent의 품질과 응답의 정확성 등을 평가하는 방법을 다룹니다.

1. 평가 방법

Colab 노트북에서 Vertex AI SDK의 GenAI 클라이언트를 사용한 평가 생성을 지원합니다.

2. 주요 평가 지표

측정항목	설명
FINAL_RESPONSE_QUALITY	최종 응답의 품질 평가
TOOL_USE_QUALITY	도구 사용의 적절성 평가
HALLUCINATION	환각(허위 정보) 여부 검출
SAFETY	응답의 안전성 평가

3. 평가 결과 활용

3.1. Summary Metrics

전체 데이터세트의 평균 점수와 표준 편차 표시
모든 측정항목의 집계된 보기

3.2. Agent Info

개발자 지침, 에이전트 설명, 도구 정의 등 포함
평가된 에이전트를 설명하는 정보

3.3. Detailed Results

사례별 분석 (프롬프트, 참조, 후보자 응답)
각 지표에 대한 특정 점수 및 설명
에이전트 상호 작용을 보여주는 추적 포함

4. 평가 실행 예시

from vertexai import types

evaluation_run = client.evals.create_evaluation_run(
    dataset=agent_dataset_with_inference,
    agent_info=agent_info,
    metrics=[
        types.RubricMetric.FINAL_RESPONSE_QUALITY,
        types.RubricMetric.TOOL_USE_QUALITY,
        types.RubricMetric.HALLUCINATION,
        types.RubricMetric.SAFETY,
    ],
    dest=GCS_DEST,
)

# 평가 결과 표시
evaluation_run.show()

5. 기능 상태 요약

기능	주요 용도	상태
Monitoring	서비스 안정성 및 리소스 모니터링	GA
Trace	요청 처리 과정 추적 및 디버깅	Preview
Sessions	대화 히스토리 및 상태 관리	GA
Playground	실험, 시뮬레이션, 디버깅	Preview
Memory Bank	장기 기억 저장 및 개인화	Private Preview
Evaluation	에이전트 품질 평가	GA