Evaluation
에이전트 품질과 응답 정확성 평가
Agent의 품질과 응답의 정확성 등을 평가하는 방법을 다룹니다.
1. 평가 방법
Colab 노트북에서 Vertex AI SDK의 GenAI 클라이언트를 사용한 평가 생성을 지원합니다.
2. 주요 평가 지표
| 측정항목 | 설명 |
|---|---|
| FINAL_RESPONSE_QUALITY | 최종 응답의 품질 평가 |
| TOOL_USE_QUALITY | 도구 사용의 적절성 평가 |
| HALLUCINATION | 환각(허위 정보) 여부 검출 |
| SAFETY | 응답의 안전성 평가 |
3. 평가 결과 활용
3.1. Summary Metrics
- 전체 데이터세트의 평균 점수와 표준 편차 표시
- 모든 측정항목의 집계된 보기
3.2. Agent Info
- 개발자 지침, 에이전트 설명, 도구 정의 등 포함
- 평가된 에이전트를 설명하는 정보
3.3. Detailed Results
- 사례별 분석 (프롬프트, 참조, 후보자 응답)
- 각 지표에 대한 특정 점수 및 설명
- 에이전트 상호 작용을 보여주는 추적 포함
4. 평가 실행 예시
from vertexai import types
evaluation_run = client.evals.create_evaluation_run(
dataset=agent_dataset_with_inference,
agent_info=agent_info,
metrics=[
types.RubricMetric.FINAL_RESPONSE_QUALITY,
types.RubricMetric.TOOL_USE_QUALITY,
types.RubricMetric.HALLUCINATION,
types.RubricMetric.SAFETY,
],
dest=GCS_DEST,
)
# 평가 결과 표시
evaluation_run.show()
5. 기능 상태 요약
| 기능 | 주요 용도 | 상태 |
|---|---|---|
| Monitoring | 서비스 안정성 및 리소스 모니터링 | GA |
| Trace | 요청 처리 과정 추적 및 디버깅 | Preview |
| Sessions | 대화 히스토리 및 상태 관리 | GA |
| Playground | 실험, 시뮬레이션, 디버깅 | Preview |
| Memory Bank | 장기 기억 저장 및 개인화 | Private Preview |
| Evaluation | 에이전트 품질 평가 | GA |