데이터 커넥터

Drive, Confluence, Jira, SharePoint 등 주요 데이터 소스를 색인하기 위한 커넥터 옵션

Gemini Enterprise는 다양한 SaaS·온프레미스 데이터 소스를 색인할 수 있는 커넥터(Connector)를 제공합니다. 커넥터의 종류와 선택 기준, 그리고 운영 시 주의사항을 정리합니다.


목차

  1. 커넥터 종류
  2. 커넥터 비교
  3. 동기화 정책
  4. 트러블슈팅

1. 커넥터 종류

카테고리 예시
Google 제품 Drive, Gmail, Calendar, Cloud Storage, BigQuery
협업/문서 Confluence (Cloud/Server), SharePoint, Notion
이슈/티켓 Jira (Cloud/Server), ServiceNow, Zendesk
CRM/ERP Salesforce, HubSpot
저장소/코드 GitHub, GitLab, Bitbucket
데이터베이스 BigQuery, Cloud SQL, AlloyDB (Structured)
웹사이트 사이트맵 기반 크롤링
수동 업로드 PDF/DOCX/PPTX 직접 업로드

사용 가능한 커넥터 목록과 인증 방식은 Edition·리전에 따라 다릅니다.


2. 커넥터 비교

2.1 인증 방식

인증 방식 사용 커넥터 예시 특징
OAuth 2.0 Google Drive, Confluence Cloud, Jira Cloud 사용자 동의 기반, ACL 정확도 높음
API Token Confluence Server, GitHub 서비스 계정 토큰, 회전 정책 필요
Service Account Cloud Storage, BigQuery GCP 내부 리소스 접근에 사용

2.2 ACL 지원

커넥터 ACL 인지 검색 비고
Google Drive 파일별 권한 그대로 적용
Confluence Cloud Space + 페이지 권한
Jira Cloud Project + Issue 권한
SharePoint 사이트/문서 권한
GCS Bucket ⚠️ Bucket 단위만 가능
웹사이트(공개) 공개 콘텐츠 가정

ACL 인지 검색을 사용하려면, 사용자 ID가 원본 시스템의 식별자와 매핑되어 있어야 합니다. (보통 이메일 기반)


3. 동기화 정책

항목 권장
초기 색인 1회 풀 스캔. 데이터 양에 따라 수 시간 ~ 수 일 소요
증분 동기화 15분~1시간 주기 (커넥터별 한도 존재)
권한 동기화 콘텐츠와 별도 주기로 더 자주 수행하는 것이 안전
삭제 반영 원본에서 삭제 시 일정 지연 후 색인에서 제거

색인 비용 관리 팁

  • 색인 대상을 부서/공간 단위로 분할하여 점진적으로 확장
  • 첨부파일·이미지는 필요한 경우에만 활성화
  • 보존 기간이 짧은 채팅·로그 데이터는 색인 대상에서 제외

4. 트러블슈팅

증상 원인 후보 점검 포인트
검색 결과가 비어있음 색인 미완료 / 권한 매핑 실패 콘솔의 색인 상태, 사용자 이메일 매핑
ACL이 무시됨 커넥터가 ACL 미지원 위 2.2 표 확인, 필요 시 수동 메타데이터 부여
동기화 지연 API Rate Limit 원본 시스템 로그, 동기화 주기 조정
한글 문서 품질 저하 파서 옵션 Layout parser / Advanced indexing 활성화

5. 참고 자료