데이터 커넥터
Drive, Confluence, Jira, SharePoint 등 주요 데이터 소스를 색인하기 위한 커넥터 옵션
Gemini Enterprise는 다양한 SaaS·온프레미스 데이터 소스를 색인할 수 있는 커넥터(Connector)를 제공합니다. 커넥터의 종류와 선택 기준, 그리고 운영 시 주의사항을 정리합니다.
목차
- 커넥터 종류
- 커넥터 비교
- 동기화 정책
- 트러블슈팅
1. 커넥터 종류
| 카테고리 |
예시 |
| Google 제품 |
Drive, Gmail, Calendar, Cloud Storage, BigQuery |
| 협업/문서 |
Confluence (Cloud/Server), SharePoint, Notion |
| 이슈/티켓 |
Jira (Cloud/Server), ServiceNow, Zendesk |
| CRM/ERP |
Salesforce, HubSpot |
| 저장소/코드 |
GitHub, GitLab, Bitbucket |
| 데이터베이스 |
BigQuery, Cloud SQL, AlloyDB (Structured) |
| 웹사이트 |
사이트맵 기반 크롤링 |
| 수동 업로드 |
PDF/DOCX/PPTX 직접 업로드 |
사용 가능한 커넥터 목록과 인증 방식은 Edition·리전에 따라 다릅니다.
2. 커넥터 비교
2.1 인증 방식
| 인증 방식 |
사용 커넥터 예시 |
특징 |
| OAuth 2.0 |
Google Drive, Confluence Cloud, Jira Cloud |
사용자 동의 기반, ACL 정확도 높음 |
| API Token |
Confluence Server, GitHub |
서비스 계정 토큰, 회전 정책 필요 |
| Service Account |
Cloud Storage, BigQuery |
GCP 내부 리소스 접근에 사용 |
2.2 ACL 지원
| 커넥터 |
ACL 인지 검색 |
비고 |
| Google Drive |
✅ |
파일별 권한 그대로 적용 |
| Confluence Cloud |
✅ |
Space + 페이지 권한 |
| Jira Cloud |
✅ |
Project + Issue 권한 |
| SharePoint |
✅ |
사이트/문서 권한 |
| GCS Bucket |
⚠️ |
Bucket 단위만 가능 |
| 웹사이트(공개) |
❌ |
공개 콘텐츠 가정 |
ACL 인지 검색을 사용하려면, 사용자 ID가 원본 시스템의 식별자와 매핑되어 있어야 합니다. (보통 이메일 기반)
3. 동기화 정책
| 항목 |
권장 |
| 초기 색인 |
1회 풀 스캔. 데이터 양에 따라 수 시간 ~ 수 일 소요 |
| 증분 동기화 |
15분~1시간 주기 (커넥터별 한도 존재) |
| 권한 동기화 |
콘텐츠와 별도 주기로 더 자주 수행하는 것이 안전 |
| 삭제 반영 |
원본에서 삭제 시 일정 지연 후 색인에서 제거 |
색인 비용 관리 팁
- 색인 대상을 부서/공간 단위로 분할하여 점진적으로 확장
- 첨부파일·이미지는 필요한 경우에만 활성화
- 보존 기간이 짧은 채팅·로그 데이터는 색인 대상에서 제외
4. 트러블슈팅
| 증상 |
원인 후보 |
점검 포인트 |
| 검색 결과가 비어있음 |
색인 미완료 / 권한 매핑 실패 |
콘솔의 색인 상태, 사용자 이메일 매핑 |
| ACL이 무시됨 |
커넥터가 ACL 미지원 |
위 2.2 표 확인, 필요 시 수동 메타데이터 부여 |
| 동기화 지연 |
API Rate Limit |
원본 시스템 로그, 동기화 주기 조정 |
| 한글 문서 품질 저하 |
파서 옵션 |
Layout parser / Advanced indexing 활성화 |
5. 참고 자료