메인 콘텐츠로 건너뛰기

Google 드라이브 커넥터: 파일 업로드 보안

API 또는 인덱싱 모드를 사용해 AI로 Google 드라이브를 안전하게 검색하세요. 데이터가 모델 학습에 사용되지 않습니다.

작성자: Emilio Morales
최소 2달 전에 업데이트됨

Perplexity의 Google 드라이브 커넥터 를 사용하면 Enterprise ProEnterprise Max 사용자는 AI 기반 자연어 쿼리를 통해 조직의 Google 드라이브 파일을 직접 검색할 수 있습니다.

최근 데이터 보안 우려와 확장성 한계를 모두 해결하기 위해 하이브리드 검색 아키텍처를 도입했습니다. 이 아키텍처는 두 가지 검색 모드인 고정밀 검색(인덱싱 기반)과 표준 검색(API 기반)으로 구성됩니다.

검색 아키텍처: 2단계 접근 방식

표준 검색(API 기반)

작동 방식:

  • 쿼리 시점에 Google 검색 API를 통해 Google 드라이브를 직접 조회합니다.

  • 쿼리에서 찾은 결과 외에 Perplexity 인프라에 저장된 파일 사본이 없습니다(데이터 보존 정책 설정으로 완화할 수 있음).

  • 파일 수 제한 없이 사용자의 전체 Google 드라이브를 검색합니다.

  • 커넥터 활성화 즉시 모든 Enterprise Pro 및 Enterprise Max 사용자에게 제공됩니다.

보안 모델:

  • 데이터 보관 없음(Zero Data Retention): 쿼리 결과(데이터 보존 정책 설정으로 완화할 수 있음)를 제외하고 파일은 Perplexity 시스템에 복사되거나 저장되지 않습니다.

  • 실시간 권한: Google 드라이브의 기본 액세스 제어를 동적으로 준수합니다.

  • 최소 데이터 복사: 답변에 포함된 인용문 스니펫만 보관됩니다.

  • 모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다

  • 즉각적인 액세스 취소: Google 드라이브 권한이 변경되면 Perplexity에 즉시 반영됩니다.

사용 사례: 최대 수준의 데이터 프라이버시와 최소한의 데이터 저장을 요구하는 조직(특히 엔터프라이즈 규모에서 수백만 개의 파일을 검색해야 하는 경우).

고정밀 검색(인덱싱 기반)

작동 방식:

  • 사용자는 Perplexity에서 로컬 인덱싱을 위해 동기화할 특정 파일/폴더를 선택합니다.

  • 파일은 다운로드되고 파싱된 뒤, Vespa에 벡터 임베딩으로 저장되며 원본 파일은 전용 AWS S3 버킷에 저장됩니다.

  • 보다 심층적인 의미 분석과 보다 포괄적인 답변을 가능하게 합니다

  • 파일 제한: 스페이스당 500개 파일(Enterprise Pro), 스페이스당 5,000개 파일(Enterprise Max)

  • 총 사용자 제한: 15,000개 파일(Enterprise Pro), 50,000개 파일(Enterprise Max)

보안 모델:

  • 전용 스토리지: 각 조직의 파일은 Vespa 벡터 스토리지에 고유한 네임스페이스를 가진 격리된 AWS S3 '폴더'에 저장됩니다.

  • 암호화: 저장 시 AES-256 암호화, 전송 중 TLS 암호화

  • 역할 기반 액세스 제어(RBAC): 모든 시스템에서 최소 권한 액세스를 강제합니다 (참고: Perplexity는 Google 드라이브의 파일 권한을 준수합니다)

  • 모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다

  • 자동 동기화: Google 드라이브에서 파일을 변경하거나 삭제하면 Perplexity에도 자동으로 반영됩니다.

사용 사례: 자주 사용하는 문서, 프로젝트별 파일 모음, 또는 선별된 콘텐츠가 있는 협업 스페이스에서 최대한의 답변 정확도가 필요한 팀.

백엔드 아키텍처 & 데이터 흐름

연결 & 인증

  • 관리자 활성화: 조직 관리자는 권한 설정에서 Google 드라이브 커넥터를 활성화합니다.

  • 사용자 인증: 사용자는 Google을 통해 OAuth 2.0으로 인증합니다.

  • 드라이브 선택: 사용자는 연결할 Google 드라이브를 선택합니다.

  • 관리자 동의: Google Workspace 관리자는 Google Admin Console에서 Perplexity 앱에 대한 조직 전체 동의를 부여해야 할 수 있습니다.

두 가지 방법이 모두 활성화된 경우:

  • Perplexity는 로컬 인덱스와 Google 드라이브 API를 동시에 조회합니다.

  • 가장 관련성 높은 소스를 우선하도록 결과를 재순위화합니다.

  • 인용의 링크를 통해 전체 파일에 액세스할 수 있도록 Google 드라이브로 바로 이동합니다.

인덱싱 프로세스(고정밀 검색)

파일 동기화 및 저장:

  1. 파일 선택: 사용자가 Perplexity UI를 통해 파일/폴더를 선택합니다.

  2. 다운로드: Google 드라이브 API를 통해 Google 드라이브에서 파일을 다운로드

  3. 스토리지: 원본 파일은 조직별 전용 네임스페이스로 AWS S3에 저장됩니다.

  4. 파싱: 지원되는 형식(PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)에서 텍스트를 추출합니다.

  5. 벡터화: 콘텐츠를 임베딩으로 변환해 Vespa 벡터 데이터베이스에 저장합니다.

  6. 메타데이터 인덱싱: 검색을 위해 파일 메타데이터(이름, 경로, 권한)를 인덱싱합니다.

  7. 제거: 사용자가 Perplexity에서 Google 드라이브 연결을 해제하면, 인덱싱된 파일을 모두 제거하도록 선택할 수 있습니다.

보안 & 규정 준수 인프라

권한 적용

Google 드라이브 측 권한:

  • 사용자가 Google 드라이브에서 파일에 액세스할 수 없게 되면 해당 파일은 즉시 Perplexity에서 제거됩니다.

  • Google 드라이브에서 파일을 삭제하면 Perplexity 인덱스에서 즉시 제거됩니다.

  • 사용자는 Google 드라이브에서 명시적으로 액세스 권한이 있는 파일만 검색할 수 있습니다.

Perplexity 측 권한:

  • 관리자는 조직 설정을 통해 커넥터에 액세스할 수 있는 사용자를 제어합니다.

  • Spaces에 동기화된 파일은 Space 구성원이 검색할 수 있지만, 파일에 액세스하려면 해당 Google 드라이브 권한이 필요합니다.

  • 스레드 공유는 조직 관리자가 설정한 조직 공유 정책을 준수합니다.

모범 사례

고정밀 검색(인덱싱) 사용 시기

  • 스페이스의 프로젝트별 파일 컬렉션

  • 자주 접근하는 지식 베이스 문서

  • 심층적인 의미 분석이 필요한 파일

  • 큐레이팅된 콘텐츠가 있는 협업 팀 환경

표준 검색(API 전용) 사용 시기

  • 방대한 파일 저장소(수백만 개의 파일) 전체 검색

  • 엄격한 데이터 레지던시 및 최소 데이터 복사 요구 사항

  • 자주 액세스하지 않는 파일 전반에 걸친 탐색 검색

  • 보안/규정 준수 제약이 심한 조직