Google 드라이브 커넥터: 파일 업로드 보안

Perplexity의 Google 드라이브 커넥터 를 사용하면 Enterprise Pro 및 Enterprise Max 사용자는 AI 기반 자연어 쿼리를 통해 조직의 Google 드라이브 파일을 직접 검색할 수 있습니다.

최근 데이터 보안 우려와 확장성 한계를 모두 해결하기 위해 하이브리드 검색 아키텍처를 도입했습니다. 이 아키텍처는 두 가지 검색 모드인 고정밀 검색(인덱싱 기반)과 표준 검색(API 기반)으로 구성됩니다.

검색 아키텍처: 2단계 접근 방식

표준 검색(API 기반)

작동 방식:

쿼리 시점에 Google 검색 API를 통해 Google 드라이브를 직접 조회합니다.
쿼리에서 찾은 결과 외에 Perplexity 인프라에 저장된 파일 사본이 없습니다(데이터 보존 정책 설정으로 완화할 수 있음).
파일 수 제한 없이 사용자의 전체 Google 드라이브를 검색합니다.
커넥터 활성화 즉시 모든 Enterprise Pro 및 Enterprise Max 사용자에게 제공됩니다.

보안 모델:

데이터 보관 없음(Zero Data Retention): 쿼리 결과(데이터 보존 정책 설정으로 완화할 수 있음)를 제외하고 파일은 Perplexity 시스템에 복사되거나 저장되지 않습니다.
실시간 권한: Google 드라이브의 기본 액세스 제어를 동적으로 준수합니다.
최소 데이터 복사: 답변에 포함된 인용문 스니펫만 보관됩니다.
모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다
즉각적인 액세스 취소: Google 드라이브 권한이 변경되면 Perplexity에 즉시 반영됩니다.

사용 사례: 최대 수준의 데이터 프라이버시와 최소한의 데이터 저장을 요구하는 조직(특히 엔터프라이즈 규모에서 수백만 개의 파일을 검색해야 하는 경우).

고정밀 검색(인덱싱 기반)

작동 방식:

사용자는 Perplexity에서 로컬 인덱싱을 위해 동기화할 특정 파일/폴더를 선택합니다.
파일은 다운로드되고 파싱된 뒤, Vespa에 벡터 임베딩으로 저장되며 원본 파일은 전용 AWS S3 버킷에 저장됩니다.
보다 심층적인 의미 분석과 보다 포괄적인 답변을 가능하게 합니다
파일 제한: 프로젝트당 500개 파일(Enterprise Pro), 프로젝트당 5,000개 파일(Enterprise Max)
총 사용자 제한: 15,000개 파일(Enterprise Pro), 50,000개 파일(Enterprise Max)

보안 모델:

전용 스토리지: 각 조직의 파일은 Vespa 벡터 스토리지에 고유한 네임프로젝트를 가진 격리된 AWS S3 '폴더'에 저장됩니다.
암호화: 저장 시 AES-256 암호화, 전송 중 TLS 암호화
역할 기반 액세스 제어(RBAC): 모든 시스템에서 최소 권한 액세스를 강제합니다 (참고: Perplexity는 Google 드라이브의 파일 권한을 준수합니다)
모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다
자동 동기화: Google 드라이브에서 파일을 변경하거나 삭제하면 Perplexity에도 자동으로 반영됩니다.

사용 사례: 자주 사용하는 문서, 프로젝트별 파일 모음, 또는 선별된 콘텐츠가 있는 협업 프로젝트에서 최대한의 답변 정확도가 필요한 팀.

백엔드 아키텍처 & 데이터 흐름

연결 & 인증

관리자 활성화: 조직 관리자는 권한 설정에서 Google 드라이브 커넥터를 활성화합니다.
사용자 인증: 사용자는 Google을 통해 OAuth 2.0으로 인증합니다.
드라이브 선택: 사용자는 연결할 Google 드라이브를 선택합니다.
관리자 동의: Google Workspace 관리자는 Google Admin Console에서 Perplexity 앱에 대한 조직 전체 동의를 부여해야 할 수 있습니다.

두 가지 방법이 모두 활성화된 경우:

Perplexity는 로컬 인덱스와 Google 드라이브 API를 동시에 조회합니다.
가장 관련성 높은 소스를 우선하도록 결과를 재순위화합니다.
인용의 링크를 통해 전체 파일에 액세스할 수 있도록 Google 드라이브로 바로 이동합니다.

인덱싱 프로세스(고정밀 검색)

파일 동기화 및 저장:

파일 선택: 사용자가 Perplexity UI를 통해 파일/폴더를 선택합니다.
다운로드: Google 드라이브 API를 통해 Google 드라이브에서 파일을 다운로드
스토리지: 원본 파일은 조직별 전용 네임프로젝트로 AWS S3에 저장됩니다.
파싱: 지원되는 형식(PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)에서 텍스트를 추출합니다.
벡터화: 콘텐츠를 임베딩으로 변환해 Vespa 벡터 데이터베이스에 저장합니다.
메타데이터 인덱싱: 검색을 위해 파일 메타데이터(이름, 경로, 권한)를 인덱싱합니다.
제거: 사용자가 Perplexity에서 Google 드라이브 연결을 해제하면, 인덱싱된 파일을 모두 제거하도록 선택할 수 있습니다.

보안 & 규정 준수 인프라

권한 적용

Google 드라이브 측 권한:

사용자가 Google 드라이브에서 파일에 액세스할 수 없게 되면 해당 파일은 즉시 Perplexity에서 제거됩니다.
Google 드라이브에서 파일을 삭제하면 Perplexity 인덱스에서 즉시 제거됩니다.
사용자는 Google 드라이브에서 명시적으로 액세스 권한이 있는 파일만 검색할 수 있습니다.

Perplexity 측 권한:

관리자는 조직 설정을 통해 커넥터에 액세스할 수 있는 사용자를 제어합니다.
Spaces에 동기화된 파일은 프로젝트 구성원이 검색할 수 있지만, 파일에 액세스하려면 해당 Google 드라이브 권한이 필요합니다.
세션 공유는 조직 관리자가 설정한 조직 공유 정책을 준수합니다.

Google 드라이브 커넥터: 파일 업로드 보안

검색 아키텍처: 2단계 접근 방식

표준 검색(API 기반)

작동 방식:

보안 모델:

고정밀 검색(인덱싱 기반)

작동 방식:

보안 모델:

백엔드 아키텍처 & 데이터 흐름

연결 & 인증

두 가지 방법이 모두 활성화된 경우:

인덱싱 프로세스(고정밀 검색)

파일 동기화 및 저장:

보안 & 규정 준수 인프라

권한 적용

Google 드라이브 측 권한:

Perplexity 측 권한:

모범 사례

고정밀 검색(인덱싱) 사용 시기

표준 검색(API 전용) 사용 시기