Perplexity의 SharePoint 커넥터와 OneDrive 커넥터를 사용하면 Enterprise Pro 및 Enterprise Max 사용자가 AI 기반 자연어 쿼리를 통해 조직의 SharePoint 사이트와 OneDrive 파일을 직접 검색할 수 있습니다.
최근 데이터 보안 우려와 확장성 한계를 모두 해결하기 위해 하이브리드 검색 아키텍처를 도입했습니다. 이 아키텍처는 두 가지 검색 모드인 고정밀 검색(인덱싱 기반)과 표준 검색(API 기반)으로 구성됩니다.
검색 아키텍처: 2단계 접근 방식
표준 검색(API 기반)
작동 방식:
쿼리 시점에 Microsoft Search API를 통해 SharePoint/OneDrive를 직접 조회합니다.
쿼리에서 찾은 결과 외에 Perplexity 인프라에 저장된 파일 사본이 없습니다(데이터 보존 정책 설정으로 완화할 수 있음).
파일 수 제한 없이 사용자의 전체 SharePoint/OneDrive 드라이브를 검색합니다.
커넥터 활성화 즉시 모든 Enterprise Pro/Max 사용자가 사용할 수 있습니다
보안 모델:
데이터 보관 없음(Zero Data Retention): 쿼리 결과(데이터 보존 정책 설정으로 완화할 수 있음)를 제외하고 파일은 Perplexity 시스템에 복사되거나 저장되지 않습니다.
실시간 권한: SharePoint/OneDrive의 네이티브 액세스 제어를 동적으로 준수합니다
최소 데이터 복사: 답변에 포함된 인용문 스니펫만 보관됩니다.
모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다
즉각적인 액세스 취소: SharePoint/OneDrive 권한이 변경되면 해당 변경 사항이 Perplexity의 액세스에도 즉시 반영됩니다.
사용 사례: 최대 수준의 데이터 프라이버시와 최소한의 데이터 저장을 요구하는 조직(특히 엔터프라이즈 규모에서 수백만 개의 파일을 검색해야 하는 경우).
고정밀 검색(인덱싱 기반)
작동 방식:
사용자는 Perplexity에서 로컬 인덱싱을 위해 동기화할 특정 파일/폴더를 선택합니다.
파일은 다운로드되고 파싱된 뒤, Vespa에 벡터 임베딩으로 저장되며 원본 파일은 전용 AWS S3 버킷에 저장됩니다.
보다 심층적인 의미 분석과 보다 포괄적인 답변을 가능하게 합니다
파일 제한: 스페이스당 500개 파일(Enterprise Pro), 스페이스당 5,000개 파일(Enterprise Max)
총 사용자 제한: 15,000개 파일(Enterprise Pro), 50,000개 파일(Enterprise Max)
보안 모델:
전용 스토리지: 각 조직의 파일은 Vespa 벡터 스토리지에 고유한 네임스페이스를 가진 격리된 AWS S3 '폴더'에 저장됩니다.
암호화: 저장 시 AES-256 암호화, 전송 중 TLS 암호화
역할 기반 액세스 제어(RBAC): 모든 시스템에서 최소 권한 원칙에 따른 액세스를 적용합니다.
모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다
자동 동기화: SharePoint/OneDrive의 파일 변경/삭제는 Perplexity에 자동으로 반영됩니다.
사용 사례: 자주 사용하는 문서, 프로젝트별 파일 모음, 또는 선별된 콘텐츠가 있는 협업 스페이스에서 최대한의 답변 정확도가 필요한 팀.
백엔드 아키텍처 & 데이터 흐름
연결 & 인증
관리자 활성화: 조직 관리자는 권한 설정에서 SharePoint/OneDrive 커넥터를 활성화합니다
사용자 인증: 사용자는 Microsoft Entra(Azure AD)를 통해 OAuth 2.0으로 인증합니다
사이트 선택: 사용자가 연결할 특정 SharePoint 사이트를 선택합니다
관리자 동의: Microsoft 관리자는 Microsoft Entra에서 Perplexity 앱에 대한 조직 전체 동의를 부여해야 할 수 있습니다
두 가지 방법이 모두 활성화된 경우:
Perplexity는 로컬 인덱스와 SharePoint API를 동시에 조회합니다.
가장 관련성 높은 소스를 우선하도록 결과를 재순위화합니다.
인용은 전체 파일에 액세스할 수 있도록 SharePoint로 바로 연결됩니다.
인덱싱 프로세스(고정밀 검색)
파일 동기화 및 저장:
파일 선택: 사용자가 Perplexity UI를 통해 파일/폴더를 선택합니다.
다운로드: Microsoft Graph API를 통해 SharePoint에서 파일을 다운로드합니다.
스토리지: 원본 파일은 조직별 전용 네임스페이스로 AWS S3에 저장됩니다.
파싱: 지원되는 형식(PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)에서 텍스트를 추출합니다.
벡터화: 콘텐츠를 임베딩으로 변환해 Vespa 벡터 데이터베이스에 저장합니다.
메타데이터 인덱싱: 검색을 위해 파일 메타데이터(이름, 경로, 권한)를 인덱싱합니다.
제거: 사용자가 Perplexity에서 SharePoint/OneDrive의 연결을 해제하면 인덱싱된 파일을 제거하도록 선택할 수 있습니다.
보안 & 규정 준수 인프라
권한 적용
SharePoint/OneDrive 측 권한:
사용자가 SharePoint/OneDrive에서 파일에 대한 액세스 권한을 잃으면 해당 파일은 즉시 Perplexity에서 제거됩니다.
SharePoint/OneDrive에서 파일을 삭제하면 Perplexity 인덱스에서 즉시 제거됩니다.
사용자는 액세스할 수 있는 명시적인 SharePoint/OneDrive 권한이 있는 파일만 검색할 수 있습니다.
Perplexity 측 권한:
관리자는 조직 설정을 통해 커넥터에 액세스할 수 있는 사용자를 제어합니다.
스페이스에 동기화된 파일은 스페이스 구성원이 검색할 수 있지만 파일 콘텐츠에는 SharePoint/OneDrive 권한이 필요합니다.
스레드 공유는 관리자가 설정한 조직 공유 정책을 준수합니다
모범 사례
고정밀 검색(인덱싱) 사용 시기
스페이스의 프로젝트별 파일 컬렉션
자주 접근하는 지식 베이스 문서
심층적인 의미 분석이 필요한 파일
큐레이팅된 콘텐츠가 있는 협업 팀 환경
표준 검색(API 전용) 사용 시기
방대한 파일 저장소(수백만 개의 파일) 전체 검색
엄격한 데이터 레지던시 및 최소 데이터 복사 요구 사항
자주 액세스하지 않는 파일 전반에 걸친 탐색 검색
보안/규정 준수 제약이 심한 조직
