메인 콘텐츠로 건너뛰기

SharePoint 및 OneDrive 커넥터: 파일 업로드 보안

Perplexity가 데이터에 대한 모델을 훈련하지 않고도 API 또는 인덱싱 모드를 통해 SharePoint 및 OneDrive에 연결하는 방법 및 시기

작성자: Emilio Morales
최소 2달 전에 업데이트됨

Perplexity의 SharePoint 커넥터OneDrive 커넥터를 사용하면 Enterprise Pro 및 Enterprise Max 사용자가 AI 기반 자연어 쿼리를 통해 조직의 SharePoint 사이트와 OneDrive 파일을 직접 검색할 수 있습니다.

최근 데이터 보안 우려와 확장성 한계를 모두 해결하기 위해 하이브리드 검색 아키텍처를 도입했습니다. 이 아키텍처는 두 가지 검색 모드인 고정밀 검색(인덱싱 기반)과 표준 검색(API 기반)으로 구성됩니다.

검색 아키텍처: 2단계 접근 방식

표준 검색(API 기반)

작동 방식:

  • 쿼리 시점에 Microsoft Search API를 통해 SharePoint/OneDrive를 직접 조회합니다.

  • 쿼리에서 찾은 결과 외에 Perplexity 인프라에 저장된 파일 사본이 없습니다(데이터 보존 정책 설정으로 완화할 수 있음).

  • 파일 수 제한 없이 사용자의 전체 SharePoint/OneDrive 드라이브를 검색합니다.

  • 커넥터 활성화 즉시 모든 Enterprise Pro/Max 사용자가 사용할 수 있습니다

보안 모델:

  • 데이터 보관 없음(Zero Data Retention): 쿼리 결과(데이터 보존 정책 설정으로 완화할 수 있음)를 제외하고 파일은 Perplexity 시스템에 복사되거나 저장되지 않습니다.

  • 실시간 권한: SharePoint/OneDrive의 네이티브 액세스 제어를 동적으로 준수합니다

  • 최소 데이터 복사: 답변에 포함된 인용문 스니펫만 보관됩니다.

  • 모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다

  • 즉각적인 액세스 취소: SharePoint/OneDrive 권한이 변경되면 해당 변경 사항이 Perplexity의 액세스에도 즉시 반영됩니다.

사용 사례: 최대 수준의 데이터 프라이버시와 최소한의 데이터 저장을 요구하는 조직(특히 엔터프라이즈 규모에서 수백만 개의 파일을 검색해야 하는 경우).

고정밀 검색(인덱싱 기반)

작동 방식:

  • 사용자는 Perplexity에서 로컬 인덱싱을 위해 동기화할 특정 파일/폴더를 선택합니다.

  • 파일은 다운로드되고 파싱된 뒤, Vespa에 벡터 임베딩으로 저장되며 원본 파일은 전용 AWS S3 버킷에 저장됩니다.

  • 보다 심층적인 의미 분석과 보다 포괄적인 답변을 가능하게 합니다

  • 파일 제한: 스페이스당 500개 파일(Enterprise Pro), 스페이스당 5,000개 파일(Enterprise Max)

  • 총 사용자 제한: 15,000개 파일(Enterprise Pro), 50,000개 파일(Enterprise Max)

보안 모델:

  • 전용 스토리지: 각 조직의 파일은 Vespa 벡터 스토리지에 고유한 네임스페이스를 가진 격리된 AWS S3 '폴더'에 저장됩니다.

  • 암호화: 저장 시 AES-256 암호화, 전송 중 TLS 암호화

  • 역할 기반 액세스 제어(RBAC): 모든 시스템에서 최소 권한 원칙에 따른 액세스를 적용합니다.

  • 모델 훈련 없음: 동기화된 파일은 AI 모델 훈련에 절대 사용되지 않습니다

  • 자동 동기화: SharePoint/OneDrive의 파일 변경/삭제는 Perplexity에 자동으로 반영됩니다.

사용 사례: 자주 사용하는 문서, 프로젝트별 파일 모음, 또는 선별된 콘텐츠가 있는 협업 스페이스에서 최대한의 답변 정확도가 필요한 팀.

백엔드 아키텍처 & 데이터 흐름

연결 & 인증

  • 관리자 활성화: 조직 관리자는 권한 설정에서 SharePoint/OneDrive 커넥터를 활성화합니다

  • 사용자 인증: 사용자는 Microsoft Entra(Azure AD)를 통해 OAuth 2.0으로 인증합니다

  • 사이트 선택: 사용자가 연결할 특정 SharePoint 사이트를 선택합니다

  • 관리자 동의: Microsoft 관리자는 Microsoft Entra에서 Perplexity 앱에 대한 조직 전체 동의를 부여해야 할 수 있습니다

두 가지 방법이 모두 활성화된 경우:

  • Perplexity는 로컬 인덱스와 SharePoint API를 동시에 조회합니다.

  • 가장 관련성 높은 소스를 우선하도록 결과를 재순위화합니다.

  • 인용은 전체 파일에 액세스할 수 있도록 SharePoint로 바로 연결됩니다.

인덱싱 프로세스(고정밀 검색)

파일 동기화 및 저장:

  1. 파일 선택: 사용자가 Perplexity UI를 통해 파일/폴더를 선택합니다.

  2. 다운로드: Microsoft Graph API를 통해 SharePoint에서 파일을 다운로드합니다.

  3. 스토리지: 원본 파일은 조직별 전용 네임스페이스로 AWS S3에 저장됩니다.

  4. 파싱: 지원되는 형식(PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)에서 텍스트를 추출합니다.

  5. 벡터화: 콘텐츠를 임베딩으로 변환해 Vespa 벡터 데이터베이스에 저장합니다.

  6. 메타데이터 인덱싱: 검색을 위해 파일 메타데이터(이름, 경로, 권한)를 인덱싱합니다.

  7. 제거: 사용자가 Perplexity에서 SharePoint/OneDrive의 연결을 해제하면 인덱싱된 파일을 제거하도록 선택할 수 있습니다.

보안 & 규정 준수 인프라

권한 적용

SharePoint/OneDrive 측 권한:

  • 사용자가 SharePoint/OneDrive에서 파일에 대한 액세스 권한을 잃으면 해당 파일은 즉시 Perplexity에서 제거됩니다.

  • SharePoint/OneDrive에서 파일을 삭제하면 Perplexity 인덱스에서 즉시 제거됩니다.

  • 사용자는 액세스할 수 있는 명시적인 SharePoint/OneDrive 권한이 있는 파일만 검색할 수 있습니다.

Perplexity 측 권한:

  • 관리자는 조직 설정을 통해 커넥터에 액세스할 수 있는 사용자를 제어합니다.

  • 스페이스에 동기화된 파일은 스페이스 구성원이 검색할 수 있지만 파일 콘텐츠에는 SharePoint/OneDrive 권한이 필요합니다.

  • 스레드 공유는 관리자가 설정한 조직 공유 정책을 준수합니다

모범 사례

고정밀 검색(인덱싱) 사용 시기

  • 스페이스의 프로젝트별 파일 컬렉션

  • 자주 접근하는 지식 베이스 문서

  • 심층적인 의미 분석이 필요한 파일

  • 큐레이팅된 콘텐츠가 있는 협업 팀 환경

표준 검색(API 전용) 사용 시기

  • 방대한 파일 저장소(수백만 개의 파일) 전체 검색

  • 엄격한 데이터 레지던시 및 최소 데이터 복사 요구 사항

  • 자주 액세스하지 않는 파일 전반에 걸친 탐색 검색

  • 보안/규정 준수 제약이 심한 조직