メインコンテンツにスキップ

SharePointとOneDriveコネクタ:ファイルアップロードのセキュリティ

データでモデルをトレーニングすることなく、PerplexityがAPIモードまたはインデックスモードでSharePointとOneDriveに接続する方法とタイミング

対応者:Emilio Morales
2か月以上前に更新

Perplexityの SharePointコネクタOneDriveコネクタ により、Enterprise ProとEnterprise Maxのユーザーは、AIを活用した自然言語クエリを通じて、組織のSharePointサイトとOneDriveファイルを直接検索できます。

最近、データセキュリティ上の懸念とスケーラビリティの制約の両方に対処するため、2つの異なる検索モード(高精度検索[インデックスベース]と標準検索[APIベース])からなるハイブリッド検索アーキテクチャを導入しました。

検索アーキテクチャ:2層アプローチ

標準検索(APIベース)

仕組み:

  • クエリ時にMicrosoftの検索APIを介してSharePoint/OneDriveに直接クエリを実行します

  • クエリで見つかった結果を除き、Perplexityインフラストラクチャにファイルのコピーは保存されません(データ保持ポリシー設定によって軽減できます)

  • ファイル数の制限なしに、ユーザーのSharePoint/OneDriveドライブ全体を検索します

  • コネクタを有効化すると、すべてのEnterprise Pro/Maxユーザーがすぐに利用できます

セキュリティモデル:

  • データ保持ゼロ: クエリで見つかった結果を除き、ファイルはPerplexityシステムにコピーまたは保存されません(データ保持ポリシー設定によって軽減できます)

  • リアルタイムのアクセス許可: SharePoint/OneDriveのネイティブアクセス制御を動的に尊重します

  • 最小限のデータコピー: 回答に含まれる引用スニペットのみが保持されます

  • モデルトレーニングなし: 同期されたファイルはAIモデルのトレーニングに使用されることはありません

  • 即時アクセス取り消し: SharePoint/OneDriveのアクセス許可が変更されると、アクセスはすぐにPerplexityに反映されます

ユースケース: 最大限のデータプライバシーと最小限のデータフットプリントを求める組織(特に、企業規模で数百万のファイルを横断して検索する場合)。

高精度検索(インデックスベース)

仕組み:

  • ユーザーは、Perplexityでローカルインデックス作成のために同期する特定のファイル/フォルダーを選択します

  • ファイルはダウンロードされ、解析され、Vespaのベクターエンベディングを使用して専用のAWS S3バケットに保存されます

  • より深いセマンティック分析とより包括的な回答を可能にします

  • ファイル制限: スペースあたり500ファイル(Enterprise Pro)、スペースあたり5,000ファイル(Enterprise Max)

  • 合計ユーザー制限: 15,000ファイル(Enterprise Pro)、50,000ファイル(Enterprise Max)

セキュリティモデル:

  • 専用ストレージ: 各組織のファイルは、Vespaベクトルストレージ内の一意の名前空間を持つ、分離されたAWS S3「フォルダー」に保存されます

  • 暗号化: 保存時はAES-256暗号化、転送時はTLS暗号化

  • ロールベースアクセス制御(RBAC): すべてのシステムにわたり、最小権限アクセスを徹底します

  • モデルトレーニングなし: 同期されたファイルはAIモデルのトレーニングに使用されることはありません

  • 自動同期: SharePoint/OneDriveでのファイルの変更/削除は、Perplexityに自動的に反映されます

ユースケース: 頻繁に参照されるドキュメント、プロジェクト別のファイルコレクション、またはキュレーションされたコンテンツを含む共同作業用スペースで、最大限の回答精度を必要とするチーム。

バックエンドアーキテクチャ & データフロー

接続 & 認証

  • 管理者の有効化: 組織の管理者は、アクセス許可設定でSharePoint/OneDriveコネクタを有効にします

  • ユーザー認証: ユーザーは、Microsoft Entra(Azure AD)を介してOAuth 2.0で認証されます

  • サイトの選択: ユーザーは、接続する特定のSharePointサイトを選択します

  • 管理者の同意: Microsoft管理者は、Microsoft EntraでPerplexityアプリに対して組織全体の同意を付与する必要がある場合があります

両方のメソッドがアクティブな場合:

  • Perplexityは、ローカルインデックスとSharePoint APIの両方を同時にクエリします

  • 結果は、最も関連性の高いソースを優先するために再ランク付けされます

  • 引用は、ファイル全体にアクセスできるようにSharePointへ直接リンクします

インデックス作成プロセス(高精度検索)

ファイルの同期とストレージ:

  1. ファイルの選択: ユーザーはPerplexity UIを介してファイル/フォルダーを選択します

  2. ダウンロード: Microsoft Graph APIを介してSharePointからファイルをダウンロード

  3. ストレージ: 生ファイルを、組織ごとの専用ネームスペースでAWS S3に保存

  4. 解析: サポートされている形式(PDF、DOCX、XLSX、PPTX、CSV、TXT、MD、JSON)からのテキスト抽出

  5. ベクトル化: コンテンツを埋め込みに変換し、Vespaベクトルデータベースに保存

  6. メタデータのインデックス作成: 検索で取得できるよう、ファイルのメタデータ(名前、パス、アクセス許可)をインデックス化

  7. 削除: ユーザーがSharePoint/OneDriveとPerplexityの接続を解除すると、インデックス付きファイルを削除することができます

セキュリティ & コンプライアンスインフラストラクチャ

権限の適用

SharePoint/OneDrive側のアクセス許可:

  • ユーザーがSharePoint/OneDriveのファイルへのアクセス権を失うと、そのファイルはPerplexityから直ちに削除されます

  • SharePoint/OneDriveでのファイル削除は、Perplexityインデックスからの即時削除をトリガーします

  • ユーザーは、アクセスするための明示的なSharePoint/OneDriveアクセス許可を持つファイルのみを検索できます

Perplexity側のアクセス許可:

  • 管理者は、組織設定を介してコネクタにアクセスできるユーザーを制御します

  • スペースに同期されたファイルはスペースメンバーが検索できますが、ファイルコンテンツにはSharePoint/OneDriveのアクセス許可が必要です

  • スレッド共有は、管理者が設定した組織の共有ポリシーを尊重します

ベストプラクティス

高精度検索(インデックス作成)を使用するタイミング

  • スペース内のプロジェクト固有のファイルコレクション

  • 頻繁に参照されるナレッジベースのドキュメント

  • 深いセマンティック分析を必要とするファイル

  • キュレーションされたコンテンツを備えた共同作業環境

標準検索を使用するタイミング(APIのみ)

  • 膨大なファイルリポジトリ(数百万のファイル)を検索

  • 厳格なデータレジデンシーと最小限のデータコピー要件

  • アクセス頻度の低いファイルにわたる探索的検索

  • セキュリティ/コンプライアンスの制約が強化されている組織