跳转到主要内容

SharePoint 和 OneDrive 连接器:文件上传安全

Perplexity 如何以及何时通过 API 或索引模式连接到 SharePoint 和 OneDrive,同时不会使用您的数据训练模型

作者:Emilio Morales
超过 2 个月前更新

Perplexity 的 SharePoint 连接器OneDrive 连接器 使 Enterprise Pro 和 Enterprise Max 用户能够通过 AI 驱动的自然语言查询直接搜索其组织的 SharePoint 站点和 OneDrive 文件。

我们最近推出了一个混合搜索架构,通过两种不同的搜索模式来解决数据安全问题和可扩展性限制: 高精度搜索 (基于索引)和 标准搜索 (基于API)。

搜索架构:双层架构

标准搜索(基于API)

工作原理:

  • 在查询时直接通过 Microsoft 的搜索 API 查询 SharePoint/OneDrive

  • 除查询返回的结果外,Perplexity 的基础设施中不会存储任何文件副本(可通过数据保留策略设置加以控制)。

  • 可在用户整个 SharePoint/OneDrive 云盘范围内搜索,不受文件数量限制

  • 连接器激活后,所有 Enterprise Pro/Max 用户均可立即使用

安全模型:

  • 零数据保留: 除了从查询中找到的结果外,文件不会被复制或存储在 Perplexity 系统中(可通过数据保留策略设置进行缓解)

  • 实时权限: 动态遵循 SharePoint/OneDrive 的原生访问控制

  • 最少数据复制: 仅保留答案中包含的引用片段

  • 无模型训练: 同步文件绝不会用于训练 AI 模型

  • 立即撤销访问权限: 当 SharePoint/OneDrive 权限发生变化时,访问权限会立即反映在 Perplexity 中

用例: 需要最大限度的数据隐私保护和尽可能少的数据留存/占用的组织,尤其适用于在企业规模下跨数百万文件进行搜索。

高精度搜索(基于索引)

工作原理:

  • 用户选择特定文件/文件夹进行同步,以便在 Perplexity 中进行本地索引

  • 文件会被下载、解析并存储在专用的 AWS S3 存储桶中,同时在 Vespa 中生成并存储向量嵌入

  • 实现更深入的语义分析和更全面的答案

  • 文件限制: 每个 Space 500 个文件(Enterprise Pro)、每个 Space 5,000 个文件(Enterprise Max)

  • 用户总上限: 15,000 个文件(Enterprise Pro)、50,000 个文件(Enterprise Max)

安全模型:

  • 专用存储: 每个组织的文件都存储在隔离的 AWS S3“文件夹”中,并在 Vespa 向量存储中具有唯一的命名空间

  • 加密: 静态数据采用 AES-256 加密,传输过程采用 TLS 加密

  • 基于角色的访问控制(RBAC): 在所有系统中强制执行最小权限原则

  • 无模型训练: 同步文件绝不会用于训练 AI 模型

  • 自动同步: SharePoint/OneDrive 中的文件更改/删除会自动反映在 Perplexity 中

用例: 需要为常用文档、项目专属文件集合,或包含精选内容的协作 Space 提供最高答案准确性的团队。

后端架构 & 数据流

连接 & 身份验证

  • 管理员启用: 组织管理员在权限设置中启用 SharePoint/OneDrive 连接器

  • 用户身份验证: 用户通过 Microsoft Entra (Azure AD) 使用 OAuth 2.0 进行身份验证

  • 站点选择: 用户选择要连接的特定 SharePoint 站点

  • 管理员同意: Microsoft 管理员可能需要在 Microsoft Entra 中为 Perplexity 应用程序授予组织范围的同意

当两种方法都处于活动状态时:

  • Perplexity 同时查询本地索引和 SharePoint API

  • 结果将重新排名,以优先显示最相关的来源

  • 引用会直接链接回 SharePoint,方便访问完整文件

索引流程(高精度搜索)

文件同步和存储:

  1. 文件选择: 用户通过 Perplexity 界面选择文件/文件夹

  2. 下载: 通过 Microsoft Graph API 从 SharePoint 下载文件

  3. 存储: 原始文件存储在 AWS S3 中,并具有专用的组织命名空间

  4. 解析: 从支持的格式(PDF、DOCX、XLSX、PPTX、CSV、TXT、MD、JSON)中提取文本

  5. 向量化: 将内容转换为嵌入,并存储在 Vespa 向量数据库中

  6. 元数据索引: 对文件元数据(名称、路径、权限)进行索引,以便搜索检索

  7. 删除: 当用户断开 SharePoint/OneDrive 与 Perplexity 的连接时,他们可以选择删除任何已索引的文件

安全 & 合规基础设施

权限执行

SharePoint/OneDrive 端权限:

  • 如果用户失去对 SharePoint/OneDrive 中文件的访问权限,该文件将立即从 Perplexity 中删除

  • 在 SharePoint/OneDrive 中删除文件会触发从 Perplexity 索引中立即移除

  • 用户只能搜索他们在 SharePoint/OneDrive 中具有明确访问权限的文件

Perplexity 端权限:

  • 管理员通过“组织”设置控制哪些用户可以访问连接器

  • 同步到 Space 的文件可供 Space 成员搜索,但访问文件内容仍需具备 SharePoint/OneDrive 权限

  • 问题共享遵循管理员设置的组织共享策略

最佳实践

何时使用高精度搜索(索引)

  • Space 中的项目专属文件集合

  • 经常访问的知识库文档

  • 需要深度语义分析的文件

  • 具有精选内容的协作团队环境

何时使用标准搜索(仅限API)

  • 在庞大的文件存储库(数百万个文件)中进行搜索

  • 严格的数据驻留和最少的数据复制要求

  • 对不常访问的文件进行探索性搜索

  • 具有更高安全性/合规性限制的组织