Perplexity 的 SharePoint 连接器 和 OneDrive 连接器 使 Enterprise Pro 和 Enterprise Max 用户能够通过 AI 驱动的自然语言查询直接搜索其组织的 SharePoint 站点和 OneDrive 文件。
我们最近推出了一个混合搜索架构,通过两种不同的搜索模式来解决数据安全问题和可扩展性限制: 高精度搜索 (基于索引)和 标准搜索 (基于API)。
搜索架构:双层架构
标准搜索(基于API)
工作原理:
在查询时直接通过 Microsoft 的搜索 API 查询 SharePoint/OneDrive
除查询返回的结果外,Perplexity 的基础设施中不会存储任何文件副本(可通过数据保留策略设置加以控制)。
可在用户整个 SharePoint/OneDrive 云盘范围内搜索,不受文件数量限制
连接器激活后,所有 Enterprise Pro/Max 用户均可立即使用
安全模型:
零数据保留: 除了从查询中找到的结果外,文件不会被复制或存储在 Perplexity 系统中(可通过数据保留策略设置进行缓解)
实时权限: 动态遵循 SharePoint/OneDrive 的原生访问控制
最少数据复制: 仅保留答案中包含的引用片段
无模型训练: 同步文件绝不会用于训练 AI 模型
立即撤销访问权限: 当 SharePoint/OneDrive 权限发生变化时,访问权限会立即反映在 Perplexity 中
用例: 需要最大限度的数据隐私保护和尽可能少的数据留存/占用的组织,尤其适用于在企业规模下跨数百万文件进行搜索。
高精度搜索(基于索引)
工作原理:
用户选择特定文件/文件夹进行同步,以便在 Perplexity 中进行本地索引
文件会被下载、解析并存储在专用的 AWS S3 存储桶中,同时在 Vespa 中生成并存储向量嵌入
实现更深入的语义分析和更全面的答案
文件限制: 每个 Space 500 个文件(Enterprise Pro)、每个 Space 5,000 个文件(Enterprise Max)
用户总上限: 15,000 个文件(Enterprise Pro)、50,000 个文件(Enterprise Max)
安全模型:
专用存储: 每个组织的文件都存储在隔离的 AWS S3“文件夹”中,并在 Vespa 向量存储中具有唯一的命名空间
加密: 静态数据采用 AES-256 加密,传输过程采用 TLS 加密
基于角色的访问控制(RBAC): 在所有系统中强制执行最小权限原则
无模型训练: 同步文件绝不会用于训练 AI 模型
自动同步: SharePoint/OneDrive 中的文件更改/删除会自动反映在 Perplexity 中
用例: 需要为常用文档、项目专属文件集合,或包含精选内容的协作 Space 提供最高答案准确性的团队。
后端架构 & 数据流
连接 & 身份验证
管理员启用: 组织管理员在权限设置中启用 SharePoint/OneDrive 连接器
用户身份验证: 用户通过 Microsoft Entra (Azure AD) 使用 OAuth 2.0 进行身份验证
站点选择: 用户选择要连接的特定 SharePoint 站点
管理员同意: Microsoft 管理员可能需要在 Microsoft Entra 中为 Perplexity 应用程序授予组织范围的同意
当两种方法都处于活动状态时:
Perplexity 同时查询本地索引和 SharePoint API
结果将重新排名,以优先显示最相关的来源
引用会直接链接回 SharePoint,方便访问完整文件
索引流程(高精度搜索)
文件同步和存储:
文件选择: 用户通过 Perplexity 界面选择文件/文件夹
下载: 通过 Microsoft Graph API 从 SharePoint 下载文件
存储: 原始文件存储在 AWS S3 中,并具有专用的组织命名空间
解析: 从支持的格式(PDF、DOCX、XLSX、PPTX、CSV、TXT、MD、JSON)中提取文本
向量化: 将内容转换为嵌入,并存储在 Vespa 向量数据库中
元数据索引: 对文件元数据(名称、路径、权限)进行索引,以便搜索检索
删除: 当用户断开 SharePoint/OneDrive 与 Perplexity 的连接时,他们可以选择删除任何已索引的文件
安全 & 合规基础设施
权限执行
SharePoint/OneDrive 端权限:
如果用户失去对 SharePoint/OneDrive 中文件的访问权限,该文件将立即从 Perplexity 中删除
在 SharePoint/OneDrive 中删除文件会触发从 Perplexity 索引中立即移除
用户只能搜索他们在 SharePoint/OneDrive 中具有明确访问权限的文件
Perplexity 端权限:
管理员通过“组织”设置控制哪些用户可以访问连接器
同步到 Space 的文件可供 Space 成员搜索,但访问文件内容仍需具备 SharePoint/OneDrive 权限
问题共享遵循管理员设置的组织共享策略
最佳实践
何时使用高精度搜索(索引)
Space 中的项目专属文件集合
经常访问的知识库文档
需要深度语义分析的文件
具有精选内容的协作团队环境
何时使用标准搜索(仅限API)
在庞大的文件存储库(数百万个文件)中进行搜索
严格的数据驻留和最少的数据复制要求
对不常访问的文件进行探索性搜索
具有更高安全性/合规性限制的组织
