Perplexity 的 Google Drive 连接器 使 Enterprise Pro 和 Enterprise Max 用户能够通过 AI 驱动的自然语言查询,直接搜索其组织的 Google Drive 文件。
我们最近推出了一个混合搜索架构,通过两种不同的搜索模式来解决数据安全问题和可扩展性限制: 高精度搜索 (基于索引)和 标准搜索 (基于API)。
搜索架构:双层架构
标准搜索(基于API)
工作原理:
在查询时直接通过 Google 的搜索 API 查询 Google Drive
除查询返回的结果外,Perplexity 的基础设施中不会存储任何文件副本(可通过数据保留策略设置加以控制)。
可搜索用户的整个 Google Drive,不受文件数量限制
连接器激活后,所有 Enterprise Pro 和 Enterprise Max 用户即可使用。
安全模型:
零数据保留: 除了从查询中找到的结果外,文件不会被复制或存储在 Perplexity 系统中(可通过数据保留策略设置进行缓解)
实时权限: 动态遵循 Google Drive 的原生访问控制
最少数据复制: 仅保留答案中包含的引用片段
无模型训练: 同步文件绝不会用于训练 AI 模型
即时访问权限撤销: 当 Google Drive 权限发生变化时,访问权限将立即反映在 Perplexity 中。
用例: 需要最大限度的数据隐私保护和尽可能少的数据留存/占用的组织,尤其适用于在企业规模下跨数百万文件进行搜索。
高精度搜索(基于索引)
工作原理:
用户选择特定文件/文件夹进行同步,以便在 Perplexity 中进行本地索引
文件会被下载、解析并存储在专用的 AWS S3 存储桶中,同时在 Vespa 中生成并存储向量嵌入
实现更深入的语义分析和更全面的答案
文件限制: 每个 Space 500 个文件(Enterprise Pro)、每个 Space 5,000 个文件(Enterprise Max)
用户总上限: 15,000 个文件(Enterprise Pro)、50,000 个文件(Enterprise Max)
安全模型:
专用存储: 每个组织的文件都存储在隔离的 AWS S3“文件夹”中,并在 Vespa 向量存储中具有唯一的命名空间
加密: 静态数据采用 AES-256 加密,传输过程采用 TLS 加密
基于角色的访问控制 (RBAC): 在所有系统中实施最小权限访问 (注意: Perplexity 遵循 Google Drive 的文件权限)
无模型训练: 同步文件绝不会用于训练 AI 模型
自动同步: Google Drive 中的文件更改/删除会自动反映在 Perplexity 中
用例: 需要为常用文档、项目专属文件集合,或包含精选内容的协作 Space 提供最高答案准确性的团队。
后端架构 & 数据流
连接 & 身份验证
用户身份验证: 用户通过 Google 的 OAuth 2.0 进行身份验证
云端硬盘选择:用户选择要连接的 Google Drive
管理员同意: Google Workspace 管理员可能需要在 Google 管理控制台中为 Perplexity 应用程序授予全组织范围的同意。
当两种方法都处于活动状态时:
Perplexity 同时查询本地索引和 Google Drive API。
结果将重新排名,以优先显示最相关的来源
引用直接链接至 Google Drive,以获取完整文件访问权限。
索引流程(高精度搜索)
文件同步和存储:
文件选择: 用户通过 Perplexity 界面选择文件/文件夹
下载:通过 Google Drive API 从 Google Drive 下载文件
存储: 原始文件存储在 AWS S3 中,并具有专用的组织命名空间
解析: 从支持的格式(PDF、DOCX、XLSX、PPTX、CSV、TXT、MD、JSON)中提取文本
向量化: 将内容转换为嵌入,并存储在 Vespa 向量数据库中
元数据索引: 对文件元数据(名称、路径、权限)进行索引,以便搜索检索
移除:当用户将 Google Drive 与 Perplexity 断开连接时,可选择移除任何已索引的文件
安全 & 合规基础设施
权限执行
Google Drive 端权限:
如果用户失去对 Google Drive 中某个文件的访问权限,该文件将立即从 Perplexity 中移除。
在 Google Drive 中删除文件后,Perplexity 索引将立即移除相应文件。
用户只能搜索其拥有明确 Google Drive 访问权限的文件。
Perplexity 端权限:
管理员通过“组织”设置控制哪些用户可以访问连接器
同步到 Spaces 的文件可供 Space 成员搜索,但访问文件需要相应的 Google Drive 权限。
问题共享遵循组织管理员设置的组织共享策略。
最佳实践
何时使用高精度搜索(索引)
Space 中的项目专属文件集合
经常访问的知识库文档
需要深度语义分析的文件
具有精选内容的协作团队环境
何时使用标准搜索(仅限API)
在庞大的文件存储库(数百万个文件)中进行搜索
严格的数据驻留和最少的数据复制要求
对不常访问的文件进行探索性搜索
具有更高安全性/合规性限制的组织
