跳转到主要内容

Google Drive 连接器:文件上传安全

使用 API 或索引模式,通过 AI 安全搜索 Google Drive,无需对您的数据进行任何模型训练。

作者:Emilio Morales
超过 2 个月前更新

Perplexity 的 Google Drive 连接器 使 Enterprise ProEnterprise Max 用户能够通过 AI 驱动的自然语言查询,直接搜索其组织的 Google Drive 文件。

我们最近推出了一个混合搜索架构,通过两种不同的搜索模式来解决数据安全问题和可扩展性限制: 高精度搜索 (基于索引)和 标准搜索 (基于API)。

搜索架构:双层架构

标准搜索(基于API)

工作原理:

  • 在查询时直接通过 Google 的搜索 API 查询 Google Drive

  • 除查询返回的结果外,Perplexity 的基础设施中不会存储任何文件副本(可通过数据保留策略设置加以控制)。

  • 可搜索用户的整个 Google Drive,不受文件数量限制

  • 连接器激活后,所有 Enterprise Pro 和 Enterprise Max 用户即可使用。

安全模型:

  • 零数据保留: 除了从查询中找到的结果外,文件不会被复制或存储在 Perplexity 系统中(可通过数据保留策略设置进行缓解)

  • 实时权限: 动态遵循 Google Drive 的原生访问控制

  • 最少数据复制: 仅保留答案中包含的引用片段

  • 无模型训练: 同步文件绝不会用于训练 AI 模型

  • 即时访问权限撤销: 当 Google Drive 权限发生变化时,访问权限将立即反映在 Perplexity 中。

用例: 需要最大限度的数据隐私保护和尽可能少的数据留存/占用的组织,尤其适用于在企业规模下跨数百万文件进行搜索。

高精度搜索(基于索引)

工作原理:

  • 用户选择特定文件/文件夹进行同步,以便在 Perplexity 中进行本地索引

  • 文件会被下载、解析并存储在专用的 AWS S3 存储桶中,同时在 Vespa 中生成并存储向量嵌入

  • 实现更深入的语义分析和更全面的答案

  • 文件限制: 每个 Space 500 个文件(Enterprise Pro)、每个 Space 5,000 个文件(Enterprise Max)

  • 用户总上限: 15,000 个文件(Enterprise Pro)、50,000 个文件(Enterprise Max)

安全模型:

  • 专用存储: 每个组织的文件都存储在隔离的 AWS S3“文件夹”中,并在 Vespa 向量存储中具有唯一的命名空间

  • 加密: 静态数据采用 AES-256 加密,传输过程采用 TLS 加密

  • 基于角色的访问控制 (RBAC): 在所有系统中实施最小权限访问 (注意: Perplexity 遵循 Google Drive 的文件权限)

  • 无模型训练: 同步文件绝不会用于训练 AI 模型

  • 自动同步: Google Drive 中的文件更改/删除会自动反映在 Perplexity 中

用例: 需要为常用文档、项目专属文件集合,或包含精选内容的协作 Space 提供最高答案准确性的团队。

后端架构 & 数据流

连接 & 身份验证

  • 管理员启用:组织管理员在 权限设置中启用 Google Drive 连接器

  • 用户身份验证: 用户通过 Google 的 OAuth 2.0 进行身份验证

  • 云端硬盘选择:用户选择要连接的 Google Drive

  • 管理员同意: Google Workspace 管理员可能需要在 Google 管理控制台中为 Perplexity 应用程序授予全组织范围的同意。

当两种方法都处于活动状态时:

  • Perplexity 同时查询本地索引和 Google Drive API。

  • 结果将重新排名,以优先显示最相关的来源

  • 引用直接链接至 Google Drive,以获取完整文件访问权限。

索引流程(高精度搜索)

文件同步和存储:

  1. 文件选择: 用户通过 Perplexity 界面选择文件/文件夹

  2. 下载:通过 Google Drive API 从 Google Drive 下载文件

  3. 存储: 原始文件存储在 AWS S3 中,并具有专用的组织命名空间

  4. 解析: 从支持的格式(PDF、DOCX、XLSX、PPTX、CSV、TXT、MD、JSON)中提取文本

  5. 向量化: 将内容转换为嵌入,并存储在 Vespa 向量数据库中

  6. 元数据索引: 对文件元数据(名称、路径、权限)进行索引,以便搜索检索

  7. 移除:当用户将 Google Drive 与 Perplexity 断开连接时,可选择移除任何已索引的文件

安全 & 合规基础设施

权限执行

Google Drive 端权限:

  • 如果用户失去对 Google Drive 中某个文件的访问权限,该文件将立即从 Perplexity 中移除。

  • 在 Google Drive 中删除文件后,Perplexity 索引将立即移除相应文件。

  • 用户只能搜索其拥有明确 Google Drive 访问权限的文件。

Perplexity 端权限:

  • 管理员通过“组织”设置控制哪些用户可以访问连接器

  • 同步到 Spaces 的文件可供 Space 成员搜索,但访问文件需要相应的 Google Drive 权限。

  • 问题共享遵循组织管理员设置的组织共享策略。

最佳实践

何时使用高精度搜索(索引)

  • Space 中的项目专属文件集合

  • 经常访问的知识库文档

  • 需要深度语义分析的文件

  • 具有精选内容的协作团队环境

何时使用标准搜索(仅限API)

  • 在庞大的文件存储库(数百万个文件)中进行搜索

  • 严格的数据驻留和最少的数据复制要求

  • 对不常访问的文件进行探索性搜索

  • 具有更高安全性/合规性限制的组织