Passar para o conteúdo principal

Conector do Google Drive: Segurança no envio de arquivos

Pesquise com segurança no Google Drive usando IA, via API ou modo indexado, sem treinamento de modelo com seus dados.

Escrito por Emilio Morales
Atualizado há mais de 2 meses

O conector do Google Drive da Perplexity permite que usuários do Enterprise Pro e do Enterprise Max pesquisem os arquivos do Google Drive da organização diretamente por meio de consultas de linguagem natural com inteligência artificial.

Recentemente, introduzimos uma arquitetura de pesquisa híbrida que aborda tanto as preocupações com a segurança de dados quanto as limitações de escalabilidade por meio de dois modos de pesquisa distintos: Pesquisa de alta precisão (baseada em indexação) e Pesquisa padrão (baseada em API).

Arquitetura de pesquisa: abordagem de duas camadas

Pesquisa padrão (baseada em API)

Como funciona:

  • Consulta o Google Drive diretamente pela API de Pesquisa do Google no momento da consulta

  • Nenhuma cópia de arquivo armazenada na infraestrutura do Perplexity, além dos resultados encontrados nas consultas (pode ser mitigado pelas configurações da política de retenção de dados)

  • Pesquisa em todo o Google Drive do usuário, sem limitação de número de arquivos.

  • Disponível para todos os usuários Enterprise Pro e Enterprise Max imediatamente após a ativação do conector.

Modelo de segurança:

  • Zero retenção de dados: Os arquivos não são copiados ou armazenados nos sistemas do Perplexity, exceto os resultados encontrados nas consultas (isso pode ser mitigado pelas configurações da política de retenção de dados)

  • Permissões em tempo real: Respeita dinamicamente os controles de acesso nativos do Google Drive

  • Cópia mínima de dados: Apenas trechos de citações incluídos nas respostas são retidos

  • Sem treinamento de modelos: Os arquivos sincronizados nunca são usados para treinar modelos de IA

  • Revogação imediata de acesso: Quando as permissões do Google Drive são alteradas, o acesso é refletido imediatamente no Perplexity.

Caso de uso: Organizações que exigem máxima privacidade de dados e pegada mínima de dados, especialmente para pesquisar em milhões de arquivos em escala corporativa.

Pesquisa de alta precisão (baseada em indexação)

Como funciona:

  • Os usuários selecionam arquivos/pastas específicos para sincronizar para indexação local no Perplexity

  • Os arquivos são baixados, processados e armazenados em buckets dedicados do AWS S3, com embeddings vetoriais no Vespa.

  • Permite uma análise semântica mais profunda e respostas mais abrangentes

  • Limites de arquivos: 500 arquivos por espaço (Enterprise Pro), 5.000 arquivos por espaço (Enterprise Max)

  • Limites totais do usuário: 15.000 arquivos (Enterprise Pro), 50.000 arquivos (Enterprise Max)

Modelo de segurança:

  • Armazenamento dedicado: Os arquivos de cada organização são armazenados em "pastas" isoladas do AWS S3 com namespaces exclusivos no armazenamento de vetores do Vespa

  • Criptografia: Criptografia AES-256 em repouso, criptografia TLS em trânsito

  • Controle de Acesso Baseado em Função (RBAC): Acesso com privilégios mínimos aplicado em todos os sistemas (Nota: O Perplexity segue as permissões de arquivo do Google Drive)

  • Sem treinamento de modelos: Os arquivos sincronizados nunca são usados para treinar modelos de IA

  • Sincronização automática: Alterações ou exclusões de arquivos no Google Drive são refletidas automaticamente no Perplexity.

Caso de uso: Equipes que exigem máxima precisão de resposta para documentos acessados com frequência, coleções de arquivos específicas do projeto ou espaços colaborativos com conteúdo selecionado.

Arquitetura de back-end & Fluxo de dados

Conexão & Autenticação

  • Ativação do administrador: Administradores da organização ativam o conector do Google Drive nas configurações de Permissões.

  • Autenticação do usuário: Os usuários se autenticam via OAuth 2.0 pelo Google

  • Seleção do Drive: Os usuários selecionam o Google Drive que desejam conectar.

  • Consentimento do administrador: Os administradores do Google Workspace podem precisar conceder consentimento para toda a organização para o aplicativo Perplexity no Google Admin Console.

Quando ambos os métodos estão ativos:

  • O Perplexity consulta simultaneamente o índice local e a API do Google Drive.

  • Os resultados são reclassificados para priorizar as fontes mais relevantes

  • As citações levam diretamente ao Google Drive para acesso completo aos arquivos.

Processo de indexação (pesquisa de alta precisão)

Sincronização e armazenamento de arquivos:

  1. Seleção de arquivos: O usuário seleciona arquivos/pastas por meio da interface do usuário do Perplexity

  2. Download: Arquivos baixados do Google Drive pela API do Google Drive.

  3. Armazenamento: Arquivos brutos armazenados no AWS S3 com namespaces organizacionais dedicados

  4. Parseamento: Extração de texto de formatos compatíveis (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vetorização: Conteúdo convertido em embeddings e armazenado no banco de dados vetorial Vespa

  6. Indexação de metadados: Metadados do arquivo (nome, caminho, permissões) indexados para recuperação na pesquisa

  7. Remoção: Quando um usuário desconecta o Google Drive do Perplexity, pode optar por remover quaisquer arquivos indexados.

Segurança & Infraestrutura de conformidade

Aplicação de permissões

Permissões do Google Drive:

  • Se um usuário perder o acesso a um arquivo no Google Drive, esse arquivo será imediatamente removido do Perplexity.

  • A exclusão de arquivos no Google Drive aciona a remoção imediata do índice do Perplexity.

  • Os usuários só podem pesquisar arquivos para os quais tenham permissões explícitas de acesso no Google Drive.

Permissões do lado do Perplexity:

  • Os administradores controlam quais usuários podem acessar os conectores por meio das configurações da organização

  • Os arquivos sincronizados com o Spaces podem ser pesquisados pelos membros do Space, mas o acesso aos arquivos exige as permissões apropriadas no Google Drive.

  • O compartilhamento de threads segue as políticas de compartilhamento definidas pelos administradores da organização.

Práticas recomendadas

Quando usar a pesquisa de alta precisão (indexação)

  • Coleções de arquivos específicos do projeto em Espaços

  • Documentos da base de conhecimento acessados com frequência

  • Arquivos que exigem análise semântica profunda

  • Ambientes de equipe colaborativos com conteúdo selecionado

Quando usar a pesquisa padrão (somente API)

  • Pesquisa em grandes repositórios de arquivos (milhões de arquivos)

  • Residência de dados rigorosa e requisitos mínimos de cópia de dados

  • Pesquisas exploratórias em arquivos acessados com pouca frequência

  • Organizações com maiores restrições de segurança/conformidade