Passar para o conteúdo principal

Conectores do SharePoint e do OneDrive: segurança no envio de arquivos

Como e quando o Perplexity se conecta ao SharePoint e ao OneDrive por meio da API ou de modos indexados, sem treinar modelos com seus dados

Escrito por Emilio Morales
Atualizado há mais de 2 meses

O conector SharePoint e o conector OneDrive da Perplexity permitem que os usuários do Enterprise Pro e do Enterprise Max pesquisem os sites do SharePoint e os arquivos do OneDrive da organização diretamente por meio de consultas de linguagem natural com inteligência artificial.

Recentemente, introduzimos uma arquitetura de pesquisa híbrida que aborda tanto as preocupações com a segurança de dados quanto as limitações de escalabilidade por meio de dois modos de pesquisa distintos: Pesquisa de alta precisão (baseada em indexação) e Pesquisa padrão (baseada em API).

Arquitetura de pesquisa: abordagem de duas camadas

Pesquisa padrão (baseada em API)

Como funciona:

  • Consulta o SharePoint/OneDrive diretamente por meio da API de pesquisa da Microsoft no momento da consulta

  • Nenhuma cópia de arquivo armazenada na infraestrutura do Perplexity, além dos resultados encontrados nas consultas (pode ser mitigado pelas configurações da política de retenção de dados)

  • Pesquisa em toda a unidade do SharePoint/OneDrive do usuário sem limitações de contagem de arquivos

  • Disponível para todos os usuários do Enterprise Pro/Max imediatamente após a ativação do conector

Modelo de segurança:

  • Zero retenção de dados: Os arquivos não são copiados ou armazenados nos sistemas do Perplexity, exceto os resultados encontrados nas consultas (isso pode ser mitigado pelas configurações da política de retenção de dados)

  • Permissões em tempo real: Respeita os controles de acesso nativos do SharePoint/OneDrive dinamicamente

  • Cópia mínima de dados: Apenas trechos de citações incluídos nas respostas são retidos

  • Sem treinamento de modelos: Os arquivos sincronizados nunca são usados para treinar modelos de IA

  • Revogação imediata de acesso: Quando as permissões do SharePoint/OneDrive são alteradas, o acesso é imediatamente refletido no Perplexity

Caso de uso: Organizações que exigem máxima privacidade de dados e pegada mínima de dados, especialmente para pesquisar em milhões de arquivos em escala corporativa.

Pesquisa de alta precisão (baseada em indexação)

Como funciona:

  • Os usuários selecionam arquivos/pastas específicos para sincronizar para indexação local no Perplexity

  • Os arquivos são baixados, processados e armazenados em buckets dedicados do AWS S3, com embeddings vetoriais no Vespa.

  • Permite uma análise semântica mais profunda e respostas mais abrangentes

  • Limites de arquivos: 500 arquivos por espaço (Enterprise Pro), 5.000 arquivos por espaço (Enterprise Max)

  • Limites totais do usuário: 15.000 arquivos (Enterprise Pro), 50.000 arquivos (Enterprise Max)

Modelo de segurança:

  • Armazenamento dedicado: Os arquivos de cada organização são armazenados em "pastas" isoladas do AWS S3 com namespaces exclusivos no armazenamento de vetores do Vespa

  • Criptografia: Criptografia AES-256 em repouso, criptografia TLS em trânsito

  • Controle de acesso baseado em função (RBAC): Acesso de privilégio mínimo aplicado em todos os sistemas

  • Sem treinamento de modelos: Os arquivos sincronizados nunca são usados para treinar modelos de IA

  • Sincronização automática: As alterações/exclusões de arquivos no SharePoint/OneDrive são refletidas automaticamente no Perplexity

Caso de uso: Equipes que exigem máxima precisão de resposta para documentos acessados com frequência, coleções de arquivos específicas do projeto ou espaços colaborativos com conteúdo selecionado.

Arquitetura de back-end & Fluxo de dados

Conexão & Autenticação

  • Ativação de administrador: Os administradores da organização ativam o conector do SharePoint/OneDrive nas configurações de Permissões

  • Autenticação do usuário: Os usuários se autenticam via OAuth 2.0 por meio do Microsoft Entra (Azure AD)

  • Seleção de site: os usuários selecionam sites específicos do SharePoint para conectar

  • Consentimento do administrador: Os administradores da Microsoft podem precisar conceder consentimento em toda a organização para o aplicativo Perplexity no Microsoft Entra

Quando ambos os métodos estão ativos:

  • O Perplexity consulta o índice local e a API do SharePoint simultaneamente

  • Os resultados são reclassificados para priorizar as fontes mais relevantes

  • As citações são vinculadas diretamente ao SharePoint para acesso total ao arquivo

Processo de indexação (pesquisa de alta precisão)

Sincronização e armazenamento de arquivos:

  1. Seleção de arquivos: O usuário seleciona arquivos/pastas por meio da interface do usuário do Perplexity

  2. Download: Arquivos baixados do SharePoint por meio da API do Microsoft Graph

  3. Armazenamento: Arquivos brutos armazenados no AWS S3 com namespaces organizacionais dedicados

  4. Parseamento: Extração de texto de formatos compatíveis (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vetorização: Conteúdo convertido em embeddings e armazenado no banco de dados vetorial Vespa

  6. Indexação de metadados: Metadados do arquivo (nome, caminho, permissões) indexados para recuperação na pesquisa

  7. Remoção: Quando um usuário desconecta o SharePoint/OneDrive do Perplexity, ele pode optar por remover quaisquer arquivos indexados

Segurança & Infraestrutura de conformidade

Aplicação de permissões

Permissões no lado do SharePoint/OneDrive:

  • Se um usuário perder o acesso a um arquivo no SharePoint/OneDrive, esse arquivo será imediatamente removido do Perplexity

  • As exclusões de arquivos no SharePoint/OneDrive acionam a remoção imediata do índice do Perplexity

  • Os usuários só podem pesquisar arquivos para os quais tenham permissões explícitas de acesso no SharePoint/OneDrive

Permissões do lado do Perplexity:

  • Os administradores controlam quais usuários podem acessar os conectores por meio das configurações da organização

  • Os arquivos sincronizados com os Espaços podem ser pesquisados pelos membros do Espaço, mas o conteúdo do arquivo requer permissões do SharePoint/OneDrive

  • O compartilhamento de conversas respeita as políticas de compartilhamento organizacionais definidas pelos administradores

Práticas recomendadas

Quando usar a pesquisa de alta precisão (indexação)

  • Coleções de arquivos específicos do projeto em Espaços

  • Documentos da base de conhecimento acessados com frequência

  • Arquivos que exigem análise semântica profunda

  • Ambientes de equipe colaborativos com conteúdo selecionado

Quando usar a pesquisa padrão (somente API)

  • Pesquisa em grandes repositórios de arquivos (milhões de arquivos)

  • Residência de dados rigorosa e requisitos mínimos de cópia de dados

  • Pesquisas exploratórias em arquivos acessados com pouca frequência

  • Organizações com maiores restrições de segurança/conformidade