O conector SharePoint e o conector OneDrive da Perplexity permitem que os usuários do Enterprise Pro e do Enterprise Max pesquisem os sites do SharePoint e os arquivos do OneDrive da organização diretamente por meio de consultas de linguagem natural com inteligência artificial.
Recentemente, introduzimos uma arquitetura de pesquisa híbrida que aborda tanto as preocupações com a segurança de dados quanto as limitações de escalabilidade por meio de dois modos de pesquisa distintos: Pesquisa de alta precisão (baseada em indexação) e Pesquisa padrão (baseada em API).
Arquitetura de pesquisa: abordagem de duas camadas
Pesquisa padrão (baseada em API)
Como funciona:
Consulta o SharePoint/OneDrive diretamente por meio da API de pesquisa da Microsoft no momento da consulta
Nenhuma cópia de arquivo armazenada na infraestrutura do Perplexity, além dos resultados encontrados nas consultas (pode ser mitigado pelas configurações da política de retenção de dados)
Pesquisa em toda a unidade do SharePoint/OneDrive do usuário sem limitações de contagem de arquivos
Disponível para todos os usuários do Enterprise Pro/Max imediatamente após a ativação do conector
Modelo de segurança:
Zero retenção de dados: Os arquivos não são copiados ou armazenados nos sistemas do Perplexity, exceto os resultados encontrados nas consultas (isso pode ser mitigado pelas configurações da política de retenção de dados)
Permissões em tempo real: Respeita os controles de acesso nativos do SharePoint/OneDrive dinamicamente
Cópia mínima de dados: Apenas trechos de citações incluídos nas respostas são retidos
Sem treinamento de modelos: Os arquivos sincronizados nunca são usados para treinar modelos de IA
Revogação imediata de acesso: Quando as permissões do SharePoint/OneDrive são alteradas, o acesso é imediatamente refletido no Perplexity
Caso de uso: Organizações que exigem máxima privacidade de dados e pegada mínima de dados, especialmente para pesquisar em milhões de arquivos em escala corporativa.
Pesquisa de alta precisão (baseada em indexação)
Como funciona:
Os usuários selecionam arquivos/pastas específicos para sincronizar para indexação local no Perplexity
Os arquivos são baixados, processados e armazenados em buckets dedicados do AWS S3, com embeddings vetoriais no Vespa.
Permite uma análise semântica mais profunda e respostas mais abrangentes
Limites de arquivos: 500 arquivos por espaço (Enterprise Pro), 5.000 arquivos por espaço (Enterprise Max)
Limites totais do usuário: 15.000 arquivos (Enterprise Pro), 50.000 arquivos (Enterprise Max)
Modelo de segurança:
Armazenamento dedicado: Os arquivos de cada organização são armazenados em "pastas" isoladas do AWS S3 com namespaces exclusivos no armazenamento de vetores do Vespa
Criptografia: Criptografia AES-256 em repouso, criptografia TLS em trânsito
Controle de acesso baseado em função (RBAC): Acesso de privilégio mínimo aplicado em todos os sistemas
Sem treinamento de modelos: Os arquivos sincronizados nunca são usados para treinar modelos de IA
Sincronização automática: As alterações/exclusões de arquivos no SharePoint/OneDrive são refletidas automaticamente no Perplexity
Caso de uso: Equipes que exigem máxima precisão de resposta para documentos acessados com frequência, coleções de arquivos específicas do projeto ou espaços colaborativos com conteúdo selecionado.
Arquitetura de back-end & Fluxo de dados
Conexão & Autenticação
Ativação de administrador: Os administradores da organização ativam o conector do SharePoint/OneDrive nas configurações de Permissões
Autenticação do usuário: Os usuários se autenticam via OAuth 2.0 por meio do Microsoft Entra (Azure AD)
Seleção de site: os usuários selecionam sites específicos do SharePoint para conectar
Consentimento do administrador: Os administradores da Microsoft podem precisar conceder consentimento em toda a organização para o aplicativo Perplexity no Microsoft Entra
Quando ambos os métodos estão ativos:
O Perplexity consulta o índice local e a API do SharePoint simultaneamente
Os resultados são reclassificados para priorizar as fontes mais relevantes
As citações são vinculadas diretamente ao SharePoint para acesso total ao arquivo
Processo de indexação (pesquisa de alta precisão)
Sincronização e armazenamento de arquivos:
Seleção de arquivos: O usuário seleciona arquivos/pastas por meio da interface do usuário do Perplexity
Download: Arquivos baixados do SharePoint por meio da API do Microsoft Graph
Armazenamento: Arquivos brutos armazenados no AWS S3 com namespaces organizacionais dedicados
Parseamento: Extração de texto de formatos compatíveis (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Vetorização: Conteúdo convertido em embeddings e armazenado no banco de dados vetorial Vespa
Indexação de metadados: Metadados do arquivo (nome, caminho, permissões) indexados para recuperação na pesquisa
Remoção: Quando um usuário desconecta o SharePoint/OneDrive do Perplexity, ele pode optar por remover quaisquer arquivos indexados
Segurança & Infraestrutura de conformidade
Aplicação de permissões
Permissões no lado do SharePoint/OneDrive:
Se um usuário perder o acesso a um arquivo no SharePoint/OneDrive, esse arquivo será imediatamente removido do Perplexity
As exclusões de arquivos no SharePoint/OneDrive acionam a remoção imediata do índice do Perplexity
Os usuários só podem pesquisar arquivos para os quais tenham permissões explícitas de acesso no SharePoint/OneDrive
Permissões do lado do Perplexity:
Os administradores controlam quais usuários podem acessar os conectores por meio das configurações da organização
Os arquivos sincronizados com os Espaços podem ser pesquisados pelos membros do Espaço, mas o conteúdo do arquivo requer permissões do SharePoint/OneDrive
O compartilhamento de conversas respeita as políticas de compartilhamento organizacionais definidas pelos administradores
Práticas recomendadas
Quando usar a pesquisa de alta precisão (indexação)
Coleções de arquivos específicos do projeto em Espaços
Documentos da base de conhecimento acessados com frequência
Arquivos que exigem análise semântica profunda
Ambientes de equipe colaborativos com conteúdo selecionado
Quando usar a pesquisa padrão (somente API)
Pesquisa em grandes repositórios de arquivos (milhões de arquivos)
Residência de dados rigorosa e requisitos mínimos de cópia de dados
Pesquisas exploratórias em arquivos acessados com pouca frequência
Organizações com maiores restrições de segurança/conformidade
