Le connecteur SharePoint et le connecteur OneDrive de Perplexity permettent aux utilisateurs d’Enterprise Pro et d’Enterprise Max de rechercher les sites SharePoint et les fichiers OneDrive de leur organisation directement via des requêtes en langage naturel alimentées par l’IA.
Nous avons récemment introduit une architecture de recherche hybride qui répond à la fois aux préoccupations en matière de sécurité des données et aux limites d’évolutivité grâce à deux modes de recherche distincts : Recherche de haute précision (basée sur l’indexation) et Recherche standard (basée sur l’API).
Architecture de recherche : approche à deux niveaux
Recherche standard (basée sur l'API)
Comment ça marche :
Interroge SharePoint/OneDrive directement via l’API de recherche de Microsoft au moment de la requête
Aucune copie de fichier n’est stockée dans l’infrastructure Perplexity, à l’exception des résultats trouvés à partir des requêtes (peut être atténué par les paramètres de la politique de conservation des données)
Recherche sur l’ensemble du lecteur SharePoint/OneDrive de l’utilisateur sans limitation du nombre de fichiers
Disponible pour tous les utilisateurs Enterprise Pro/Max immédiatement après l’activation du connecteur
Modèle de sécurité :
Aucune conservation des données : Les fichiers ne sont ni copiés ni stockés dans les systèmes Perplexity, à l’exception des résultats trouvés à partir des requêtes (peut être atténué par les paramètres de la politique de conservation des données)
Autorisations en temps réel : Respecte dynamiquement les contrôles d’accès natifs de SharePoint/OneDrive
Copie minimale des données : Seuls les extraits de citation inclus dans les réponses sont conservés
Aucun entraînement de modèle : Les fichiers synchronisés ne sont jamais utilisés pour entraîner des modèles d’IA
Révocation immédiate de l’accès : Lorsque les autorisations SharePoint/OneDrive changent, l’accès est immédiatement révoqué dans Perplexity.
Cas d'utilisation : Les organisations qui exigent une confidentialité maximale des données et une empreinte minimale des données, en particulier pour la recherche dans des millions de fichiers à l'échelle de l'entreprise.
Recherche de haute précision (basée sur l’indexation)
Comment ça marche :
Les utilisateurs sélectionnent des fichiers/dossiers spécifiques à synchroniser pour l’indexation locale dans Perplexity
Les fichiers sont téléchargés, analysés et stockés dans des buckets AWS S3 dédiés, avec des embeddings vectoriels dans Vespa.
Permet une analyse sémantique plus approfondie et des réponses plus complètes
Limites de fichiers : 500 fichiers par espace (Enterprise Pro), 5 000 fichiers par espace (Enterprise Max)
Limites totales par utilisateur : 15 000 fichiers (Enterprise Pro), 50 000 fichiers (Enterprise Max)
Modèle de sécurité :
Stockage dédié : Les fichiers de chaque organisation sont stockés dans des « dossiers » AWS S3 isolés avec des espaces de noms uniques dans le stockage vectoriel Vespa
Chiffrement : Chiffrement AES-256 au repos, chiffrement TLS en transit
Contrôle d’accès basé sur les rôles (RBAC) : Accès au moindre privilège appliqué sur l’ensemble des systèmes
Pas d’entraînement de modèles : Les fichiers synchronisés ne sont jamais utilisés pour entraîner des modèles d’IA
Synchronisation automatique : Les modifications/suppressions de fichiers dans SharePoint/OneDrive sont automatiquement répercutées dans Perplexity
Cas d’utilisation : Les équipes qui exigent une précision maximale des réponses pour les documents fréquemment consultés, les collections de fichiers spécifiques à un projet ou les espaces collaboratifs avec un contenu organisé.
Architecture backend et flux de données
Connexion et authentification
Activation par l’administrateur : Les administrateurs de l’organisation activent le connecteur SharePoint/OneDrive dans les paramètres d’autorisations
Authentification de l’utilisateur : Les utilisateurs s’authentifient via OAuth 2.0 par le biais de Microsoft Entra (Azure AD)
Sélection du site : Les utilisateurs sélectionnent des sites SharePoint spécifiques auxquels se connecter
Consentement de l’administrateur : Les administrateurs Microsoft peuvent avoir besoin d’accorder un consentement à l’échelle de l’organisation pour l’application Perplexity dans Microsoft Entra
Lorsque les deux méthodes sont actives :
Perplexity interroge simultanément l’index local et l’API SharePoint
Les résultats sont reclassés pour donner la priorité aux sources les plus pertinentes
Les citations renvoient directement à SharePoint pour un accès complet aux fichiers
Processus d’indexation (recherche de haute précision)
Synchronisation et stockage des fichiers :
Sélection de fichiers : L'utilisateur sélectionne des fichiers/dossiers via l'interface utilisateur de Perplexity
Téléchargement : Fichiers téléchargés depuis SharePoint via l’API Microsoft Graph
Stockage : Fichiers bruts stockés dans AWS S3 avec des espaces de noms organisationnels dédiés
Analyse : Extraction de texte à partir des formats pris en charge (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Vectorisation : Contenu converti en embeddings et stocké dans la base de données vectorielle Vespa
Indexation des métadonnées : Métadonnées des fichiers (nom, chemin, autorisations) indexées pour la recherche
Suppression : Lorsqu’un utilisateur déconnecte SharePoint/OneDrive de Perplexity, il peut choisir de supprimer tous les fichiers indexés
Infrastructure de sécurité et de conformité
Application des autorisations
Autorisations côté SharePoint/OneDrive :
Si un utilisateur perd l’accès à un fichier dans SharePoint/OneDrive, ce fichier est immédiatement supprimé de Perplexity
La suppression de fichiers dans SharePoint/OneDrive déclenche la suppression immédiate de l'index Perplexity
Les utilisateurs ne peuvent rechercher que les fichiers auxquels ils ont explicitement accès dans SharePoint/OneDrive.
Autorisations côté Perplexity :
Les administrateurs contrôlent quels utilisateurs peuvent accéder aux connecteurs via les paramètres de l'organisation
Les fichiers synchronisés avec les Spaces sont consultables par les membres du Space, mais l’accès au contenu des fichiers nécessite des autorisations SharePoint/OneDrive.
Le partage de conversations respecte les politiques de partage de l’organisation définies par les administrateurs.
Meilleures pratiques
Quand utiliser la recherche de haute précision (indexation)
Collections de fichiers spécifiques à un projet dans les Spaces
Documents de la base de connaissances fréquemment consultés
Fichiers nécessitant une analyse sémantique approfondie
Environnements d'équipe collaboratifs avec un contenu organisé
Quand utiliser la recherche standard (API uniquement)
Recherche dans de vastes référentiels de fichiers (millions de fichiers)
Exigences strictes de résidence des données et de copie minimale des données
Recherches exploratoires dans des fichiers rarement consultés
Organisations soumises à des contraintes de sécurité/conformité accrues
