Passer au contenu principal

Connecteurs SharePoint et OneDrive : sécurité du téléchargement de fichiers

Comment et quand Perplexity se connecte à SharePoint et OneDrive via l’API ou en mode indexé, sans entraîner de modèles sur vos données

Écrit par Emilio Morales
Mis à jour il y a plus de 2 mois

Le connecteur SharePoint et le connecteur OneDrive de Perplexity permettent aux utilisateurs d’Enterprise Pro et d’Enterprise Max de rechercher les sites SharePoint et les fichiers OneDrive de leur organisation directement via des requêtes en langage naturel alimentées par l’IA.

Nous avons récemment introduit une architecture de recherche hybride qui répond à la fois aux préoccupations en matière de sécurité des données et aux limites d’évolutivité grâce à deux modes de recherche distincts : Recherche de haute précision (basée sur l’indexation) et Recherche standard (basée sur l’API).

Architecture de recherche : approche à deux niveaux

Recherche standard (basée sur l'API)

Comment ça marche :

  • Interroge SharePoint/OneDrive directement via l’API de recherche de Microsoft au moment de la requête

  • Aucune copie de fichier n’est stockée dans l’infrastructure Perplexity, à l’exception des résultats trouvés à partir des requêtes (peut être atténué par les paramètres de la politique de conservation des données)

  • Recherche sur l’ensemble du lecteur SharePoint/OneDrive de l’utilisateur sans limitation du nombre de fichiers

  • Disponible pour tous les utilisateurs Enterprise Pro/Max immédiatement après l’activation du connecteur

Modèle de sécurité :

  • Aucune conservation des données : Les fichiers ne sont ni copiés ni stockés dans les systèmes Perplexity, à l’exception des résultats trouvés à partir des requêtes (peut être atténué par les paramètres de la politique de conservation des données)

  • Autorisations en temps réel : Respecte dynamiquement les contrôles d’accès natifs de SharePoint/OneDrive

  • Copie minimale des données : Seuls les extraits de citation inclus dans les réponses sont conservés

  • Aucun entraînement de modèle : Les fichiers synchronisés ne sont jamais utilisés pour entraîner des modèles d’IA

  • Révocation immédiate de l’accès : Lorsque les autorisations SharePoint/OneDrive changent, l’accès est immédiatement révoqué dans Perplexity.

Cas d'utilisation : Les organisations qui exigent une confidentialité maximale des données et une empreinte minimale des données, en particulier pour la recherche dans des millions de fichiers à l'échelle de l'entreprise.

Recherche de haute précision (basée sur l’indexation)

Comment ça marche :

  • Les utilisateurs sélectionnent des fichiers/dossiers spécifiques à synchroniser pour l’indexation locale dans Perplexity

  • Les fichiers sont téléchargés, analysés et stockés dans des buckets AWS S3 dédiés, avec des embeddings vectoriels dans Vespa.

  • Permet une analyse sémantique plus approfondie et des réponses plus complètes

  • Limites de fichiers : 500 fichiers par espace (Enterprise Pro), 5 000 fichiers par espace (Enterprise Max)

  • Limites totales par utilisateur : 15 000 fichiers (Enterprise Pro), 50 000 fichiers (Enterprise Max)

Modèle de sécurité :

  • Stockage dédié : Les fichiers de chaque organisation sont stockés dans des « dossiers » AWS S3 isolés avec des espaces de noms uniques dans le stockage vectoriel Vespa

  • Chiffrement : Chiffrement AES-256 au repos, chiffrement TLS en transit

  • Contrôle d’accès basé sur les rôles (RBAC) : Accès au moindre privilège appliqué sur l’ensemble des systèmes

  • Pas d’entraînement de modèles : Les fichiers synchronisés ne sont jamais utilisés pour entraîner des modèles d’IA

  • Synchronisation automatique : Les modifications/suppressions de fichiers dans SharePoint/OneDrive sont automatiquement répercutées dans Perplexity

Cas d’utilisation : Les équipes qui exigent une précision maximale des réponses pour les documents fréquemment consultés, les collections de fichiers spécifiques à un projet ou les espaces collaboratifs avec un contenu organisé.

Architecture backend et flux de données

Connexion et authentification

  • Activation par l’administrateur : Les administrateurs de l’organisation activent le connecteur SharePoint/OneDrive dans les paramètres d’autorisations

  • Authentification de l’utilisateur : Les utilisateurs s’authentifient via OAuth 2.0 par le biais de Microsoft Entra (Azure AD)

  • Sélection du site : Les utilisateurs sélectionnent des sites SharePoint spécifiques auxquels se connecter

  • Consentement de l’administrateur : Les administrateurs Microsoft peuvent avoir besoin d’accorder un consentement à l’échelle de l’organisation pour l’application Perplexity dans Microsoft Entra

Lorsque les deux méthodes sont actives :

  • Perplexity interroge simultanément l’index local et l’API SharePoint

  • Les résultats sont reclassés pour donner la priorité aux sources les plus pertinentes

  • Les citations renvoient directement à SharePoint pour un accès complet aux fichiers

Processus d’indexation (recherche de haute précision)

Synchronisation et stockage des fichiers :

  1. Sélection de fichiers : L'utilisateur sélectionne des fichiers/dossiers via l'interface utilisateur de Perplexity

  2. Téléchargement : Fichiers téléchargés depuis SharePoint via l’API Microsoft Graph

  3. Stockage : Fichiers bruts stockés dans AWS S3 avec des espaces de noms organisationnels dédiés

  4. Analyse : Extraction de texte à partir des formats pris en charge (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vectorisation : Contenu converti en embeddings et stocké dans la base de données vectorielle Vespa

  6. Indexation des métadonnées : Métadonnées des fichiers (nom, chemin, autorisations) indexées pour la recherche

  7. Suppression : Lorsqu’un utilisateur déconnecte SharePoint/OneDrive de Perplexity, il peut choisir de supprimer tous les fichiers indexés

Infrastructure de sécurité et de conformité

Application des autorisations

Autorisations côté SharePoint/OneDrive :

  • Si un utilisateur perd l’accès à un fichier dans SharePoint/OneDrive, ce fichier est immédiatement supprimé de Perplexity

  • La suppression de fichiers dans SharePoint/OneDrive déclenche la suppression immédiate de l'index Perplexity

  • Les utilisateurs ne peuvent rechercher que les fichiers auxquels ils ont explicitement accès dans SharePoint/OneDrive.

Autorisations côté Perplexity :

  • Les administrateurs contrôlent quels utilisateurs peuvent accéder aux connecteurs via les paramètres de l'organisation

  • Les fichiers synchronisés avec les Spaces sont consultables par les membres du Space, mais l’accès au contenu des fichiers nécessite des autorisations SharePoint/OneDrive.

  • Le partage de conversations respecte les politiques de partage de l’organisation définies par les administrateurs.

Meilleures pratiques

Quand utiliser la recherche de haute précision (indexation)

  • Collections de fichiers spécifiques à un projet dans les Spaces

  • Documents de la base de connaissances fréquemment consultés

  • Fichiers nécessitant une analyse sémantique approfondie

  • Environnements d'équipe collaboratifs avec un contenu organisé

Quand utiliser la recherche standard (API uniquement)

  • Recherche dans de vastes référentiels de fichiers (millions de fichiers)

  • Exigences strictes de résidence des données et de copie minimale des données

  • Recherches exploratoires dans des fichiers rarement consultés

  • Organisations soumises à des contraintes de sécurité/conformité accrues