Passer au contenu principal

Connecteur Google Drive : sécurité du téléchargement de fichiers

Effectuez des recherches sécurisées dans Google Drive grâce à l’IA, en mode API ou indexé, sans entraînement de modèle sur vos données.

Écrit par Emilio Morales
Mis à jour il y a plus de 2 mois

Le connecteur Google Drive de Perplexity permet aux utilisateurs d’Enterprise Pro et d’Enterprise Max de rechercher les fichiers Google Drive de leur organisation directement via des requêtes en langage naturel alimentées par l’IA.

Nous avons récemment introduit une architecture de recherche hybride qui répond à la fois aux préoccupations en matière de sécurité des données et aux limites d’évolutivité grâce à deux modes de recherche distincts : Recherche de haute précision (basée sur l’indexation) et Recherche standard (basée sur l’API).

Architecture de recherche : approche à deux niveaux

Recherche standard (basée sur l'API)

Comment ça marche :

  • Interroge Google Drive directement via l’API de recherche de Google au moment de la requête.

  • Aucune copie de fichier n’est stockée dans l’infrastructure Perplexity, à l’exception des résultats trouvés à partir des requêtes (peut être atténué par les paramètres de la politique de conservation des données)

  • Recherche dans l’ensemble du Google Drive de l’utilisateur, sans limitation du nombre de fichiers.

  • Disponible pour tous les utilisateurs Enterprise Pro et Enterprise Max dès l’activation du connecteur.

Modèle de sécurité :

  • Aucune conservation des données : Les fichiers ne sont ni copiés ni stockés dans les systèmes Perplexity, à l’exception des résultats trouvés à partir des requêtes (peut être atténué par les paramètres de la politique de conservation des données)

  • Autorisations en temps réel : Respecte dynamiquement les contrôles d’accès natifs de Google Drive

  • Copie minimale des données : Seuls les extraits de citation inclus dans les réponses sont conservés

  • Aucun entraînement de modèle : Les fichiers synchronisés ne sont jamais utilisés pour entraîner des modèles d’IA

  • Révocation immédiate de l’accès : Lorsque les autorisations Google Drive changent, l’accès est immédiatement répercuté dans Perplexity.

Cas d'utilisation : Les organisations qui exigent une confidentialité maximale des données et une empreinte minimale des données, en particulier pour la recherche dans des millions de fichiers à l'échelle de l'entreprise.

Recherche de haute précision (basée sur l’indexation)

Comment ça marche :

  • Les utilisateurs sélectionnent des fichiers/dossiers spécifiques à synchroniser pour l’indexation locale dans Perplexity

  • Les fichiers sont téléchargés, analysés et stockés dans des buckets AWS S3 dédiés, avec des embeddings vectoriels dans Vespa.

  • Permet une analyse sémantique plus approfondie et des réponses plus complètes

  • Limites de fichiers : 500 fichiers par espace (Enterprise Pro), 5 000 fichiers par espace (Enterprise Max)

  • Limites totales par utilisateur : 15 000 fichiers (Enterprise Pro), 50 000 fichiers (Enterprise Max)

Modèle de sécurité :

  • Stockage dédié : Les fichiers de chaque organisation sont stockés dans des « dossiers » AWS S3 isolés avec des espaces de noms uniques dans le stockage vectoriel Vespa

  • Chiffrement : Chiffrement AES-256 au repos, chiffrement TLS en transit

  • Contrôle d’accès basé sur les rôles (RBAC) : Principe du moindre privilège appliqué sur l’ensemble des systèmes (Remarque : Perplexity respecte les autorisations de fichiers de Google Drive)

  • Pas d’entraînement de modèles : Les fichiers synchronisés ne sont jamais utilisés pour entraîner des modèles d’IA

  • Synchronisation automatique : Les modifications et suppressions de fichiers dans Google Drive sont automatiquement répercutées dans Perplexity.

Cas d’utilisation : Les équipes qui exigent une précision maximale des réponses pour les documents fréquemment consultés, les collections de fichiers spécifiques à un projet ou les espaces collaboratifs avec un contenu organisé.

Architecture backend et flux de données

Connexion et authentification

  • Activation par l’administrateur : Les administrateurs de l’organisation activent le connecteur Google Drive dans les paramètres Autorisations

  • Authentification utilisateur : Les utilisateurs s’authentifient via OAuth 2.0 avec Google

  • Sélection du Drive : Les utilisateurs sélectionnent le Google Drive à connecter.

  • Consentement de l’administrateur : Les administrateurs de Google Workspace peuvent être amenés à accorder un consentement à l’échelle de l’organisation pour l’application Perplexity dans la console d’administration Google.

Lorsque les deux méthodes sont actives :

  • Perplexity interroge simultanément l’index local et l’API Google Drive.

  • Les résultats sont reclassés pour donner la priorité aux sources les plus pertinentes

  • Les citations renvoient directement vers Google Drive pour un accès complet aux fichiers.

Processus d’indexation (recherche de haute précision)

Synchronisation et stockage des fichiers :

  1. Sélection de fichiers : L'utilisateur sélectionne des fichiers/dossiers via l'interface utilisateur de Perplexity

  2. Téléchargement : Fichiers téléchargés depuis Google Drive via l’API Google Drive

  3. Stockage : Fichiers bruts stockés dans AWS S3 avec des espaces de noms organisationnels dédiés

  4. Analyse : Extraction de texte à partir des formats pris en charge (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vectorisation : Contenu converti en embeddings et stocké dans la base de données vectorielle Vespa

  6. Indexation des métadonnées : Métadonnées des fichiers (nom, chemin, autorisations) indexées pour la recherche

  7. Suppression : Lorsqu’un utilisateur déconnecte Google Drive de Perplexity, il peut choisir de supprimer tous les fichiers indexés.

Infrastructure de sécurité et de conformité

Application des autorisations

Autorisations côté Google Drive :

  • Si un utilisateur perd l’accès à un fichier dans Google Drive, ce fichier est immédiatement supprimé de Perplexity.

  • La suppression de fichiers dans Google Drive entraîne leur retrait immédiat de l’index Perplexity.

  • Les utilisateurs ne peuvent rechercher que les fichiers auxquels ils ont des autorisations explicites d’accès dans Google Drive.

Autorisations côté Perplexity :

  • Les administrateurs contrôlent quels utilisateurs peuvent accéder aux connecteurs via les paramètres de l'organisation

  • Les fichiers synchronisés avec les espaces sont consultables par les membres de l’espace, mais leur accès nécessite les autorisations Google Drive appropriées.

  • Le partage des Threads respecte les politiques de partage définies par les administrateurs de l’organisation.

Meilleures pratiques

Quand utiliser la recherche de haute précision (indexation)

  • Collections de fichiers spécifiques à un projet dans les Spaces

  • Documents de la base de connaissances fréquemment consultés

  • Fichiers nécessitant une analyse sémantique approfondie

  • Environnements d'équipe collaboratifs avec un contenu organisé

Quand utiliser la recherche standard (API uniquement)

  • Recherche dans de vastes référentiels de fichiers (millions de fichiers)

  • Exigences strictes de résidence des données et de copie minimale des données

  • Recherches exploratoires dans des fichiers rarement consultés

  • Organisations soumises à des contraintes de sécurité/conformité accrues