Zum Hauptinhalt springen

Google Drive Connector: Datei-Upload-Sicherheit

Durchsuchen Sie Google Drive sicher mit KI – entweder über die API oder im indizierten Modus – ohne Modelltraining mit Ihren Daten.

Verfasst von Emilio Morales
Vor über 2 Monaten aktualisiert

Der Google Drive-Connector von Perplexity ermöglicht Enterprise Pro- und Enterprise-Max-Nutzern, die Google-Drive-Dateien ihrer Organisation direkt über KI-gestützte Abfragen in natürlicher Sprache zu durchsuchen.

Wir haben kürzlich eine hybride Sucharchitektur eingeführt, die sowohl Datensicherheitsbedenken als auch Skalierbarkeitsbeschränkungen durch zwei verschiedene Suchmodi adressiert: Hochpräzise Suche (indexbasiert) und Standardsuche (API-basiert).

Sucharchitektur: Zweistufiger Ansatz

Standardsuche (API-basiert)

So funktioniert es:

  • Fragt Google Drive zum Abfragezeitpunkt direkt über die Google Search API ab.

  • Keine Dateikopien werden in der Perplexity-Infrastruktur gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).

  • Durchsucht das gesamte Google Drive des Nutzers ohne Beschränkung der Dateianzahl.

  • Für alle Enterprise Pro- und Enterprise Max-Nutzer sofort nach Aktivierung des Connectors verfügbar.

Sicherheitsmodell:

  • Zero Data Retention: Dateien werden nicht in Perplexity-Systeme kopiert oder dort gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).

  • Echtzeit-Berechtigungen: Respektiert die nativen Zugriffssteuerungen von Google Drive dynamisch

  • Minimale Datenkopien: Es werden nur die in Antworten enthaltenen Zitatausschnitte aufbewahrt

  • Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet

  • Sofortiger Zugriffsentzug: Wenn sich die Berechtigungen in Google Drive ändern, wird der Zugriff in Perplexity sofort entzogen.

Anwendungsfall: Organisationen, die maximalen Datenschutz und einen minimalen Daten-Footprint benötigen – insbesondere für die Suche über Millionen von Dateien im Unternehmensmaßstab.

Hochpräzise Suche (indexbasiert)

So funktioniert es:

  • Benutzer wählen bestimmte Dateien/Ordner aus, die für die lokale Indizierung in Perplexity synchronisiert werden sollen

  • Dateien werden heruntergeladen, verarbeitet und in dedizierten AWS-S3-Buckets gespeichert; Vektoreinbettungen liegen in Vespa

  • Ermöglicht eine tiefere semantische Analyse und umfassendere Antworten

  • Dateibeschränkungen: 500 Dateien pro Space (Enterprise Pro), 5.000 Dateien pro Space (Enterprise Max)

  • Gesamtnutzerlimit: 15.000 Dateien (Enterprise Pro), 50.000 Dateien (Enterprise Max)

Sicherheitsmodell:

  • Dedizierter Speicher: Die Dateien jeder Organisation werden in isolierten AWS S3-„Ordnern“ mit eindeutigen Namespaces im Vespa-Vektorspeicher gespeichert

  • Verschlüsselung: AES-256-Verschlüsselung im Ruhezustand, TLS-Verschlüsselung während der Übertragung

  • Rollenbasierte Zugriffskontrolle (RBAC): Minimale Zugriffsrechte werden systemübergreifend durchgesetzt (Hinweis: Perplexity folgt den Dateiberechtigungen von Google Drive)

  • Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet

  • Automatische Synchronisierung: Dateiänderungen/-löschungen in Google Drive werden automatisch in Perplexity übernommen.

Anwendungsfall: Teams, die maximale Antwortgenauigkeit für häufig aufgerufene Dokumente, projektspezifische Dateisammlungen oder kollaborative Spaces mit kuratierten Inhalten benötigen.

Backend-Architektur & Datenfluss

Verbindung & Authentifizierung

  • Admin-Aktivierung: Organisationsadministratoren aktivieren den Google Drive-Connector in den Berechtigungen-Einstellungen

  • Benutzerauthentifizierung: Benutzer authentifizieren sich über OAuth 2.0 bei Google.

  • Laufwerksauswahl: Benutzer wählen ihr Google Drive zum Verbinden aus

  • Admin-Zustimmung: Google Workspace-Administratoren müssen möglicherweise in der Google Admin Console eine organisationsweite Zustimmung für die Perplexity-App erteilen.

Wenn beide Methoden aktiv sind:

  • Perplexity fragt gleichzeitig den lokalen Index und die Google Drive-API ab.

  • Die Ergebnisse werden neu geordnet, um die relevantesten Quellen zu priorisieren

  • Quellenangaben verlinken direkt zurück zu Google Drive, um vollen Dateizugriff zu ermöglichen.

Indexierungsprozess (Hochpräzise Suche)

Dateisynchronisierung und -speicherung:

  1. Dateiauswahl: Der Benutzer wählt Dateien/Ordner über die Perplexity-Benutzeroberfläche aus

  2. Download: Dateien werden über die Google Drive-API aus Google Drive heruntergeladen.

  3. Speicherung: Rohdateien werden in AWS S3 mit dedizierten organisatorischen Namensräumen gespeichert

  4. Parsing: Textextraktion aus unterstützten Formaten (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vektorisierung: Inhalte werden in Einbettungen umgewandelt und in der Vespa-Vektordatenbank gespeichert

  6. Metadaten-Indexierung: Datei-Metadaten (Name, Pfad, Berechtigungen) werden für die Suche indiziert

  7. Entfernung: Wenn ein Nutzer Google Drive von Perplexity trennt, kann er alle indizierten Dateien entfernen.

Sicherheit & Compliance-Infrastruktur

Durchsetzung von Berechtigungen

Berechtigungen in Google Drive:

  • Wenn ein Nutzer den Zugriff auf eine Datei in Google Drive verliert, wird diese Datei sofort aus Perplexity entfernt.

  • Das Löschen von Dateien in Google Drive führt zur sofortigen Entfernung aus dem Perplexity-Index.

  • Benutzer können nur nach Dateien suchen, für die sie in Google Drive ausdrücklich Zugriffsberechtigungen haben.

Berechtigungen auf der Perplexity-Seite:

  • Administratoren steuern in den Organisationseinstellungen, welche Benutzer Zugriff auf Konnektoren haben

  • Mit Spaces synchronisierte Dateien sind für Space-Mitglieder durchsuchbar, der Zugriff auf die Dateien erfordert jedoch die entsprechenden Google-Drive-Berechtigungen.

  • Die Freigabe von Threads beachtet die von Organisationsadministratoren festgelegten Freigaberichtlinien.

Bewährte Verfahren

Wann die hochpräzise Suche (Indexierung) verwendet werden sollte

  • Projektspezifische Dateisammlungen in Spaces

  • Häufig aufgerufene Wissensdatenbankdokumente

  • Dateien, die eine tiefgreifende semantische Analyse erfordern

  • Kollaborative Teamumgebungen mit kuratierten Inhalten

Wann Sie die Standardsuche verwenden sollten (nur API)

  • Suche in umfangreichen Dateirepositorien (Millionen von Dateien)

  • Strenge Anforderungen an Datenresidenz und minimale Datenkopien

  • Explorative Suchen in selten aufgerufenen Dateien

  • Organisationen mit erhöhten Sicherheits-/Compliance-Beschränkungen