Der Google Drive-Connector von Perplexity ermöglicht Enterprise Pro- und Enterprise-Max-Nutzern, die Google-Drive-Dateien ihrer Organisation direkt über KI-gestützte Abfragen in natürlicher Sprache zu durchsuchen.
Wir haben kürzlich eine hybride Sucharchitektur eingeführt, die sowohl Datensicherheitsbedenken als auch Skalierbarkeitsbeschränkungen durch zwei verschiedene Suchmodi adressiert: Hochpräzise Suche (indexbasiert) und Standardsuche (API-basiert).
Sucharchitektur: Zweistufiger Ansatz
Standardsuche (API-basiert)
So funktioniert es:
Fragt Google Drive zum Abfragezeitpunkt direkt über die Google Search API ab.
Keine Dateikopien werden in der Perplexity-Infrastruktur gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).
Durchsucht das gesamte Google Drive des Nutzers ohne Beschränkung der Dateianzahl.
Für alle Enterprise Pro- und Enterprise Max-Nutzer sofort nach Aktivierung des Connectors verfügbar.
Sicherheitsmodell:
Zero Data Retention: Dateien werden nicht in Perplexity-Systeme kopiert oder dort gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).
Echtzeit-Berechtigungen: Respektiert die nativen Zugriffssteuerungen von Google Drive dynamisch
Minimale Datenkopien: Es werden nur die in Antworten enthaltenen Zitatausschnitte aufbewahrt
Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet
Sofortiger Zugriffsentzug: Wenn sich die Berechtigungen in Google Drive ändern, wird der Zugriff in Perplexity sofort entzogen.
Anwendungsfall: Organisationen, die maximalen Datenschutz und einen minimalen Daten-Footprint benötigen – insbesondere für die Suche über Millionen von Dateien im Unternehmensmaßstab.
Hochpräzise Suche (indexbasiert)
So funktioniert es:
Benutzer wählen bestimmte Dateien/Ordner aus, die für die lokale Indizierung in Perplexity synchronisiert werden sollen
Dateien werden heruntergeladen, verarbeitet und in dedizierten AWS-S3-Buckets gespeichert; Vektoreinbettungen liegen in Vespa
Ermöglicht eine tiefere semantische Analyse und umfassendere Antworten
Dateibeschränkungen: 500 Dateien pro Space (Enterprise Pro), 5.000 Dateien pro Space (Enterprise Max)
Gesamtnutzerlimit: 15.000 Dateien (Enterprise Pro), 50.000 Dateien (Enterprise Max)
Sicherheitsmodell:
Dedizierter Speicher: Die Dateien jeder Organisation werden in isolierten AWS S3-„Ordnern“ mit eindeutigen Namespaces im Vespa-Vektorspeicher gespeichert
Verschlüsselung: AES-256-Verschlüsselung im Ruhezustand, TLS-Verschlüsselung während der Übertragung
Rollenbasierte Zugriffskontrolle (RBAC): Minimale Zugriffsrechte werden systemübergreifend durchgesetzt (Hinweis: Perplexity folgt den Dateiberechtigungen von Google Drive)
Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet
Automatische Synchronisierung: Dateiänderungen/-löschungen in Google Drive werden automatisch in Perplexity übernommen.
Anwendungsfall: Teams, die maximale Antwortgenauigkeit für häufig aufgerufene Dokumente, projektspezifische Dateisammlungen oder kollaborative Spaces mit kuratierten Inhalten benötigen.
Backend-Architektur & Datenfluss
Verbindung & Authentifizierung
Admin-Aktivierung: Organisationsadministratoren aktivieren den Google Drive-Connector in den Berechtigungen-Einstellungen
Benutzerauthentifizierung: Benutzer authentifizieren sich über OAuth 2.0 bei Google.
Laufwerksauswahl: Benutzer wählen ihr Google Drive zum Verbinden aus
Admin-Zustimmung: Google Workspace-Administratoren müssen möglicherweise in der Google Admin Console eine organisationsweite Zustimmung für die Perplexity-App erteilen.
Wenn beide Methoden aktiv sind:
Perplexity fragt gleichzeitig den lokalen Index und die Google Drive-API ab.
Die Ergebnisse werden neu geordnet, um die relevantesten Quellen zu priorisieren
Quellenangaben verlinken direkt zurück zu Google Drive, um vollen Dateizugriff zu ermöglichen.
Indexierungsprozess (Hochpräzise Suche)
Dateisynchronisierung und -speicherung:
Dateiauswahl: Der Benutzer wählt Dateien/Ordner über die Perplexity-Benutzeroberfläche aus
Download: Dateien werden über die Google Drive-API aus Google Drive heruntergeladen.
Speicherung: Rohdateien werden in AWS S3 mit dedizierten organisatorischen Namensräumen gespeichert
Parsing: Textextraktion aus unterstützten Formaten (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Vektorisierung: Inhalte werden in Einbettungen umgewandelt und in der Vespa-Vektordatenbank gespeichert
Metadaten-Indexierung: Datei-Metadaten (Name, Pfad, Berechtigungen) werden für die Suche indiziert
Entfernung: Wenn ein Nutzer Google Drive von Perplexity trennt, kann er alle indizierten Dateien entfernen.
Sicherheit & Compliance-Infrastruktur
Durchsetzung von Berechtigungen
Berechtigungen in Google Drive:
Wenn ein Nutzer den Zugriff auf eine Datei in Google Drive verliert, wird diese Datei sofort aus Perplexity entfernt.
Das Löschen von Dateien in Google Drive führt zur sofortigen Entfernung aus dem Perplexity-Index.
Benutzer können nur nach Dateien suchen, für die sie in Google Drive ausdrücklich Zugriffsberechtigungen haben.
Berechtigungen auf der Perplexity-Seite:
Administratoren steuern in den Organisationseinstellungen, welche Benutzer Zugriff auf Konnektoren haben
Mit Spaces synchronisierte Dateien sind für Space-Mitglieder durchsuchbar, der Zugriff auf die Dateien erfordert jedoch die entsprechenden Google-Drive-Berechtigungen.
Die Freigabe von Threads beachtet die von Organisationsadministratoren festgelegten Freigaberichtlinien.
Bewährte Verfahren
Wann die hochpräzise Suche (Indexierung) verwendet werden sollte
Projektspezifische Dateisammlungen in Spaces
Häufig aufgerufene Wissensdatenbankdokumente
Dateien, die eine tiefgreifende semantische Analyse erfordern
Kollaborative Teamumgebungen mit kuratierten Inhalten
Wann Sie die Standardsuche verwenden sollten (nur API)
Suche in umfangreichen Dateirepositorien (Millionen von Dateien)
Strenge Anforderungen an Datenresidenz und minimale Datenkopien
Explorative Suchen in selten aufgerufenen Dateien
Organisationen mit erhöhten Sicherheits-/Compliance-Beschränkungen
