Zum Hauptinhalt springen

SharePoint- und OneDrive-Konnektoren: Sicherheit beim Hochladen von Dateien

Wie und wann Perplexity sich über API oder indizierte Modi mit SharePoint und OneDrive verbindet, ohne Modelle mit Ihren Daten zu trainieren

Verfasst von Emilio Morales
Vor über 2 Monaten aktualisiert

Mit dem SharePoint-Connector und dem OneDrive-Connector von Perplexity können Enterprise Pro- und Enterprise Max-Benutzer die SharePoint-Websites und OneDrive-Dateien ihres Unternehmens direkt über KI-gestützte Abfragen in natürlicher Sprache durchsuchen.

Wir haben kürzlich eine hybride Sucharchitektur eingeführt, die sowohl Datensicherheitsbedenken als auch Skalierbarkeitsbeschränkungen durch zwei verschiedene Suchmodi adressiert: Hochpräzise Suche (indexbasiert) und Standardsuche (API-basiert).

Sucharchitektur: Zweistufiger Ansatz

Standardsuche (API-basiert)

So funktioniert’s:

  • Fragt SharePoint/OneDrive in Echtzeit direkt über die Microsoft Search API ab

  • Keine Dateikopien werden in der Perplexity-Infrastruktur gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).

  • Durchsucht das gesamte SharePoint/OneDrive-Laufwerk des Benutzers ohne Beschränkungen bei der Dateianzahl

  • Verfügbar für alle Enterprise Pro/Max-Benutzer sofort nach der Aktivierung des Connectors

Sicherheitsmodell:

  • Zero Data Retention: Dateien werden nicht in Perplexity-Systeme kopiert oder dort gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).

  • Echtzeitberechtigungen: Berücksichtigt dynamisch die nativen Zugriffskontrollen von SharePoint/OneDrive

  • Minimale Datenkopien: Es werden nur die in Antworten enthaltenen Zitatausschnitte aufbewahrt

  • Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet

  • Sofortiger Zugriffs­entzug: Wenn sich die SharePoint-/OneDrive-Berechtigungen ändern, wird dies in Perplexity sofort wirksam

Anwendungsfall: Organisationen, die maximalen Datenschutz und einen minimalen Daten-Footprint benötigen – insbesondere für die Suche über Millionen von Dateien im Unternehmensmaßstab.

Hochpräzise Suche (indexbasiert)

So funktioniert’s:

  • Benutzer wählen bestimmte Dateien/Ordner aus, die für die lokale Indizierung in Perplexity synchronisiert werden sollen

  • Dateien werden heruntergeladen, verarbeitet und in dedizierten AWS-S3-Buckets gespeichert; Vektoreinbettungen liegen in Vespa

  • Ermöglicht eine tiefere semantische Analyse und umfassendere Antworten

  • Dateibeschränkungen: 500 Dateien pro Space (Enterprise Pro), 5.000 Dateien pro Space (Enterprise Max)

  • Gesamtnutzerlimit: 15.000 Dateien (Enterprise Pro), 50.000 Dateien (Enterprise Max)

Sicherheitsmodell:

  • Dedizierter Speicher: Die Dateien jeder Organisation werden in isolierten AWS S3-„Ordnern“ mit eindeutigen Namespaces im Vespa-Vektorspeicher gespeichert

  • Verschlüsselung: AES-256-Verschlüsselung im Ruhezustand, TLS-Verschlüsselung während der Übertragung

  • Rollenbasierte Zugriffskontrolle (RBAC): Minimale Zugriffsrechte werden auf allen Systemen durchgesetzt

  • Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet

  • Automatische Synchronisierung: Dateiänderungen/-löschungen in SharePoint/OneDrive werden automatisch in Perplexity übernommen

Anwendungsfall: Teams, die maximale Antwortgenauigkeit für häufig aufgerufene Dokumente, projektspezifische Dateisammlungen oder kollaborative Spaces mit kuratierten Inhalten benötigen.

Backend-Architektur & Datenfluss

Verbindung & Authentifizierung

  • Admin-Aktivierung: Organisationsadministratoren aktivieren den SharePoint/OneDrive-Connector in den Berechtigungseinstellungen

  • Benutzerauthentifizierung: Benutzer authentifizieren sich über OAuth 2.0 über Microsoft Entra (Azure AD)

  • Site-Auswahl: Benutzer wählen bestimmte SharePoint-Websites aus, um sie zu verbinden

  • Admin-Zustimmung: Microsoft-Administratoren müssen möglicherweise eine organisationsweite Zustimmung für die Perplexity-App in Microsoft Entra erteilen

Wenn beide Methoden aktiv sind:

  • Perplexity fragt sowohl den lokalen Index als auch die SharePoint-API gleichzeitig ab

  • Die Ergebnisse werden neu geordnet, um die relevantesten Quellen zu priorisieren

  • Quellenangaben verweisen direkt zurück zu SharePoint für den vollständigen Dateizugriff

Indexierungsprozess (Hochpräzise Suche)

Dateisynchronisierung und -speicherung:

  1. Dateiauswahl: Der Benutzer wählt Dateien/Ordner über die Perplexity-Benutzeroberfläche aus

  2. Download: Dateien werden über die Microsoft Graph API von SharePoint heruntergeladen

  3. Speicherung: Rohdateien werden in AWS S3 mit dedizierten organisatorischen Namensräumen gespeichert

  4. Parsing: Textextraktion aus unterstützten Formaten (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vektorisierung: Inhalte werden in Einbettungen umgewandelt und in der Vespa-Vektordatenbank gespeichert

  6. Metadaten-Indexierung: Datei-Metadaten (Name, Pfad, Berechtigungen) werden für die Suche indiziert

  7. Entfernung: Wenn ein Benutzer SharePoint/OneDrive von Perplexity trennt, kann er alle indizierten Dateien entfernen

Sicherheit & Compliance-Infrastruktur

Durchsetzung von Berechtigungen

Berechtigungen auf SharePoint-/OneDrive-Seite:

  • Wenn ein Benutzer den Zugriff auf eine Datei in SharePoint/OneDrive verliert, wird diese Datei sofort aus Perplexity entfernt

  • Dateilöschungen in SharePoint/OneDrive lösen eine sofortige Entfernung aus dem Perplexity-Index aus

  • Benutzer können nur Dateien durchsuchen, für die sie explizite SharePoint/OneDrive-Berechtigungen haben

Berechtigungen auf der Perplexity-Seite:

  • Administratoren steuern in den Organisationseinstellungen, welche Benutzer Zugriff auf Konnektoren haben

  • Dateien, die mit Spaces synchronisiert wurden, können von Space-Mitgliedern durchsucht werden, aber für den Dateiinhalt sind SharePoint/OneDrive-Berechtigungen erforderlich

  • Die Freigabe von Threads berücksichtigt die von Administratoren festgelegten Richtlinien für die organisationsweite Freigabe

Bewährte Verfahren

Wann die hochpräzise Suche (Indexierung) verwendet werden sollte

  • Projektspezifische Dateisammlungen in Spaces

  • Häufig aufgerufene Wissensdatenbankdokumente

  • Dateien, die eine tiefgreifende semantische Analyse erfordern

  • Kollaborative Teamumgebungen mit kuratierten Inhalten

Wann Sie die Standardsuche verwenden sollten (nur API)

  • Suche in umfangreichen Dateirepositorien (Millionen von Dateien)

  • Strenge Anforderungen an Datenresidenz und minimale Datenkopien

  • Explorative Suchen in selten aufgerufenen Dateien

  • Organisationen mit erhöhten Sicherheits-/Compliance-Beschränkungen