Mit dem SharePoint-Connector und dem OneDrive-Connector von Perplexity können Enterprise Pro- und Enterprise Max-Benutzer die SharePoint-Websites und OneDrive-Dateien ihres Unternehmens direkt über KI-gestützte Abfragen in natürlicher Sprache durchsuchen.
Wir haben kürzlich eine hybride Sucharchitektur eingeführt, die sowohl Datensicherheitsbedenken als auch Skalierbarkeitsbeschränkungen durch zwei verschiedene Suchmodi adressiert: Hochpräzise Suche (indexbasiert) und Standardsuche (API-basiert).
Sucharchitektur: Zweistufiger Ansatz
Standardsuche (API-basiert)
So funktioniert’s:
Fragt SharePoint/OneDrive in Echtzeit direkt über die Microsoft Search API ab
Keine Dateikopien werden in der Perplexity-Infrastruktur gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).
Durchsucht das gesamte SharePoint/OneDrive-Laufwerk des Benutzers ohne Beschränkungen bei der Dateianzahl
Verfügbar für alle Enterprise Pro/Max-Benutzer sofort nach der Aktivierung des Connectors
Sicherheitsmodell:
Zero Data Retention: Dateien werden nicht in Perplexity-Systeme kopiert oder dort gespeichert – abgesehen von den aus Abfragen stammenden Ergebnissen (kann durch Einstellungen der Datenaufbewahrungsrichtlinie eingeschränkt werden).
Echtzeitberechtigungen: Berücksichtigt dynamisch die nativen Zugriffskontrollen von SharePoint/OneDrive
Minimale Datenkopien: Es werden nur die in Antworten enthaltenen Zitatausschnitte aufbewahrt
Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet
Sofortiger Zugriffsentzug: Wenn sich die SharePoint-/OneDrive-Berechtigungen ändern, wird dies in Perplexity sofort wirksam
Anwendungsfall: Organisationen, die maximalen Datenschutz und einen minimalen Daten-Footprint benötigen – insbesondere für die Suche über Millionen von Dateien im Unternehmensmaßstab.
Hochpräzise Suche (indexbasiert)
So funktioniert’s:
Benutzer wählen bestimmte Dateien/Ordner aus, die für die lokale Indizierung in Perplexity synchronisiert werden sollen
Dateien werden heruntergeladen, verarbeitet und in dedizierten AWS-S3-Buckets gespeichert; Vektoreinbettungen liegen in Vespa
Ermöglicht eine tiefere semantische Analyse und umfassendere Antworten
Dateibeschränkungen: 500 Dateien pro Space (Enterprise Pro), 5.000 Dateien pro Space (Enterprise Max)
Gesamtnutzerlimit: 15.000 Dateien (Enterprise Pro), 50.000 Dateien (Enterprise Max)
Sicherheitsmodell:
Dedizierter Speicher: Die Dateien jeder Organisation werden in isolierten AWS S3-„Ordnern“ mit eindeutigen Namespaces im Vespa-Vektorspeicher gespeichert
Verschlüsselung: AES-256-Verschlüsselung im Ruhezustand, TLS-Verschlüsselung während der Übertragung
Rollenbasierte Zugriffskontrolle (RBAC): Minimale Zugriffsrechte werden auf allen Systemen durchgesetzt
Kein Modelltraining: Synchronisierte Dateien werden niemals zum Trainieren von KI-Modellen verwendet
Automatische Synchronisierung: Dateiänderungen/-löschungen in SharePoint/OneDrive werden automatisch in Perplexity übernommen
Anwendungsfall: Teams, die maximale Antwortgenauigkeit für häufig aufgerufene Dokumente, projektspezifische Dateisammlungen oder kollaborative Spaces mit kuratierten Inhalten benötigen.
Backend-Architektur & Datenfluss
Verbindung & Authentifizierung
Admin-Aktivierung: Organisationsadministratoren aktivieren den SharePoint/OneDrive-Connector in den Berechtigungseinstellungen
Benutzerauthentifizierung: Benutzer authentifizieren sich über OAuth 2.0 über Microsoft Entra (Azure AD)
Site-Auswahl: Benutzer wählen bestimmte SharePoint-Websites aus, um sie zu verbinden
Admin-Zustimmung: Microsoft-Administratoren müssen möglicherweise eine organisationsweite Zustimmung für die Perplexity-App in Microsoft Entra erteilen
Wenn beide Methoden aktiv sind:
Perplexity fragt sowohl den lokalen Index als auch die SharePoint-API gleichzeitig ab
Die Ergebnisse werden neu geordnet, um die relevantesten Quellen zu priorisieren
Quellenangaben verweisen direkt zurück zu SharePoint für den vollständigen Dateizugriff
Indexierungsprozess (Hochpräzise Suche)
Dateisynchronisierung und -speicherung:
Dateiauswahl: Der Benutzer wählt Dateien/Ordner über die Perplexity-Benutzeroberfläche aus
Download: Dateien werden über die Microsoft Graph API von SharePoint heruntergeladen
Speicherung: Rohdateien werden in AWS S3 mit dedizierten organisatorischen Namensräumen gespeichert
Parsing: Textextraktion aus unterstützten Formaten (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Vektorisierung: Inhalte werden in Einbettungen umgewandelt und in der Vespa-Vektordatenbank gespeichert
Metadaten-Indexierung: Datei-Metadaten (Name, Pfad, Berechtigungen) werden für die Suche indiziert
Entfernung: Wenn ein Benutzer SharePoint/OneDrive von Perplexity trennt, kann er alle indizierten Dateien entfernen
Sicherheit & Compliance-Infrastruktur
Durchsetzung von Berechtigungen
Berechtigungen auf SharePoint-/OneDrive-Seite:
Wenn ein Benutzer den Zugriff auf eine Datei in SharePoint/OneDrive verliert, wird diese Datei sofort aus Perplexity entfernt
Dateilöschungen in SharePoint/OneDrive lösen eine sofortige Entfernung aus dem Perplexity-Index aus
Benutzer können nur Dateien durchsuchen, für die sie explizite SharePoint/OneDrive-Berechtigungen haben
Berechtigungen auf der Perplexity-Seite:
Administratoren steuern in den Organisationseinstellungen, welche Benutzer Zugriff auf Konnektoren haben
Dateien, die mit Spaces synchronisiert wurden, können von Space-Mitgliedern durchsucht werden, aber für den Dateiinhalt sind SharePoint/OneDrive-Berechtigungen erforderlich
Die Freigabe von Threads berücksichtigt die von Administratoren festgelegten Richtlinien für die organisationsweite Freigabe
Bewährte Verfahren
Wann die hochpräzise Suche (Indexierung) verwendet werden sollte
Projektspezifische Dateisammlungen in Spaces
Häufig aufgerufene Wissensdatenbankdokumente
Dateien, die eine tiefgreifende semantische Analyse erfordern
Kollaborative Teamumgebungen mit kuratierten Inhalten
Wann Sie die Standardsuche verwenden sollten (nur API)
Suche in umfangreichen Dateirepositorien (Millionen von Dateien)
Strenge Anforderungen an Datenresidenz und minimale Datenkopien
Explorative Suchen in selten aufgerufenen Dateien
Organisationen mit erhöhten Sicherheits-/Compliance-Beschränkungen
