Vai al contenuto principale

Connettori SharePoint e OneDrive: sicurezza del caricamento dei file

Come e quando Perplexity si connette a SharePoint e OneDrive tramite API o modalità indicizzate, senza addestrare modelli sui tuoi dati

Scritto da Emilio Morales
Aggiornato oltre 2 mesi fa

Il connettore SharePoint e il connettore OneDrive di Perplexity consentono agli utenti Enterprise Pro ed Enterprise Max di cercare direttamente nei siti SharePoint e nei file OneDrive della propria organizzazione tramite query in linguaggio naturale basate sull'intelligenza artificiale.

Abbiamo recentemente introdotto un'architettura di ricerca ibrida che affronta sia i problemi di sicurezza dei dati che i limiti di scalabilità attraverso due modalità di ricerca distinte: Ricerca ad alta precisione (basata sull'indicizzazione) e Ricerca standard (basata su API).

Architettura di ricerca: approccio a due livelli

Ricerca standard (basata su API)

Come funziona:

  • Interroga SharePoint/OneDrive direttamente tramite l'API di ricerca di Microsoft al momento della query

  • Nessuna copia dei file viene archiviata nell’infrastruttura di Perplexity, a parte i risultati delle query (può essere mitigato tramite le impostazioni dei criteri di conservazione dei dati)

  • Esegue ricerche nell'intera unità SharePoint/OneDrive dell'utente senza limitazioni sul numero di file

  • Disponibile per tutti gli utenti Enterprise Pro/Max immediatamente dopo l'attivazione del connettore

Modello di sicurezza:

  • Zero Data Retention: I file non vengono copiati né archiviati nei sistemi di Perplexity, a parte i risultati delle query (può essere mitigato tramite le impostazioni dei criteri di conservazione dei dati)

  • Autorizzazioni in tempo reale: Rispetta dinamicamente i controlli di accesso nativi di SharePoint/OneDrive

  • Copia minima dei dati: Vengono conservati solo gli snippet delle citazioni inclusi nelle risposte

  • Nessun addestramento del modello: I file sincronizzati non vengono mai utilizzati per addestrare i modelli di IA

  • Revoca immediata dell'accesso: Quando le autorizzazioni di SharePoint/OneDrive cambiano, l'accesso si riflette immediatamente in Perplexity

Caso d’uso: Organizzazioni che richiedono la massima privacy dei dati e un ingombro minimo, in particolare per la ricerca su milioni di file su scala aziendale.

Ricerca ad alta precisione (basata sull’indicizzazione)

Come funziona:

  • Gli utenti selezionano file/cartelle specifici da sincronizzare per l'indicizzazione locale in Perplexity

  • I file vengono scaricati, analizzati e archiviati in bucket AWS S3 dedicati, con embedding vettoriali in Vespa

  • Consente un'analisi semantica più approfondita e risposte più complete

  • Limiti dei file: 500 file per Spazio (Enterprise Pro), 5.000 file per Spazio (Enterprise Max)

  • Limiti totali per l'utente: 15.000 file (Enterprise Pro), 50.000 file (Enterprise Max)

Modello di sicurezza:

  • Archiviazione dedicata: I file di ogni organizzazione sono archiviati in "cartelle" AWS S3 isolate con spazi dei nomi univoci nell'archiviazione vettoriale Vespa

  • Crittografia: Crittografia AES-256 a riposo, crittografia TLS in transito

  • Controllo degli accessi basato sui ruoli (RBAC): Accesso con privilegi minimi applicato in tutti i sistemi

  • Nessun addestramento del modello: I file sincronizzati non vengono mai utilizzati per addestrare i modelli di intelligenza artificiale

  • Sincronizzazione automatica: Le modifiche/eliminazioni dei file in SharePoint/OneDrive si riflettono automaticamente in Perplexity

Caso d’uso: Team che richiedono la massima accuratezza delle risposte per documenti consultati spesso, raccolte di file specifiche del progetto o Space collaborativi con contenuti curati.

Architettura back-end & Flusso di dati

Connessione & Autenticazione

  • Abilitazione amministratore: Gli amministratori dell'organizzazione abilitano il connettore SharePoint/OneDrive nelle impostazioni delle autorizzazioni

  • Autenticazione utente: Gli utenti si autenticano tramite OAuth 2.0 con Microsoft Entra (Azure AD)

  • Selezione del sito: Gli utenti selezionano siti SharePoint specifici a cui connettersi

  • Consenso dell'amministratore: Gli amministratori Microsoft potrebbero dover concedere il consenso a livello di organizzazione per l'app Perplexity in Microsoft Entra

Quando entrambi i metodi sono attivi:

  • Perplexity interroga contemporaneamente sia l'indice locale che l'API di SharePoint

  • I risultati vengono riclassificati per dare priorità alle fonti più pertinenti

  • Le citazioni rimandano direttamente a SharePoint per l'accesso completo ai file

Processo di indicizzazione (ricerca ad alta precisione)

Sincronizzazione e archiviazione dei file:

  1. Selezione file: L'utente seleziona file/cartelle tramite l'interfaccia utente di Perplexity

  2. Download: File scaricati da SharePoint tramite l'API Microsoft Graph

  3. Archiviazione: File grezzi archiviati in AWS S3 con spazi dei nomi organizzativi dedicati

  4. Analisi: Estrazione del testo dai formati supportati (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vettorializzazione: Contenuto convertito in embedding e archiviato nel database vettoriale Vespa

  6. Indicizzazione dei metadati: Metadati dei file (nome, percorso, autorizzazioni) indicizzati per il recupero nei risultati di ricerca

  7. Rimozione: Quando un utente disconnette SharePoint/OneDrive da Perplexity, può scegliere di rimuovere eventuali file indicizzati

Infrastruttura di sicurezza e conformità

Applicazione delle autorizzazioni

Autorizzazioni lato SharePoint/OneDrive:

  • Se un utente perde l'accesso a un file in SharePoint/OneDrive, tale file viene immediatamente rimosso da Perplexity

  • Le eliminazioni di file in SharePoint/OneDrive attivano la rimozione immediata dall'indice di Perplexity

  • Gli utenti possono cercare solo i file per i quali dispongono di autorizzazioni esplicite di accesso a SharePoint/OneDrive

Autorizzazioni lato Perplexity:

  • Gli amministratori controllano quali utenti possono accedere ai connettori tramite le impostazioni dell'organizzazione

  • I file sincronizzati con gli Spazi sono ricercabili dai membri dello Spazio, ma il contenuto dei file richiede le autorizzazioni di SharePoint/OneDrive

  • La condivisione delle conversazioni rispetta le policy di condivisione dell’organizzazione impostate dagli amministratori

Buone pratiche

Quando utilizzare la ricerca ad alta precisione (indicizzazione)

  • Raccolte di file specifiche del progetto in Spaces

  • Documenti della knowledge base consultati spesso

  • File che richiedono un'analisi semantica approfondita

  • Ambienti di team collaborativi con contenuti curati

Quando utilizzare la ricerca standard (solo API)

  • Ricerca in vasti repository di file (milioni di file)

  • Requisiti rigorosi di residenza dei dati e di copia minima dei dati

  • Ricerche esplorative su file a cui si accede raramente

  • Organizzazioni con maggiori vincoli di sicurezza/conformità