Vai al contenuto principale

Connettore Google Drive: sicurezza nell’upload dei file

Cerca in modo sicuro su Google Drive con l’IA tramite API o modalità indicizzate, senza alcun addestramento del modello sui tuoi dati.

Scritto da Emilio Morales
Aggiornato oltre 2 mesi fa

Il connettore Google Drive di Perplexity consente agli utenti Enterprise Pro e Enterprise Max di cercare direttamente nei file Google Drive della propria organizzazione tramite query in linguaggio naturale basate sull'intelligenza artificiale.

Abbiamo recentemente introdotto un'architettura di ricerca ibrida che affronta sia i problemi di sicurezza dei dati che i limiti di scalabilità attraverso due modalità di ricerca distinte: Ricerca ad alta precisione (basata sull'indicizzazione) e Ricerca standard (basata su API).

Architettura di ricerca: approccio a due livelli

Ricerca standard (basata su API)

Come funziona:

  • Interroga Google Drive direttamente tramite l'API di ricerca di Google al momento della query

  • Nessuna copia dei file viene archiviata nell’infrastruttura di Perplexity, a parte i risultati delle query (può essere mitigato tramite le impostazioni dei criteri di conservazione dei dati)

  • Cerca nell'intero Google Drive dell'utente senza limiti al numero di file.

  • Disponibile per tutti gli utenti Enterprise Pro ed Enterprise Max subito dopo l’attivazione del connettore

Modello di sicurezza:

  • Zero Data Retention: I file non vengono copiati né archiviati nei sistemi di Perplexity, a parte i risultati delle query (può essere mitigato tramite le impostazioni dei criteri di conservazione dei dati)

  • Autorizzazioni in tempo reale: Rispetta dinamicamente i controlli di accesso nativi di Google Drive

  • Copia minima dei dati: Vengono conservati solo gli snippet delle citazioni inclusi nelle risposte

  • Nessun addestramento del modello: I file sincronizzati non vengono mai utilizzati per addestrare i modelli di IA

  • Revoca immediata dell'accesso: Quando le autorizzazioni di Google Drive cambiano, l'accesso viene immediatamente riflesso in Perplexity

Caso d’uso: Organizzazioni che richiedono la massima privacy dei dati e un ingombro minimo, in particolare per la ricerca su milioni di file su scala aziendale.

Ricerca ad alta precisione (basata sull’indicizzazione)

Come funziona:

  • Gli utenti selezionano file/cartelle specifici da sincronizzare per l'indicizzazione locale in Perplexity

  • I file vengono scaricati, analizzati e archiviati in bucket AWS S3 dedicati, con embedding vettoriali in Vespa

  • Consente un'analisi semantica più approfondita e risposte più complete

  • Limiti dei file: 500 file per Spazio (Enterprise Pro), 5.000 file per Spazio (Enterprise Max)

  • Limiti totali per l'utente: 15.000 file (Enterprise Pro), 50.000 file (Enterprise Max)

Modello di sicurezza:

  • Archiviazione dedicata: I file di ogni organizzazione sono archiviati in "cartelle" AWS S3 isolate con spazi dei nomi univoci nell'archiviazione vettoriale Vespa

  • Crittografia: Crittografia AES-256 a riposo, crittografia TLS in transito

  • Controllo degli accessi basato sui ruoli (RBAC): Accesso con privilegi minimi applicato su tutti i sistemi (Nota: Perplexity rispetta le autorizzazioni dei file di Google Drive)

  • Nessun addestramento del modello: I file sincronizzati non vengono mai utilizzati per addestrare i modelli di intelligenza artificiale

  • Sincronizzazione automatica: Le modifiche o le eliminazioni dei file in Google Drive si riflettono automaticamente in Perplexity.

Caso d’uso: Team che richiedono la massima accuratezza delle risposte per documenti consultati spesso, raccolte di file specifiche del progetto o Space collaborativi con contenuti curati.

Architettura back-end & Flusso di dati

Connessione & Autenticazione

  • Abilitazione amministratore: Gli amministratori dell'organizzazione abilitano il connettore Google Drive nelle impostazioni Autorizzazioni

  • Autenticazione utente: Gli utenti si autenticano tramite OAuth 2.0 con Google

  • Selezione di Drive: Gli utenti selezionano il proprio Google Drive da connettere

  • Consenso dell'amministratore: Gli amministratori di Google Workspace potrebbero dover concedere il consenso a livello di organizzazione per l'app Perplexity nella Google Admin Console

Quando entrambi i metodi sono attivi:

  • Perplexity interroga contemporaneamente l'indice locale e l'API di Google Drive.

  • I risultati vengono riclassificati per dare priorità alle fonti più pertinenti

  • Le citazioni rimandano direttamente a Google Drive per l’accesso completo ai file.

Processo di indicizzazione (ricerca ad alta precisione)

Sincronizzazione e archiviazione dei file:

  1. Selezione file: L'utente seleziona file/cartelle tramite l'interfaccia utente di Perplexity

  2. Download: File scaricati da Google Drive tramite l'API di Google Drive

  3. Archiviazione: File grezzi archiviati in AWS S3 con spazi dei nomi organizzativi dedicati

  4. Analisi: Estrazione del testo dai formati supportati (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vettorializzazione: Contenuto convertito in embedding e archiviato nel database vettoriale Vespa

  6. Indicizzazione dei metadati: Metadati dei file (nome, percorso, autorizzazioni) indicizzati per il recupero nei risultati di ricerca

  7. Rimozione: Quando un utente disconnette Google Drive da Perplexity, può scegliere di rimuovere tutti i file indicizzati.

Infrastruttura di sicurezza e conformità

Applicazione delle autorizzazioni

Autorizzazioni lato Google Drive:

  • Se un utente perde l'accesso a un file in Google Drive, tale file viene immediatamente rimosso da Perplexity.

  • L'eliminazione di file in Google Drive comporta la rimozione immediata dall'indice di Perplexity.

  • Gli utenti possono cercare solo i file per i quali dispongono di autorizzazioni esplicite di Google Drive.

Autorizzazioni lato Perplexity:

  • Gli amministratori controllano quali utenti possono accedere ai connettori tramite le impostazioni dell'organizzazione

  • I file sincronizzati con gli Spazi sono ricercabili dai membri dello Spazio, ma l’accesso richiede le autorizzazioni Google Drive appropriate.

  • La condivisione dei thread rispetta le politiche di condivisione dell’organizzazione definite dagli amministratori.

Buone pratiche

Quando utilizzare la ricerca ad alta precisione (indicizzazione)

  • Raccolte di file specifiche del progetto in Spaces

  • Documenti della knowledge base consultati spesso

  • File che richiedono un'analisi semantica approfondita

  • Ambienti di team collaborativi con contenuti curati

Quando utilizzare la ricerca standard (solo API)

  • Ricerca in vasti repository di file (milioni di file)

  • Requisiti rigorosi di residenza dei dati e di copia minima dei dati

  • Ricerche esplorative su file a cui si accede raramente

  • Organizzazioni con maggiori vincoli di sicurezza/conformità