Ir al contenido principal

Conector de Google Drive: Seguridad al subir archivos

Busca de forma segura en Google Drive con IA mediante API o modos indexados, sin entrenamiento de modelos con tus datos.

Escrito por Emilio Morales
Actualizado hace más de 2 meses

El conector de Google Drive de Perplexity permite a los usuarios de Enterprise Pro y Enterprise Max buscar los archivos de Google Drive de su organización directamente mediante consultas en lenguaje natural impulsadas por IA.

Recientemente hemos introducido una arquitectura de búsqueda híbrida que aborda tanto los problemas de seguridad de los datos como las limitaciones de escalabilidad a través de dos modos de búsqueda distintos: Búsqueda de alta precisión (basada en indexación) y Búsqueda estándar (basada en API).

Arquitectura de búsqueda: enfoque de dos niveles

Búsqueda estándar (basada en API)

Cómo funciona:

  • Consulta Google Drive directamente a través de la API de búsqueda de Google en el momento de la consulta.

  • No se almacenan copias de archivos en la infraestructura de Perplexity, aparte de los resultados de las consultas (esto se puede mitigar mediante la configuración de la política de retención de datos)

  • Busca en todo el Google Drive del usuario sin limitaciones en el recuento de archivos.

  • Disponible para todos los usuarios de Enterprise Pro y Enterprise Max inmediatamente después de activar el conector.

Modelo de seguridad:

  • Cero retención de datos: Los archivos no se copian ni se almacenan en los sistemas de Perplexity, aparte de los resultados de las consultas (puede mitigarse mediante la configuración de la política de retención de datos)

  • Permisos en tiempo real: Respeta dinámicamente los controles de acceso nativos de Google Drive

  • Copia mínima de datos: Solo se conservan los fragmentos de citas incluidos en las respuestas

  • Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA

  • Revocación inmediata del acceso: Cuando cambian los permisos de Google Drive, el acceso se refleja inmediatamente en Perplexity.

Caso práctico: Organizaciones que requieren la máxima privacidad de los datos y una huella de datos mínima, especialmente para buscar en millones de archivos a escala empresarial.

Búsqueda de alta precisión (basada en indexación)

Cómo funciona:

  • Los usuarios seleccionan archivos o carpetas específicos para sincronizarlos y permitir la indexación local en Perplexity

  • Los archivos se descargan, se procesan y se almacenan en buckets dedicados de AWS S3, con incrustaciones vectoriales en Vespa

  • Permite un análisis semántico más profundo y respuestas más completas

  • Límites de archivos: 500 archivos por espacio (Enterprise Pro), 5.000 archivos por espacio (Enterprise Max)

  • Límites totales de usuario: 15 000 archivos (Enterprise Pro), 50 000 archivos (Enterprise Max)

Modelo de seguridad:

  • Almacenamiento dedicado: Los archivos de cada organización se almacenan en «carpetas» aisladas de AWS S3 con espacios de nombres únicos en el almacenamiento vectorial de Vespa.

  • Cifrado: Cifrado AES-256 en reposo, cifrado TLS en tránsito

  • Control de acceso basado en roles (RBAC): Se aplica el acceso de privilegio mínimo en todos los sistemas (Nota: Perplexity se ajusta a los permisos de archivo de Google Drive)

  • Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA

  • Sincronización automática: Los cambios y eliminaciones de archivos en Google Drive se reflejan automáticamente en Perplexity.

Caso práctico: Equipos que requieren la máxima precisión en las respuestas para documentos de acceso frecuente, colecciones de archivos específicas de proyectos o espacios colaborativos con contenido seleccionado.

Arquitectura de backend y flujo de datos

Conexión y autenticación

  • Habilitación por parte del administrador: Los administradores de la organización habilitan el conector de Google Drive en la configuración de Permisos

  • Autenticación de usuario: Los usuarios se autentican mediante OAuth 2.0 a través de Google.

  • Selección de Drive: Los usuarios seleccionan el Google Drive que quieren conectar

  • Consentimiento del administrador: Es posible que los administradores de Google Workspace deban otorgar consentimiento a toda la organización para la aplicación Perplexity en la Consola de administración de Google.

Cuando ambos métodos están activos:

  • Perplexity consulta simultáneamente el índice local y la API de Google Drive.

  • Los resultados se vuelven a clasificar para priorizar las fuentes más relevantes

  • Las citas enlazan directamente a Google Drive para acceder a los archivos completos.

Proceso de indexación (búsqueda de alta precisión)

Sincronización y almacenamiento de archivos:

  1. Selección de archivos: El usuario selecciona archivos/carpetas a través de la interfaz de usuario de Perplexity

  2. Descarga: Archivos descargados de Google Drive mediante la API de Google Drive

  3. Almacenamiento: Los archivos sin procesar se almacenan en AWS S3 con espacios de nombres organizativos dedicados

  4. Análisis: Extracción de texto de los formatos compatibles (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vectorización: El contenido se convierte en incrustaciones y se almacena en la base de datos vectorial de Vespa

  6. Indexación de metadatos: Los metadatos de los archivos (nombre, ruta, permisos) se indexan para la recuperación en las búsquedas

  7. Eliminación: Cuando un usuario desconecta Google Drive de Perplexity, puede optar por eliminar los archivos indexados.

Infraestructura de seguridad y cumplimiento

Aplicación de permisos

Permisos del lado de Google Drive:

  • Si un usuario pierde el acceso a un archivo en Google Drive, ese archivo se elimina inmediatamente de Perplexity.

  • La eliminación de archivos en Google Drive provoca su retirada inmediata del índice de Perplexity.

  • Los usuarios solo pueden buscar archivos a los que tengan permisos explícitos de Google Drive.

Permisos del lado de Perplexity:

  • Los administradores controlan qué usuarios pueden acceder a los conectores a través de la configuración de la organización

  • Los miembros del Space pueden buscar los archivos sincronizados con Spaces, pero para acceder a ellos se necesitan los permisos correspondientes de Google Drive.

  • El uso compartido de Thread respeta las políticas de uso compartido de la organización establecidas por los administradores de la organización.

Prácticas recomendadas

Cuándo usar la búsqueda de alta precisión (indexación)

  • Colecciones de archivos específicas de proyectos en Espacios

  • Documentos de la base de conocimientos a los que se accede con frecuencia

  • Archivos que requieren un análisis semántico profundo

  • Entornos de equipo colaborativos con contenido seleccionado

Cuándo usar la búsqueda estándar (solo API)

  • Búsqueda en grandes repositorios de archivos (millones de archivos)

  • Residencia de datos estricta y requisitos mínimos de copia de datos

  • Búsquedas exploratorias en archivos a los que se accede con poca frecuencia

  • Organizaciones con mayores restricciones de seguridad/cumplimiento