El conector de Google Drive de Perplexity permite a los usuarios de Enterprise Pro y Enterprise Max buscar los archivos de Google Drive de su organización directamente mediante consultas en lenguaje natural impulsadas por IA.
Recientemente hemos introducido una arquitectura de búsqueda híbrida que aborda tanto los problemas de seguridad de los datos como las limitaciones de escalabilidad a través de dos modos de búsqueda distintos: Búsqueda de alta precisión (basada en indexación) y Búsqueda estándar (basada en API).
Arquitectura de búsqueda: enfoque de dos niveles
Búsqueda estándar (basada en API)
Cómo funciona:
Consulta Google Drive directamente a través de la API de búsqueda de Google en el momento de la consulta.
No se almacenan copias de archivos en la infraestructura de Perplexity, aparte de los resultados de las consultas (esto se puede mitigar mediante la configuración de la política de retención de datos)
Busca en todo el Google Drive del usuario sin limitaciones en el recuento de archivos.
Disponible para todos los usuarios de Enterprise Pro y Enterprise Max inmediatamente después de activar el conector.
Modelo de seguridad:
Cero retención de datos: Los archivos no se copian ni se almacenan en los sistemas de Perplexity, aparte de los resultados de las consultas (puede mitigarse mediante la configuración de la política de retención de datos)
Permisos en tiempo real: Respeta dinámicamente los controles de acceso nativos de Google Drive
Copia mínima de datos: Solo se conservan los fragmentos de citas incluidos en las respuestas
Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA
Revocación inmediata del acceso: Cuando cambian los permisos de Google Drive, el acceso se refleja inmediatamente en Perplexity.
Caso práctico: Organizaciones que requieren la máxima privacidad de los datos y una huella de datos mínima, especialmente para buscar en millones de archivos a escala empresarial.
Búsqueda de alta precisión (basada en indexación)
Cómo funciona:
Los usuarios seleccionan archivos o carpetas específicos para sincronizarlos y permitir la indexación local en Perplexity
Los archivos se descargan, se procesan y se almacenan en buckets dedicados de AWS S3, con incrustaciones vectoriales en Vespa
Permite un análisis semántico más profundo y respuestas más completas
Límites de archivos: 500 archivos por espacio (Enterprise Pro), 5.000 archivos por espacio (Enterprise Max)
Límites totales de usuario: 15 000 archivos (Enterprise Pro), 50 000 archivos (Enterprise Max)
Modelo de seguridad:
Almacenamiento dedicado: Los archivos de cada organización se almacenan en «carpetas» aisladas de AWS S3 con espacios de nombres únicos en el almacenamiento vectorial de Vespa.
Cifrado: Cifrado AES-256 en reposo, cifrado TLS en tránsito
Control de acceso basado en roles (RBAC): Se aplica el acceso de privilegio mínimo en todos los sistemas (Nota: Perplexity se ajusta a los permisos de archivo de Google Drive)
Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA
Sincronización automática: Los cambios y eliminaciones de archivos en Google Drive se reflejan automáticamente en Perplexity.
Caso práctico: Equipos que requieren la máxima precisión en las respuestas para documentos de acceso frecuente, colecciones de archivos específicas de proyectos o espacios colaborativos con contenido seleccionado.
Arquitectura de backend y flujo de datos
Conexión y autenticación
Habilitación por parte del administrador: Los administradores de la organización habilitan el conector de Google Drive en la configuración de Permisos
Autenticación de usuario: Los usuarios se autentican mediante OAuth 2.0 a través de Google.
Selección de Drive: Los usuarios seleccionan el Google Drive que quieren conectar
Consentimiento del administrador: Es posible que los administradores de Google Workspace deban otorgar consentimiento a toda la organización para la aplicación Perplexity en la Consola de administración de Google.
Cuando ambos métodos están activos:
Perplexity consulta simultáneamente el índice local y la API de Google Drive.
Los resultados se vuelven a clasificar para priorizar las fuentes más relevantes
Las citas enlazan directamente a Google Drive para acceder a los archivos completos.
Proceso de indexación (búsqueda de alta precisión)
Sincronización y almacenamiento de archivos:
Selección de archivos: El usuario selecciona archivos/carpetas a través de la interfaz de usuario de Perplexity
Descarga: Archivos descargados de Google Drive mediante la API de Google Drive
Almacenamiento: Los archivos sin procesar se almacenan en AWS S3 con espacios de nombres organizativos dedicados
Análisis: Extracción de texto de los formatos compatibles (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Vectorización: El contenido se convierte en incrustaciones y se almacena en la base de datos vectorial de Vespa
Indexación de metadatos: Los metadatos de los archivos (nombre, ruta, permisos) se indexan para la recuperación en las búsquedas
Eliminación: Cuando un usuario desconecta Google Drive de Perplexity, puede optar por eliminar los archivos indexados.
Infraestructura de seguridad y cumplimiento
Aplicación de permisos
Permisos del lado de Google Drive:
Si un usuario pierde el acceso a un archivo en Google Drive, ese archivo se elimina inmediatamente de Perplexity.
La eliminación de archivos en Google Drive provoca su retirada inmediata del índice de Perplexity.
Los usuarios solo pueden buscar archivos a los que tengan permisos explícitos de Google Drive.
Permisos del lado de Perplexity:
Los administradores controlan qué usuarios pueden acceder a los conectores a través de la configuración de la organización
Los miembros del Space pueden buscar los archivos sincronizados con Spaces, pero para acceder a ellos se necesitan los permisos correspondientes de Google Drive.
El uso compartido de Thread respeta las políticas de uso compartido de la organización establecidas por los administradores de la organización.
Prácticas recomendadas
Cuándo usar la búsqueda de alta precisión (indexación)
Colecciones de archivos específicas de proyectos en Espacios
Documentos de la base de conocimientos a los que se accede con frecuencia
Archivos que requieren un análisis semántico profundo
Entornos de equipo colaborativos con contenido seleccionado
Cuándo usar la búsqueda estándar (solo API)
Búsqueda en grandes repositorios de archivos (millones de archivos)
Residencia de datos estricta y requisitos mínimos de copia de datos
Búsquedas exploratorias en archivos a los que se accede con poca frecuencia
Organizaciones con mayores restricciones de seguridad/cumplimiento
