Los conectores de SharePoint y OneDrive de Perplexity permiten a los usuarios de Enterprise Pro y Enterprise Max buscar en los sitios de SharePoint y los archivos de OneDrive de su organización directamente mediante consultas en lenguaje natural impulsadas por IA.
Recientemente hemos introducido una arquitectura de búsqueda híbrida que aborda tanto los problemas de seguridad de los datos como las limitaciones de escalabilidad a través de dos modos de búsqueda distintos: Búsqueda de alta precisión (basada en indexación) y Búsqueda estándar (basada en API).
Arquitectura de búsqueda: enfoque de dos niveles
Búsqueda estándar (basada en API)
Cómo funciona:
Consulta SharePoint/OneDrive directamente a través de la API de búsqueda de Microsoft en el momento de la consulta
No se almacenan copias de archivos en la infraestructura de Perplexity, aparte de los resultados de las consultas (esto se puede mitigar mediante la configuración de la política de retención de datos)
Busca en toda la unidad de SharePoint/OneDrive del usuario sin limitaciones en el número de archivos
Disponible para todos los usuarios de Enterprise Pro/Max inmediatamente después de la activación del conector
Modelo de seguridad:
Cero retención de datos: Los archivos no se copian ni se almacenan en los sistemas de Perplexity, aparte de los resultados de las consultas (puede mitigarse mediante la configuración de la política de retención de datos)
Permisos en tiempo real: Respeta los controles de acceso nativos de SharePoint/OneDrive de forma dinámica
Copia mínima de datos: Solo se conservan los fragmentos de citas incluidos en las respuestas
Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA
Revocación inmediata del acceso: Cuando cambian los permisos de SharePoint/OneDrive, el acceso se refleja inmediatamente en Perplexity
Caso práctico: Organizaciones que requieren la máxima privacidad de los datos y una huella de datos mínima, especialmente para buscar en millones de archivos a escala empresarial.
Búsqueda de alta precisión (basada en indexación)
Cómo funciona:
Los usuarios seleccionan archivos o carpetas específicos para sincronizarlos y permitir la indexación local en Perplexity
Los archivos se descargan, se procesan y se almacenan en buckets dedicados de AWS S3, con incrustaciones vectoriales en Vespa
Permite un análisis semántico más profundo y respuestas más completas
Límites de archivos: 500 archivos por espacio (Enterprise Pro), 5.000 archivos por espacio (Enterprise Max)
Límites totales de usuario: 15 000 archivos (Enterprise Pro), 50 000 archivos (Enterprise Max)
Modelo de seguridad:
Almacenamiento dedicado: Los archivos de cada organización se almacenan en «carpetas» aisladas de AWS S3 con espacios de nombres únicos en el almacenamiento vectorial de Vespa.
Cifrado: Cifrado AES-256 en reposo, cifrado TLS en tránsito
Control de acceso basado en roles (RBAC): Acceso con privilegios mínimos aplicado en todos los sistemas
Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA
Sincronización automática: Los cambios/eliminaciones de archivos en SharePoint/OneDrive se reflejan automáticamente en Perplexity
Caso práctico: Equipos que requieren la máxima precisión en las respuestas para documentos de acceso frecuente, colecciones de archivos específicas de proyectos o espacios colaborativos con contenido seleccionado.
Arquitectura de backend y flujo de datos
Conexión y autenticación
Habilitación de administradores: Los administradores de la organización habilitan el conector de SharePoint/OneDrive en la configuración de Permisos
Autenticación de usuario: Los usuarios se autentican mediante OAuth 2.0 a través de Microsoft Entra (Azure AD)
Selección de sitios: Los usuarios seleccionan sitios específicos de SharePoint para conectarse
Consentimiento del administrador: Es posible que los administradores de Microsoft tengan que otorgar el consentimiento de toda la organización para la aplicación Perplexity en Microsoft Entra
Cuando ambos métodos están activos:
Perplexity consulta el índice local y la API de SharePoint simultáneamente
Los resultados se vuelven a clasificar para priorizar las fuentes más relevantes
Las citas enlazan directamente con SharePoint para acceder a los archivos completos
Proceso de indexación (búsqueda de alta precisión)
Sincronización y almacenamiento de archivos:
Selección de archivos: El usuario selecciona archivos/carpetas a través de la interfaz de usuario de Perplexity
Descarga: Los archivos se descargan desde SharePoint a través de la API de Microsoft Graph
Almacenamiento: Los archivos sin procesar se almacenan en AWS S3 con espacios de nombres organizativos dedicados
Análisis: Extracción de texto de los formatos compatibles (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Vectorización: El contenido se convierte en incrustaciones y se almacena en la base de datos vectorial de Vespa
Indexación de metadatos: Los metadatos de los archivos (nombre, ruta, permisos) se indexan para la recuperación en las búsquedas
Eliminación: Cuando un usuario desconecta SharePoint/OneDrive de Perplexity, puede optar por eliminar cualquier archivo indexado
Infraestructura de seguridad y cumplimiento
Aplicación de permisos
Permisos del lado de SharePoint/OneDrive:
Si un usuario pierde el acceso a un archivo en SharePoint/OneDrive, ese archivo se elimina inmediatamente de Perplexity
La eliminación de archivos en SharePoint/OneDrive desencadena la eliminación inmediata del índice de Perplexity
Los usuarios solo pueden buscar archivos a los que tengan permisos explícitos de SharePoint/OneDrive para acceder
Permisos del lado de Perplexity:
Los administradores controlan qué usuarios pueden acceder a los conectores a través de la configuración de la organización
Se pueden buscar los archivos sincronizados con los Espacios entre los miembros del Espacio, pero el contenido de los archivos requiere permisos de SharePoint/OneDrive
El uso compartido de conversaciones respeta las políticas de uso compartido de la organización establecidas por los administradores
Prácticas recomendadas
Cuándo usar la búsqueda de alta precisión (indexación)
Colecciones de archivos específicas de proyectos en Espacios
Documentos de la base de conocimientos a los que se accede con frecuencia
Archivos que requieren un análisis semántico profundo
Entornos de equipo colaborativos con contenido seleccionado
Cuándo usar la búsqueda estándar (solo API)
Búsqueda en grandes repositorios de archivos (millones de archivos)
Residencia de datos estricta y requisitos mínimos de copia de datos
Búsquedas exploratorias en archivos a los que se accede con poca frecuencia
Organizaciones con mayores restricciones de seguridad/cumplimiento
