Ir al contenido principal

Conectores de SharePoint y OneDrive: seguridad en la carga de archivos

Cómo y cuándo se conecta Perplexity a SharePoint y OneDrive a través de la API o de modos indexados, sin entrenar modelos con tus datos

Escrito por Emilio Morales
Actualizado hace más de 2 meses

Los conectores de SharePoint y OneDrive de Perplexity permiten a los usuarios de Enterprise Pro y Enterprise Max buscar en los sitios de SharePoint y los archivos de OneDrive de su organización directamente mediante consultas en lenguaje natural impulsadas por IA.

Recientemente hemos introducido una arquitectura de búsqueda híbrida que aborda tanto los problemas de seguridad de los datos como las limitaciones de escalabilidad a través de dos modos de búsqueda distintos: Búsqueda de alta precisión (basada en indexación) y Búsqueda estándar (basada en API).

Arquitectura de búsqueda: enfoque de dos niveles

Búsqueda estándar (basada en API)

Cómo funciona:

  • Consulta SharePoint/OneDrive directamente a través de la API de búsqueda de Microsoft en el momento de la consulta

  • No se almacenan copias de archivos en la infraestructura de Perplexity, aparte de los resultados de las consultas (esto se puede mitigar mediante la configuración de la política de retención de datos)

  • Busca en toda la unidad de SharePoint/OneDrive del usuario sin limitaciones en el número de archivos

  • Disponible para todos los usuarios de Enterprise Pro/Max inmediatamente después de la activación del conector

Modelo de seguridad:

  • Cero retención de datos: Los archivos no se copian ni se almacenan en los sistemas de Perplexity, aparte de los resultados de las consultas (puede mitigarse mediante la configuración de la política de retención de datos)

  • Permisos en tiempo real: Respeta los controles de acceso nativos de SharePoint/OneDrive de forma dinámica

  • Copia mínima de datos: Solo se conservan los fragmentos de citas incluidos en las respuestas

  • Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA

  • Revocación inmediata del acceso: Cuando cambian los permisos de SharePoint/OneDrive, el acceso se refleja inmediatamente en Perplexity

Caso práctico: Organizaciones que requieren la máxima privacidad de los datos y una huella de datos mínima, especialmente para buscar en millones de archivos a escala empresarial.

Búsqueda de alta precisión (basada en indexación)

Cómo funciona:

  • Los usuarios seleccionan archivos o carpetas específicos para sincronizarlos y permitir la indexación local en Perplexity

  • Los archivos se descargan, se procesan y se almacenan en buckets dedicados de AWS S3, con incrustaciones vectoriales en Vespa

  • Permite un análisis semántico más profundo y respuestas más completas

  • Límites de archivos: 500 archivos por espacio (Enterprise Pro), 5.000 archivos por espacio (Enterprise Max)

  • Límites totales de usuario: 15 000 archivos (Enterprise Pro), 50 000 archivos (Enterprise Max)

Modelo de seguridad:

  • Almacenamiento dedicado: Los archivos de cada organización se almacenan en «carpetas» aisladas de AWS S3 con espacios de nombres únicos en el almacenamiento vectorial de Vespa.

  • Cifrado: Cifrado AES-256 en reposo, cifrado TLS en tránsito

  • Control de acceso basado en roles (RBAC): Acceso con privilegios mínimos aplicado en todos los sistemas

  • Sin entrenamiento de modelos: Los archivos sincronizados nunca se utilizan para entrenar modelos de IA

  • Sincronización automática: Los cambios/eliminaciones de archivos en SharePoint/OneDrive se reflejan automáticamente en Perplexity

Caso práctico: Equipos que requieren la máxima precisión en las respuestas para documentos de acceso frecuente, colecciones de archivos específicas de proyectos o espacios colaborativos con contenido seleccionado.

Arquitectura de backend y flujo de datos

Conexión y autenticación

  • Habilitación de administradores: Los administradores de la organización habilitan el conector de SharePoint/OneDrive en la configuración de Permisos

  • Autenticación de usuario: Los usuarios se autentican mediante OAuth 2.0 a través de Microsoft Entra (Azure AD)

  • Selección de sitios: Los usuarios seleccionan sitios específicos de SharePoint para conectarse

  • Consentimiento del administrador: Es posible que los administradores de Microsoft tengan que otorgar el consentimiento de toda la organización para la aplicación Perplexity en Microsoft Entra

Cuando ambos métodos están activos:

  • Perplexity consulta el índice local y la API de SharePoint simultáneamente

  • Los resultados se vuelven a clasificar para priorizar las fuentes más relevantes

  • Las citas enlazan directamente con SharePoint para acceder a los archivos completos

Proceso de indexación (búsqueda de alta precisión)

Sincronización y almacenamiento de archivos:

  1. Selección de archivos: El usuario selecciona archivos/carpetas a través de la interfaz de usuario de Perplexity

  2. Descarga: Los archivos se descargan desde SharePoint a través de la API de Microsoft Graph

  3. Almacenamiento: Los archivos sin procesar se almacenan en AWS S3 con espacios de nombres organizativos dedicados

  4. Análisis: Extracción de texto de los formatos compatibles (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Vectorización: El contenido se convierte en incrustaciones y se almacena en la base de datos vectorial de Vespa

  6. Indexación de metadatos: Los metadatos de los archivos (nombre, ruta, permisos) se indexan para la recuperación en las búsquedas

  7. Eliminación: Cuando un usuario desconecta SharePoint/OneDrive de Perplexity, puede optar por eliminar cualquier archivo indexado

Infraestructura de seguridad y cumplimiento

Aplicación de permisos

Permisos del lado de SharePoint/OneDrive:

  • Si un usuario pierde el acceso a un archivo en SharePoint/OneDrive, ese archivo se elimina inmediatamente de Perplexity

  • La eliminación de archivos en SharePoint/OneDrive desencadena la eliminación inmediata del índice de Perplexity

  • Los usuarios solo pueden buscar archivos a los que tengan permisos explícitos de SharePoint/OneDrive para acceder

Permisos del lado de Perplexity:

  • Los administradores controlan qué usuarios pueden acceder a los conectores a través de la configuración de la organización

  • Se pueden buscar los archivos sincronizados con los Espacios entre los miembros del Espacio, pero el contenido de los archivos requiere permisos de SharePoint/OneDrive

  • El uso compartido de conversaciones respeta las políticas de uso compartido de la organización establecidas por los administradores

Prácticas recomendadas

Cuándo usar la búsqueda de alta precisión (indexación)

  • Colecciones de archivos específicas de proyectos en Espacios

  • Documentos de la base de conocimientos a los que se accede con frecuencia

  • Archivos que requieren un análisis semántico profundo

  • Entornos de equipo colaborativos con contenido seleccionado

Cuándo usar la búsqueda estándar (solo API)

  • Búsqueda en grandes repositorios de archivos (millones de archivos)

  • Residencia de datos estricta y requisitos mínimos de copia de datos

  • Búsquedas exploratorias en archivos a los que se accede con poca frecuencia

  • Organizaciones con mayores restricciones de seguridad/cumplimiento