Коннектор SharePoint и коннектор OneDrive от Perplexity позволяют пользователям Enterprise Pro и Enterprise Max выполнять поиск по сайтам SharePoint и файлам OneDrive своей организации напрямую с помощью запросов на естественном языке, основанных на ИИ.

Недавно мы представили гибридную архитектуру поиска, которая решает как проблемы безопасности данных, так и ограничения масштабируемости с помощью двух различных режимов поиска: Высокоточный поиск (на основе индексации) и Стандартный поиск (на основе API).

Архитектура поиска: двухуровневый подход

Стандартный поиск (на основе API)

Как это работает:

Напрямую обращается к SharePoint/OneDrive через Microsoft Search API во время выполнения запроса
В инфраструктуре Perplexity не хранятся копии файлов, за исключением результатов, найденных в ходе запросов (это можно ограничить с помощью настроек политики хранения данных)
Поиск по всему хранилищу SharePoint/OneDrive пользователя без ограничений по количеству файлов
Доступно всем пользователям Enterprise Pro/Max сразу после активации коннектора

Модель безопасности:

Нулевое хранение данных: файлы не копируются и не хранятся в системах Perplexity, за исключением результатов, полученных по запросам (это можно ограничить настройками политики хранения данных)
Разрешения в реальном времени: динамически учитывает собственные элементы управления доступом SharePoint/OneDrive
Минимальное копирование данных: сохраняются только фрагменты источников (сниппеты), цитируемые в ответах
Нет обучения модели: Синхронизированные файлы никогда не используются для обучения моделей ИИ
Мгновенный отзыв доступа: когда разрешения SharePoint/OneDrive меняются, доступ в Perplexity обновляется сразу же

Сценарий использования: организации, которым требуется максимальная конфиденциальность данных и минимальный объем хранимых данных, особенно для поиска по миллионам файлов в масштабе предприятия.

Высокоточный поиск (на основе индексации)

Как это работает:

Пользователи выбирают определенные файлы/папки для синхронизации с целью локального индексирования в Perplexity
Файлы скачиваются, обрабатываются и сохраняются в выделенных бакетах AWS S3, а векторные эмбеддинги — в Vespa
Позволяет проводить более глубокий семантический анализ и получать более полные ответы
Ограничения по количеству файлов: 500 файлов на Проекты (Enterprise Pro), 5 000 файлов на Проекты (Enterprise Max)
Общие ограничения для пользователей: 15 000 файлов (Enterprise Pro), 50 000 файлов (Enterprise Max)

Модель безопасности:

Выделенное хранилище: Файлы каждой организации хранятся в изолированных «папках» AWS S3 с уникальными пространствами имен в векторном хранилище Vespa
Шифрование: шифрование AES-256 при хранении, шифрование TLS при передаче
Управление доступом на основе ролей (RBAC): во всех системах действует принцип минимально необходимых привилегий
Без обучения моделей: Синхронизированные файлы никогда не используются для обучения моделей ИИ
Автоматическая синхронизация: изменения и удаления файлов в SharePoint/OneDrive автоматически отражаются в Perplexity

Пример использования: Команды, которым требуется максимальная точность ответов для часто используемых документов, коллекций файлов по конкретным проектам или совместных пространств с отобранным контентом.

Архитектура серверной части и поток данных

Подключение и аутентификация

Действия администратора: администраторы организации включают коннектор SharePoint/OneDrive в настройках разрешений
Аутентификация пользователя: Аутентификация пользователей осуществляется по протоколу OAuth 2.0 через Microsoft Entra (Azure AD)
Выбор сайта: Пользователи выбирают конкретные сайты SharePoint для подключения
Согласие администратора: Администраторам Microsoft может потребоваться предоставить общеорганизационное согласие для приложения Perplexity в Microsoft Entra

Когда оба метода активны:

Perplexity одновременно запрашивает локальный индекс и API SharePoint
Результаты повторно ранжируются, чтобы в приоритете были наиболее релевантные источники
Ссылки на источники ведут непосредственно в SharePoint для полного доступа к файлам

Процесс индексации (высокоточный поиск)

Синхронизация и хранение файлов:

Выбор файла: Пользователь выбирает файлы/папки через пользовательский интерфейс Perplexity
Скачивание: Файлы скачиваются из SharePoint через API Microsoft Graph
Хранение: Необработанные файлы хранятся в AWS S3 с выделенными организационными пространствами имен
Парсинг: Извлечение текста из поддерживаемых форматов (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)
Векторизация: контент преобразуется в эмбеддинги и сохраняется в векторной базе данных Vespa
Индексация метаданных: Метаданные файла (имя, путь, разрешения) индексируются для поиска
Удаление: Когда пользователь отключает SharePoint/OneDrive от Perplexity, он может удалить все индексированные файлы

Инфраструктура безопасности и соответствия требованиям

Применение разрешений

Разрешения на стороне SharePoint/OneDrive:

Если пользователь теряет доступ к файлу в SharePoint/OneDrive, этот файл немедленно удаляется из Perplexity
Удаление файлов в SharePoint/OneDrive приводит к немедленному удалению из индекса Perplexity
Пользователи могут искать только те файлы, к которым у них есть явные права доступа в SharePoint/OneDrive

Разрешения со стороны Perplexity:

Администраторы определяют, какие пользователи могут получать доступ к коннекторам, в настройках организации
Файлы, синхронизированные со Проекты, доступны для поиска участникам Проекты, но доступ к содержимому файлов требует прав SharePoint/OneDrive
Совместное использование тредов соответствует организационным политикам общего доступа, установленным администраторами

Коннекторы SharePoint и OneDrive: безопасность загрузки файлов

Архитектура поиска: двухуровневый подход

Стандартный поиск (на основе API)

Как это работает:

Модель безопасности:

Высокоточный поиск (на основе индексации)

Как это работает:

Модель безопасности:

Архитектура серверной части и поток данных

Подключение и аутентификация

Когда оба метода активны:

Процесс индексации (высокоточный поиск)

Синхронизация и хранение файлов:

Инфраструктура безопасности и соответствия требованиям

Применение разрешений

Разрешения на стороне SharePoint/OneDrive:

Разрешения со стороны Perplexity:

Рекомендации

Когда использовать высокоточный поиск (индексирование)

Когда использовать стандартный поиск (только API)