К основному содержимому

Коннектор Google Диска: безопасность загрузки файлов

Безопасный поиск в Google Диске с помощью ИИ в режимах API или индексации, без обучения модели на ваших данных.

Автор: Emilio Morales
Обновлено более 2 мес. назад

Коннектор Google Drive от Perplexity позволяет пользователям Enterprise Pro и Enterprise Max искать файлы Google Drive своей организации напрямую с помощью запросов на естественном языке на основе ИИ.

Недавно мы представили гибридную архитектуру поиска, которая решает как проблемы безопасности данных, так и ограничения масштабируемости с помощью двух различных режимов поиска: Высокоточный поиск (на основе индексации) и Стандартный поиск (на основе API).

Архитектура поиска: двухуровневый подход

Стандартный поиск (на основе API)

Как это работает:

  • Выполняет запросы к Google Диску напрямую через поисковый API Google во время выполнения запроса.

  • В инфраструктуре Perplexity не хранятся копии файлов, за исключением результатов, найденных в ходе запросов (это можно ограничить с помощью настроек политики хранения данных)

  • Поиск по всему Google Диску пользователя без ограничений по количеству файлов.

  • Доступно всем пользователям Enterprise Pro и Enterprise Max сразу после активации коннектора.

Модель безопасности:

  • Нулевое хранение данных: файлы не копируются и не хранятся в системах Perplexity, за исключением результатов, полученных по запросам (это можно ограничить настройками политики хранения данных)

  • Разрешения в реальном времени: Динамически учитывает собственные средства контроля доступа Google Диска

  • Минимальное копирование данных: сохраняются только фрагменты источников (сниппеты), цитируемые в ответах

  • Нет обучения модели: Синхронизированные файлы никогда не используются для обучения моделей ИИ

  • Немедленный отзыв доступа: когда разрешения Google Диска меняются, изменения доступа сразу отражаются в Perplexity.

Сценарий использования: организации, которым требуется максимальная конфиденциальность данных и минимальный объем хранимых данных, особенно для поиска по миллионам файлов в масштабе предприятия.

Высокоточный поиск (на основе индексации)

Как это работает:

  • Пользователи выбирают определенные файлы/папки для синхронизации с целью локального индексирования в Perplexity

  • Файлы скачиваются, обрабатываются и сохраняются в выделенных бакетах AWS S3, а векторные эмбеддинги — в Vespa

  • Позволяет проводить более глубокий семантический анализ и получать более полные ответы

  • Ограничения по количеству файлов: 500 файлов на Space (Enterprise Pro), 5 000 файлов на Space (Enterprise Max)

  • Общие ограничения для пользователей: 15 000 файлов (Enterprise Pro), 50 000 файлов (Enterprise Max)

Модель безопасности:

  • Выделенное хранилище: Файлы каждой организации хранятся в изолированных «папках» AWS S3 с уникальными пространствами имен в векторном хранилище Vespa

  • Шифрование: шифрование AES-256 при хранении, шифрование TLS при передаче

  • Управление доступом на основе ролей (RBAC): во всех системах обеспечивается доступ по принципу минимальных привилегий (Примечание: Perplexity соблюдает разрешения на доступ к файлам в Google Диске).

  • Без обучения моделей: Синхронизированные файлы никогда не используются для обучения моделей ИИ

  • Автоматическая синхронизация: изменения и удаления файлов в Google Диске автоматически отражаются в Perplexity.

Пример использования: Команды, которым требуется максимальная точность ответов для часто используемых документов, коллекций файлов по конкретным проектам или совместных пространств с отобранным контентом.

Архитектура серверной части и поток данных

Подключение и аутентификация

  • Включение администратором: администраторы организации включают коннектор Google Диска в настройках Разрешения.

  • Аутентификация пользователя: Аутентификация пользователей осуществляется по протоколу OAuth 2.0 через Google.

  • Выбор диска: Пользователи выбирают свой Google Диск для подключения

  • Согласие администратора: Администраторам Google Workspace может потребоваться предоставить общеорганизационное согласие для приложения Perplexity в консоли администратора Google.

Когда оба метода активны:

  • Perplexity одновременно запрашивает локальный индекс и API Google Диска.

  • Результаты повторно ранжируются, чтобы в приоритете были наиболее релевантные источники

  • Ссылки на источники ведут прямо в Google Диск для полного доступа к файлам.

Процесс индексации (высокоточный поиск)

Синхронизация и хранение файлов:

  1. Выбор файла: Пользователь выбирает файлы/папки через пользовательский интерфейс Perplexity

  2. Загрузка: Файлы загружаются из Google Диска через API Google Диска.

  3. Хранение: Необработанные файлы хранятся в AWS S3 с выделенными организационными пространствами имен

  4. Парсинг: Извлечение текста из поддерживаемых форматов (PDF, DOCX, XLSX, PPTX, CSV, TXT, MD, JSON)

  5. Векторизация: контент преобразуется в эмбеддинги и сохраняется в векторной базе данных Vespa

  6. Индексация метаданных: Метаданные файла (имя, путь, разрешения) индексируются для поиска

  7. Удаление: Когда пользователь отключает Google Диск от Perplexity, он может удалить все проиндексированные файлы.

Инфраструктура безопасности и соответствия требованиям

Применение разрешений

Разрешения на стороне Google Диска:

  • Если пользователь теряет доступ к файлу в Google Диске, этот файл немедленно удаляется из Perplexity.

  • Удаление файлов в Google Диске приводит к немедленному удалению из индекса Perplexity.

  • Пользователи могут искать только те файлы, к которым у них есть явные разрешения в Google Диске.

Разрешения со стороны Perplexity:

  • Администраторы определяют, какие пользователи могут получать доступ к коннекторам, в настройках организации

  • Файлы, синхронизированные с Пространствами, доступны для поиска участникам Пространства, но для доступа к ним требуются соответствующие разрешения Google Диска.

  • Совместное использование тредов соответствует корпоративным политикам обмена, установленным администраторами организации.

Рекомендации

Когда использовать высокоточный поиск (индексирование)

  • Коллекции файлов для конкретных проектов в Spaces

  • Часто используемые документы базы знаний

  • Файлы, требующие глубокого семантического анализа

  • Совместная командная работа с тщательно отобранным контентом

Когда использовать стандартный поиск (только API)

  • Поиск по огромным хранилищам файлов (миллионы файлов)

  • Строгие требования к резидентности данных и минимальному копированию данных

  • Поисковые запросы по редко используемым файлам для ознакомления

  • Организации с повышенными ограничениями безопасности/соответствия требованиям