Что такое маскирование данных (Data Masking)? Типы, методы и передовой опыт

В результате утечки данных по всему миру каждый год раскрываются конфиденциальные данные миллионов людей, в результате чего многие бизнес-организации теряют миллионы. Фактически, в 2021 году средняя стоимость утечки данных на данный момент составляет 4,24 миллиона долларов. Лично идентифицируемая информация (PII) — это самый дорогостоящий тип данных среди всех скомпрометированных типов данных.

Следовательно, защита данных стала главным приоритетом для многих организаций. Вот почему маскирование данных стало важным методом, необходимым многим компаниям для защиты своих конфиденциальных данных.

Содержание

Что такое маскирование данных (Data Masking)?
Важность маскировки данных
Типы маскировки данных
Статическая маскировка данных (SDM)
Динамическое маскирование данных (DDM)
Детерминированное маскирование данных
Маскирование данных на лету
On-the-fly статистических данных
Методы маскировки данных
Шифрование
Скремблирование
Обнуление
Замена
Перемешивание
Разница в количестве и дате
Дата старения
Лучшие практики маскировки данных
Определите конфиденциальные данные
Определите свой набор методов маскировки данных
Защитите свои методы маскировки данных
Сделайте маскировку повторяемой
Определите сквозной процесс маскирования данных
Маскировка данных имеет важное значение

Что такое маскирование данных (Data Masking)?

Маскирование данных, также известное как On-the-fly данных, скрывает фактические данные с помощью измененного содержимого, такого как символы или числа.

Основная цель маскирования данных — создание альтернативной версии данных, которую невозможно легко идентифицировать или реконструировать, защищая данные, классифицируемые как конфиденциальные. Важно отметить, что данные будут согласованы в нескольких базах данных, а удобство использования останется неизменным.

Существует множество типов данных, которые можно защитить с помощью маскирования, но наиболее распространенные типы данных, подходящие для маскирования данных, включают:

PII: информация, позволяющая установить личность
PHI: Защищенная медицинская информация
PCI-DSS: информация о платежной карте
ITAR: Интеллектуальная собственность

Маскирование данных обычно применяется в непроизводственных средах, таких как разработка и тестирование программного обеспечения, обучение пользователей и т. Д. — области, которые не нуждаются в фактических данных. Вы можете использовать различные методы маскировки, которые мы обсудим в следующих разделах этой статьи.

Важность маскировки данных

Маскирование данных важно для компаний по нескольким причинам:

Помогает компаниям соблюдать Общие правила защиты данных (GDPR), устраняя риск раскрытия конфиденциальных данных. По этой причине маскирование данных дает многим организациям конкурентное преимущество.
Делает данные бесполезными для кибератак, сохраняя при этом удобство использования и согласованность.
Снижает риски, связанные с совместным использованием данных с интегрированными сторонними приложениями и облачными миграциями.
Избегает рисков, связанных с аутсорсингом любого проекта. Поскольку большинство организаций просто полагаются на доверие при работе с внештатными сотрудниками, маскирование предотвращает неправомерное использование или кражу данных.

Типы маскировки данных

Существует несколько типов маскировки данных, которые вы можете использовать в зависимости от вашего варианта использования. Из многих наиболее распространенными являются статическое маскирование данных и маскирование данных «на лету».

Статическая маскировка данных (SDM)

Статическое маскирование данных обычно работает с копией производственной базы данных. SDM изменяет данные, чтобы они выглядели точными, чтобы точно разрабатывать, тестировать и обучать, не раскрывая фактических данных. Процесс выглядит так:

Сделайте резервную копию производственной базы данных в другой среде.
Удалите все ненужные данные и замаскируйте их в стазисе.
Сохраните копию в маске в желаемом месте.

Динамическое маскирование данных (DDM)

DDM происходит динамически во время выполнения и передает данные прямо из производственной системы, поэтому замаскированные данные не нужно сохранять в другой базе данных. Он в основном используется для обеспечения безопасности приложений на основе ролей, например для обработки запросов клиентов и обработки медицинских записей. Таким образом, DDM применяется к сценариям только для чтения, чтобы предотвратить запись замаскированных данных обратно в производственную систему.

Вы можете реализовать DDM с помощью прокси-сервера базы данных, который изменяет запросы, поступающие к исходной базе данных, и передает замаскированные данные запрашивающей стороне. С DDM вам не нужно заранее подготавливать замаскированную базу данных, но у приложения могут быть проблемы с производительностью.

Детерминированное маскирование данных

Детерминированное маскирование данных включает замену данных столбца тем же значением.

Например, если в ваших базах данных есть столбец с именем, состоящий из нескольких таблиц, может быть много таблиц с первым именем. Если вы замаскируете «Адам» на «Джеймс», он должен отображаться как «Джеймс» не только в маскированной таблице, но и во всех связанных таблицах. Каждый раз, когда вы запускаете маскировку, она дает тот же результат.

Маскирование данных на лету

Маскирование данных «на лету» происходит при передаче данных из производственной среды в другую среду, например при тестировании или разработке. Также маскирование данных на лету идеально подходит для организаций, которые:

Развертывайте программное обеспечение непрерывно
Тяжелые интеграции

Поскольку постоянно хранить резервную копию замаскированных данных сложно, этот процесс будет отправлять только подмножество замаскированных данных, когда это необходимо.

On-the-fly статистических данных

Производственные данные могут содержать различную статистическую информацию, которую могут маскировать методы скрытия статистических данных. Дифференциальная конфиденциальность — это один из методов, при котором вы можете делиться информацией о шаблонах в наборе данных, не раскрывая информацию о реальных лицах в наборе данных.

Методы маскировки данных

Теперь давайте посмотрим на методы маскировки данных.

Шифрование

Шифрование — это наиболее сложный и наиболее безопасный тип маскировки данных. Здесь вы используете алгоритм шифрования, который маскирует данные и требует ключа (ключа шифрования) для расшифровки данных.

Шифрование больше подходит для производственных данных, которым необходимо вернуться в исходное состояние. Однако данные будут в безопасности до тех пор, пока ключ есть только у авторизованных пользователей. Если какая-либо неавторизованная сторона скомпрометирует, ключи могут расшифровать данные и просмотреть фактические данные. Таким образом, правильное управление ключом шифрования имеет решающее значение.

Скремблирование

Скремблирование — это базовая техника маскирования, при которой символы и числа перемешиваются в случайном порядке, скрывая исходное содержимое. Хотя это простой метод для реализации, вы можете применить его только к определенным типам данных, и он не делает конфиденциальные данные столь же безопасными, как вы могли бы ожидать.

Например, когда сотрудник с идентификационным номером 934587 в производственной среде проходит шифрование символов, он будет читать 489357 в другой среде. Тем не менее, любой, кто помнит исходный заказ, все еще сможет расшифровать его первоначальное значение.

Обнуление

Обнуление маскирует данные, применяя нулевое значение к столбцу данных. Так что любой неавторизованный пользователь не видит в нем фактических данных. Это еще один простой метод, но основные проблемы в том, что он:

Снижает целостность данных
Усложняет тестирование и разработку с такими данными

Замена

Замена — это маскирование данных путем замены их другим значением. Это один из наиболее эффективных методов маскирования данных. Который сохраняет исходный вид, похожий на ощущение данных.

Техника подстановки может применяться к нескольким типам данных. Например, маскировка имен клиентов с помощью файла случайного поиска. Это может быть довольно сложно выполнить, но это очень эффективный способ защиты данных от утечек.

Перемешивание

Перемешивание похоже на замену, но в нем используется один и тот же столбец индивидуальных маскирующих данных для перемешивания случайным образом.

Например, перетасовка столбцов имен сотрудников в нескольких записях сотрудников. Выходные данные выглядят как точные данные, но не раскрывают никакой реальной личной информации. Однако, если кто-то узнает алгоритм перетасовки, перетасованные данные подвержены обратному проектированию.

Разница в количестве и дате

Метод отклонения числа и данных применим для маскировки важной финансовой информации и информации о дате транзакции.

Например, маскирование столбца зарплат сотрудников с помощью дисперсии зарплат сотрудников покажет зарплаты между наиболее и низкооплачиваемыми сотрудниками. Вы можете убедиться в значимости набора данных, применив дисперсию около +/- 10% ко всем зарплатам в наборе.

Дата старения

Этот метод маскирования увеличивает или уменьшает поле даты в зависимости от заданной политики маскирования данных с приемлемым диапазоном дат. Например, уменьшение даты в поле рождения на 1000 дней изменит дату «1 января 2021 года» на «07 апреля 2018 года».

Лучшие практики маскировки данных

Готовы начать маскировку данных? Вот несколько рекомендаций, которым нужно следовать.

Определите конфиденциальные данные

Перед маскированием любых данных определите и каталогизируйте:

Расположение конфиденциальных данных
Уполномоченные лица, которые могут их просматривать
Их использование

Каждый элемент данных компании не требует маскировки. Вместо этого тщательно определите существующие конфиденциальные данные как в производственной, так и в непроизводственной среде. В зависимости от сложности данных и организационной структуры это может потребовать значительного количества времени.

Определите свой набор методов маскировки данных

Для крупных организаций нецелесообразно использовать только один инструмент маскировки для всего предприятия, поскольку данные сильно различаются. Кроме того, выбранный вами метод может потребовать от вас соблюдения определенных внутренних политик безопасности или бюджетных требований. В некоторых случаях вам, возможно, придется усовершенствовать технику маскировки.

Итак, рассмотрите все эти необходимые факторы, чтобы выбрать правильный набор техник. Держите их синхронизированными, чтобы гарантировать, что один и тот же тип данных использует один и тот же метод для сохранения ссылочной целостности.

Защитите свои методы маскировки данных

Методы маскировки и связанные данные так же важны, как и конфиденциальные данные. Например, метод подстановки может использовать поисковый файл для подстановки. Если этот файл поиска попадет в чужие руки, они могут выявить исходный набор данных.

Организации должны установить необходимые руководящие принципы, позволяющие только авторизованным лицам получать доступ к алгоритмам маскирования.

Сделайте маскировку повторяемой

Со временем изменения в организации, конкретном проекте или продукте могут привести к изменениям данных. Избегайте каждый раз начинать с нуля. Вместо этого сделайте процесс маскирования повторяемым, быстрым и автоматическим, чтобы вы могли реализовать его при изменении конфиденциальных данных.

Определите сквозной процесс маскирования данных

Организации должны иметь сквозной процесс, который включает:

Выявление конфиденциальной информации
Применение соответствующей техники маскировки данных
Постоянный аудит, чтобы убедиться, что маскирование данных работает должным образом.