Быстрее, точнее, безопаснее: Как искусственный интеллект помогает обезличить персональные данные
Проблема утечки данных становится для бизнеса все более острой. Роскомнадзор подсчитал, что в 2022 году было более 60 крупных инцидентов, в несанкционированный доступ попали свыше 230 млн записей с персональной информацией россиян. К репутационным и операционным рискам добавляется финансовый: законодатели готовы принять положение об оборотных штрафах в случае утраты критически важной информации. Планируется, что уже с 1 июля бизнес будет вынужден выплатить 1% от годового оборота, а при попытке скрыть ситуацию штраф достигнет 3%. А это зачастую десятки миллионов рублей. Сегодня максимальная санкция при повторном нарушении — 500 тысяч рублей. Вместе с Вячеславом Борисовым, владельцем продукта Сфера.Обезличивание данных, попробуем разобраться, каким образом можно замаскировать важную информацию, чтобы снизить вероятность негативного сценария, и как повысить эффективность защиты персональных данных (ПД) с помощью искусственного интеллекта.
Содержание |
Зачем нужны инструменты обезличивания данных?
Правила обращения с ПД в России предписаны сразу несколькими законодательными актами. Помимо профильного 152-ФЗ «О персональных данных», действуют 98-ФЗ «О коммерческой тайне» и 395-ФЗ «О банковской тайне». Кроме того, процессы регулируются внутренними требованиями компании. Например, службы информационной безопасности часто запрещают использовать ПД клиентов для проверки новой функциональности цифровых сервисов. В этом случае тестировщикам приходится оперировать пустыми базами данных или создавать тестовые среды вручную. В итоге страдает качество проверок, так как большинство багов разработки открывается только на промышленных объемах информации.
Решение проблемы — обезличивание ПД, которое позволяет сохранить их исходную структуру и формат значений, а также интеграционную целостность. Это важно, так как в разных базах данных хранятся фрагменты информации об одном и том же клиенте. Унифицированный подход к обезличиванию позволяет находить и сохранять все связи.
Одно из основных требований, которое предъявляется к инструментам обезличивания — необратимость, то есть зашифрованные данные не должны поддаваться повторной персонализации.
Где бизнесу взять инструменты обезличивания?
Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, считая, что написание алгоритмов поиска, профилирования и маскирования данных не такая уж сложная задача. Однако, с учетом объема и количества баз данных, в которых содержится очень разнородная информация, и часть которых не задокументирована надлежащим образом, на выходе зачастую получается решение, которое работает с данными несистемно, и эффективность обезличивания разнится от случая к случаю.
Вариант такого подхода — заказная разработка. В среднем создание решения занимает минимум полгода, стоит от 15 млн рублей, и, как правило, через полгода выясняется, что инвестиции надо удвоить, а 30-40% решения переделать. Витрина данных НОТА ВИЗОР для налогового мониторинга
Наконец, можно использовать рыночные продукты для обезличивания. До недавнего времени наиболее популярным было ПО известных западных вендоров Ataccama, DatProf, Informatica, Brillix и др. Они с разной степенью успешности адаптируются к российским реалиям, но с их использованием риски утечек резко снижаются. Однако есть нюанс: в ближайшее время заканчиваются сроки лицензий, продлить которые бизнес не может сразу по нескольким причинам. Альтернатива — отечественные решения, которые за последнее время нарастили функциональность и созрели, как, например, продукт Группы Т1 Сфера.Обезличивание данных.
Что такое Сфера.Обезличивание данных?
Это коробочное решение для обезличивания ПД «под ключ», необходимое в первую очередь специалистам, обеспечивающим информационную безопасность, менеджерам тестовых сред, сотрудникам, участвующим в тестировании программных продуктов.
Сфера.Обезличивание данных позволяет:
- Создавать обезличенные базы данных (поддержка СУБД Postgres, MS SQL, Oracle) и обезличенные датасеты (поддержка форматов Avro, Parquet, CSV).
- Создавать облегченные базы данных с опцией настройки критериев усечения.
- Загружать данные из одной базы в другую без изменения. Проводить инкрементальную загрузку данных с настройкой критериев инкремента.
- Искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе ML-моделей (Machine learning).
- Размечать пустые поля и таблицы баз данных. Отключать индексы, констрейнты и триггеры баз перед загрузкой данных, восстанавливать их по окончанию загрузки.
- Использовать библиотеку алгоритмов обезличивания, построенных на базе алгоритмов FPE-шифрования с сохранением формата значений и интеграционной целостности.
- Обезличивать большие данные.
- Формировать «белые списки» значений полей для исключения из обезличивания.
- Формировать отчеты с результатами поиска, классификации и обезличивания данных.
Конкурентные преимущества российского решения определяются тем, что его разработчики много лет занимались решением проблем обезличивания ПД в крупных финансовых компаниях. У команды был опыт написания собственных скриптов и интеграции инструментов зарубежных вендоров, продукты которых справлялись не со всеми типами персональных данных, принятых в России, или произвольно их зашифровывали. Например, последнее число в ИНН рассчитывается по математической формуле, то есть не может быть случайным, иначе система проверки целостности данных, обязательная для финансовой организации, не пропустит этот идентификатор. Из-за того, что ИНН неправильно обезличен, формируется некорректно работающий процесс.
В тот момент, когда стало понятно, что система фильтров не очень эффективна: требует постоянной актуализации правил для поиска ПД и «ручного» отслеживания исключения, возникла гипотеза, что ML-модель справится гораздо лучше, что и было подтверждено на практике.
Модель обучалась постепенно, по мере того как команда накапливала знания. Сейчас для запуска Сфера.Обезличивание данных у корпоративного заказчика достаточно двух дней. Срок возрастает, если информация, которой оперирует конкретная компания слишком специфическая. В этом случае пустая модель будет обучаться на данных пользователя, что может занять от одного месяца до полугода.
В чем преимущества технологии машинного обучения при обезличивании данных?
Автоматизированный поиск с помощью ML-модели предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у Сфера.Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95%.
Даже когда в источнике данных попадаются записи типовых персональных данных в формате, ранее не встречавшемся, система с высокой вероятностью правильно классифицирует подобную запись — определит, что это с высокой степенью вероятности фамилия человека, или номер телефона, или ИНН.
В итоге разработчики и тестировщики получают реалистичную базу данных с сохраненными структурными связями, позволяющую обрабатывать клиентские запросы, но без рисков утраты ПД.
Так, решение Сфера.Обезличивание данных используется в крупной российской финансовой организации. Компания еженедельно генерирует терабайты данных, и их обезличивание дает возможность передавать задачи по тестированию и выпуску качественных финтех-сервисов дочерним организациям.
Бонусом идет экономия средств, так как снижение класса конфиденциальности информации за счет деперсонализации позволяет существенно оптимизировать затраты на защиту. Уменьшатся и расходы на оплату труда. Поскольку ETL-процессы осуществляются автоматически, и система позволяет проводить обезличивание одновременно в нескольких базах данных буквально нажатием одной кнопки, существенно снижаются требования к команде и ее стоимость. Больше не нужно растить или нанимать высококвалифицированных сотрудников, с задачей по обезличиванию справиться любой тестировщик, без глубоких специфических навыков.
Типовой процесс обезличивания с помощью Сфера.Обезличивание данных
- Запрос об источнике данных для обезличивания.
- Подготовка баз данных. Получение доступа или разворачивание источника и приемника данных.
- Профилирование. Поиск и классификация подлежащих обезличиванию полей. Именно на этом этапе подключается искусственный интеллект. Классификация баз данных ведется с помощью технологии машинного обучения. В финале формируется отчет, в котором указано какой идентификатор присвоен каждому полю исходя из информации, содержащейся в нем.
- Анализ результатов профилирования. Заказчик и служба ИБ изучают готовый отчет, верифицируют результаты и при необходимости вносят свои коррективы.
- Непосредственно обезличивание. Идет процесс загрузки данных из источника в приемник с применением правил FPE-шифрования.
- Итоговая проверка результатов Службой ИБ.
Несмотря на сложность ИТ-ландшафта и насыщенность баз данных, решение запускает процесс обезличивания без долгих и сложных настроек.