Как обезличить персональные данные? Читайте в нашем блоге на Хабре

14 сентября 2022

Для обучения ML-моделей не нужны персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные.

Обезличенные данные сочетают особенности и персональных, и анонимных данных:

Обезличенные данные можно получить из персональных методами анонимизации (существует несколько самых распространённых подходов.
Обезличенные данные не содержат прямых идентификаторов, но могут содержать много косвенных. Например, населённый пункт или место работы. Комбинация косвенных идентификаторов может раскрыть личность.
Данные содержат специфическое знание о группе людей. Например, возраст или музыкальные предпочтения.
Связь данных с персоналиями не полностью разорвана и для каких-то персоналий может быть восстановима. Допустим, нам известны место работы и должность. Некоторые массовые специальности типа «руководитель отдела» или «специалист» не дают восстановить связь, а «генеральный директор» или «главный бухгалтер» — легко восстанавливают связь.
Обезличенные данные содержат всю информацию о людях, необходимую для работы модели. Например, мы знаем окончания имён и что в русском языке большинство женских оканчивается на гласную. Теперь мы легко обучим модель предсказывать: кто захочет пойти в картинг, а кто — в магазин косметики.

О том как получить и как работать с обезличенными данными? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными читайте в блоге Ассоциации больших данных на Хабре!

19.04.2024

На First Russian Data Forum обсудили реализацию стратегии развития рынка больших данных

17-18 апреля в Москве на единой площадке состоялись Data Fusion и First Russian Data Forum. Мероприятия собрали ведущих экспертов,...

19.04.2024

Вопросы лидерства и технологического суверенитета обсудили на First Russian Data Forum

17-18 апреля в Москве на единой площадке прошли Data Fusion и First Russian Data Forum. Важным событием второго дня мероприятий стала...

18.04.2024

Ведущие российские компании подписали Отраслевой стандарт защиты данных

В основе документа – принципы и механизмы для надежного хранения и защиты данных. Компании могут добровольно пройти независимый аудит...