Как обезличить персональные данные? Читайте в нашем блоге на Хабре - Ассоциация больших данных
Как обезличить персональные данные? Читайте в нашем блоге на Хабре
14 сентября 2022

Для обучения ML-моделей не нужны персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные.

Обезличенные данные сочетают особенности и персональных, и анонимных данных:

  • Обезличенные данные можно получить из персональных методами анонимизации (существует несколько самых распространённых подходов
  • Обезличенные данные не содержат прямых идентификаторов, но могут содержать много косвенных. Например, населённый пункт или место работы. Комбинация косвенных идентификаторов может раскрыть личность.
  • Данные содержат специфическое знание о группе людей. Например, возраст или музыкальные предпочтения.
  • Связь данных с персоналиями не полностью разорвана и для каких-то персоналий может быть восстановима. Допустим, нам известны место работы и должность. Некоторые массовые специальности типа «руководитель отдела» или «специалист» не дают восстановить связь, а «генеральный директор» или «главный бухгалтер» — легко восстанавливают связь.
  • Обезличенные данные содержат всю информацию о людях, необходимую для работы модели. Например, мы знаем окончания имён и что в русском языке большинство женских оканчивается на гласную. Теперь мы легко обучим модель предсказывать: кто захочет пойти в картинг, а кто — в магазин косметики.

О том как получить и как работать с обезличенными данными? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными читайте в блоге Ассоциации больших данных на Хабре!

19.04.2024
На First Russian Data Forum обсудили реализацию стратегии развития рынка больших данных

17-18 апреля в Москве на единой площадке состоялись Data Fusion и First Russian Data Forum. Мероприятия собрали ведущих экспертов,...

19.04.2024
Вопросы лидерства и технологического суверенитета обсудили на First Russian Data Forum

17-18 апреля в Москве на единой площадке прошли Data Fusion и First Russian Data Forum. Важным событием второго дня мероприятий стала...

18.04.2024
Ведущие российские компании подписали Отраслевой стандарт защиты данных

В основе документа – принципы и механизмы для надежного хранения и защиты данных.  Компании могут добровольно пройти независимый аудит...