Как обезличить персональные данные? Читайте в нашем блоге на Хабре - Ассоциация больших данных
Как обезличить персональные данные? Читайте в нашем блоге на Хабре
14 сентября 2022

Для обучения ML-моделей не нужны персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные.

Обезличенные данные сочетают особенности и персональных, и анонимных данных:

  • Обезличенные данные можно получить из персональных методами анонимизации (существует несколько самых распространённых подходов
  • Обезличенные данные не содержат прямых идентификаторов, но могут содержать много косвенных. Например, населённый пункт или место работы. Комбинация косвенных идентификаторов может раскрыть личность.
  • Данные содержат специфическое знание о группе людей. Например, возраст или музыкальные предпочтения.
  • Связь данных с персоналиями не полностью разорвана и для каких-то персоналий может быть восстановима. Допустим, нам известны место работы и должность. Некоторые массовые специальности типа «руководитель отдела» или «специалист» не дают восстановить связь, а «генеральный директор» или «главный бухгалтер» — легко восстанавливают связь.
  • Обезличенные данные содержат всю информацию о людях, необходимую для работы модели. Например, мы знаем окончания имён и что в русском языке большинство женских оканчивается на гласную. Теперь мы легко обучим модель предсказывать: кто захочет пойти в картинг, а кто — в магазин косметики.

О том как получить и как работать с обезличенными данными? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными читайте в блоге Ассоциации больших данных на Хабре!

29.09.2022
«Цифровая энергетика» и Ассоциация больших данных заключили соглашение о сотрудничестве

28 сентября в рамках форума «Управление данными 2022», проходившего в Москве, Ассоциация «Цифровая энергетика» (АЦЭ) и Ассоциация больших...

29.09.2022
«Управление данными — 2022»: ответ на турбулентность

28 сентября 2022 года в Москве состоялся форум «Управление данными — 2022. Всё о стратегиях, архитектурах и практике работы с данными в...

28.09.2022
V Российский Межотраслевой Саммит «Промышленность 4.0. Цифровой завод» 2022

14 сентября 2022 года в Москве состоялся юбилейный V Российский МежотраслевойСаммит «Промышленность 4.0. Цифровой завод», в котором приняли...