Как обезличить персональные данные? Читайте в нашем блоге на Хабре - Ассоциация больших данных
Как обезличить персональные данные? Читайте в нашем блоге на Хабре
14 сентября 2022

Для обучения ML-моделей не нужны персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные.

Обезличенные данные сочетают особенности и персональных, и анонимных данных:

  • Обезличенные данные можно получить из персональных методами анонимизации (существует несколько самых распространённых подходов
  • Обезличенные данные не содержат прямых идентификаторов, но могут содержать много косвенных. Например, населённый пункт или место работы. Комбинация косвенных идентификаторов может раскрыть личность.
  • Данные содержат специфическое знание о группе людей. Например, возраст или музыкальные предпочтения.
  • Связь данных с персоналиями не полностью разорвана и для каких-то персоналий может быть восстановима. Допустим, нам известны место работы и должность. Некоторые массовые специальности типа «руководитель отдела» или «специалист» не дают восстановить связь, а «генеральный директор» или «главный бухгалтер» — легко восстанавливают связь.
  • Обезличенные данные содержат всю информацию о людях, необходимую для работы модели. Например, мы знаем окончания имён и что в русском языке большинство женских оканчивается на гласную. Теперь мы легко обучим модель предсказывать: кто захочет пойти в картинг, а кто — в магазин косметики.

О том как получить и как работать с обезличенными данными? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными читайте в блоге Ассоциации больших данных на Хабре!

29.09.2023
beeline cloud проведет первую дискуссионную конференцию Deep cloud dive

12 октября 2023 года beeline cloud проведет первую дискуссионную конференцию Deep cloud dive. На одной площадке встретятся эксперты...

28.09.2023
Национальный технический центр цифровой криптографии и АБД подписали соглашение о сотрудничестве

Президент Ассоциации больших данных Анна Серебряникова и Генеральный директор Национального технического центра цифровой криптографии Игорь...

28.08.2023
II Федеральный форум по ИТ и цифровизации в лесопромышленном комплексе Smart Forest

Информационная группа ComNews при поддержке Ассоциации больших данных приглашает принять участие во II Федеральном форуме по ИТ и...