Для обучения ML-моделей не нужны персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные.
Обезличенные данные сочетают особенности и персональных, и анонимных данных:
- Обезличенные данные можно получить из персональных методами анонимизации (существует несколько самых распространённых подходов.
- Обезличенные данные не содержат прямых идентификаторов, но могут содержать много косвенных. Например, населённый пункт или место работы. Комбинация косвенных идентификаторов может раскрыть личность.
- Данные содержат специфическое знание о группе людей. Например, возраст или музыкальные предпочтения.
- Связь данных с персоналиями не полностью разорвана и для каких-то персоналий может быть восстановима. Допустим, нам известны место работы и должность. Некоторые массовые специальности типа «руководитель отдела» или «специалист» не дают восстановить связь, а «генеральный директор» или «главный бухгалтер» — легко восстанавливают связь.
- Обезличенные данные содержат всю информацию о людях, необходимую для работы модели. Например, мы знаем окончания имён и что в русском языке большинство женских оканчивается на гласную. Теперь мы легко обучим модель предсказывать: кто захочет пойти в картинг, а кто — в магазин косметики.
О том как получить и как работать с обезличенными данными? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными читайте в блоге Ассоциации больших данных на Хабре!
12 октября 2023 года beeline cloud проведет первую дискуссионную конференцию Deep cloud dive. На одной площадке встретятся эксперты...
Президент Ассоциации больших данных Анна Серебряникова и Генеральный директор Национального технического центра цифровой криптографии Игорь...
Информационная группа ComNews при поддержке Ассоциации больших данных приглашает принять участие во II Федеральном форуме по ИТ и...