Анонимные публичные базы данных: миф развенчан
Как показали результаты исследования, проведенного Арвиндом Нарайананом (Arvind Narayanan) и Виталием Шматиковым (Vitaly Shmatikov) из Техасского университета в Остине, для деанонимизации такой информации требуется совсем небольшое количество доступных дополнительных данных.
Исследователи изучали возможность деанонимизации базы данных пользователей компании проката дисков Netflix. В базе содержалось 100 млн. рейтингов кинофильмов, сделанных 0,5 млн. подписчиков компании за 6 лет. Имена и фамилии пользователей были изменены на наборы случайных чисел, а прочая персональная информация была удалена.
Ученые показали, что связав время рейтингования со временем просмотра фильма и имея дополнительные данные о предпочтениях человека, можно с высокой вероятностью идентифицировать его запись в базе - до 99%, даже при условии неточности некоторых рейтингов и предпочтении популярных фильмов. Такую информацию можно, например, получить в неанонимной базе данных Internet Movie Database, в блогах, на форумах, из личного общения и т.д.
Деанонимизация баз данных может иметь самые опасные последствия. Так, данные о предпочтениях человека в области кинопродукции указывают на его политические, религиозные и сексуальные пристрастия. Более опасным может быть раскрытие информации медицинских, банковских и других баз данных. Это легко осуществимо в век, когда интернет-гиганты накапливают огромное количество информации о пользователях.