Анонимные публичные базы данных: миф развенчан

Заявления провайдеров услуг об анонимности при публикации баз данных пользователей не выдерживают никакой критики. Даже удаление персональных идентификаторов не спасает от компрометации личной информации в таких базах.

Как показали результаты исследования, проведенного Арвиндом Нарайананом (Arvind Narayanan) и Виталием Шматиковым (Vitaly Shmatikov) из Техасского университета в Остине, для деанонимизации такой информации требуется совсем небольшое количество доступных дополнительных данных.

Исследователи изучали возможность деанонимизации базы данных пользователей компании проката дисков Netflix. В базе содержалось 100 млн. рейтингов кинофильмов, сделанных 0,5 млн. подписчиков компании за 6 лет. Имена и фамилии пользователей были изменены на наборы случайных чисел, а прочая персональная информация была удалена.

Ученые показали, что связав время рейтингования со временем просмотра фильма и имея дополнительные данные о предпочтениях человека, можно с высокой вероятностью идентифицировать его запись в базе - до 99%, даже при условии неточности некоторых рейтингов и предпочтении популярных фильмов. Такую информацию можно, например, получить в неанонимной базе данных Internet Movie Database, в блогах, на форумах, из личного общения и т.д.

Деанонимизация баз данных может иметь самые опасные последствия. Так, данные о предпочтениях человека в области кинопродукции указывают на его политические, религиозные и сексуальные пристрастия. Более опасным может быть раскрытие информации медицинских, банковских и других баз данных. Это легко осуществимо в век, когда интернет-гиганты накапливают огромное количество информации о пользователях.