Лента новостей
Bloomberg узнал о личном решении Трампа обвинить ГРУ до саммита с Путиным 09:50, Политика Многодетные родители — о бизнесе, воспитании и семейных путешествиях 09:14, РБК и Volkswagen Teramont США выдвинули новое обвинение против россиянки Бутиной 09:12, Политика Фигурантов дела об избиении DJ Smash отправили в колонию-поселение 09:04, Общество Число отравившихся в кызыльской закусочной «Шаурма» достигло 137 08:44, Общество В Мексике разбился военный самолет 08:37, Общество ВБ назвал Россию лидером по сокращению объемов сжигания попутного газа 08:28, Общество Транспорт будущего: моноколесо, гироскутер или электросамокат 08:27, РБК и Ингосстрах Водитель и двое пассажиров такси погибли в ДТП на юго-востоке Москвы 08:19, Общество «Яндекс» сделает голосовой помощник «Алиса» доступным в разных браузерах 08:00, Технологии и медиа Треть американцев сочла Россию противником после встречи Трампа и Путина 07:49, Политика Жертвами пожара в Иркутской области стали пять человек 07:25, Общество Проработавший меньше года мэр города Свободный ушел в отставку 06:36, Политика Простой способ экономии на транспортных расходах для компаний 06:34, РБК и «Шелл» «Яндекс» получил разрешение на устройство для «умного дома» 06:03, Технологии и медиа Четыре человека погибли в результате новой волны протестов в Никарагуа 05:35, Общество Трамп обвинил СМИ в занижении значения его встречи с Путиным 05:21, Политика На Кубе более 100 человек эвакуировали при пожаре в институте онкологии 04:46, Общество «Коммерсантъ» узнал о новых требованиях ФСБ к перевозке рыбной продукции 04:11, Бизнес Технологический скачок: когда дроны отнимут рабочие места у людей 03:58, Партнерский материал Три человека погибли при падении двух самолетов летной школы во Флориде 03:57, Общество СМИ узнали о возможном возобновлении работы торгпредства Франции в Москве 03:34, Бизнес Роскомнадзор призвал Сбербанк и ВТБ объяснить ситуацию с утечкой данных 03:07, Общество Посольство пожаловалось на недопуск к задержанной в США россиянке 02:18, Политика Журналист Рабинер не стал заявлять в полицию на экс-тренера «Арсенала» 01:33, Общество Деньги с полей: как устроен футбольный бизнес 01:21, РБК и Sony Bravia Глава Пентагона решил провести первые за три года переговоры с Шойгу 01:20, Политика Чемпион Олимпиады-88 заявил о планах отказаться от гражданства Украины 01:03, Общество
Темная сторона открытости: почему не все данные стоит раскрывать
Технологии и медиа, 16 мая 2016, 15:30
0
Иван Бегтин Темная сторона открытости: почему не все данные стоит раскрывать
Новые технологии позволяют гражданам узнавать о злоупотреблениях чиновников, но одновременно усиливают проблему информационного неравенства

Гетто и самосуд
Разговор о «больших данных» почти всегда сводится к обсуждению их пользы для общества и бизнеса. При этом на удивление мало информации о том, что «большие данные» часто вредят потребителю: они не уменьшают, а увеличивают информационное неравенство.

Возьмем, к примеру, данные правоохранительных органов и криминальную статистику. Имеем ли мы право знать, какие преступления происходят на той или иной улице, в том или ином районе? Жители, как правило, говорят, что да, имеют, а руководители уже на уровне муниципалитетов задаются вопросом, не спровоцирует ли это панику или социальную напряженность, не усилит ли публикация данных о качестве жизни неравенство и не подтолкнет ли к формированию гетто.
Подход может быть разным. В Великобритании на сайте police.uk публикуются данные по каждому преступлению. При этом есть ряд жестких ограничений. Самое главное, не публикуются точные геоданные о месте совершения преступлений, детализация идет только в масштабе улицы. Но можно выбрать на карте конкретную улицу или район и увидеть количество совершенных там преступлений, а также узнать об их типе и количестве пострадавших.

Полиция США, напротив, публикует подробную информацию о каждом преступлении с детализацией до конкретного адреса, а также указывает тип происшествия, число погибших или раненых. Есть несколько коммерческих проектов, таких как CrimeMapping.com и CrimeReports.com, которые эту информацию используют для оказания услуг по уведомлению граждан о новых преступлениях и помощи в выборе места жительства и работы. Популярна она и у риелторских компаний. Служба такси Uber, например, анализирует получаемые заказы, просчитывает корреляцию с уровнем преступности по районам и с учетом этого составляет маршруты движения и определяет места стоянки такси.
В других странах, например в Германии, криминальная статистика до сих пор не публикуется с такой детализацией. Причина не в риске появления гетто или паники среди населения (в развитых странах все и так знают, где гетто есть, а где его нет). Дело в том, что такую информацию активно используют преступники для поиска каналов сбыта наркотиков и оружия.

Есть и другие риски. Например, полицейский департамент Нью-Йорка открыто пополняет базу данных людей, совершивших преступления, связанные с сексуальным насилием. В базу Sex Offender Registry вносятся фотография насильника, фамилия и имя, основные параметры, раса и адрес фактического проживания. Причины, по которым такая информация должна быть в открытом доступе, понятны, но есть и серьезные доводы против ее разглашения. К примеру, риск самосуда. Представьте себе, что в России велась бы открытая база данных педофилов с указанием их мест проживания. Многие ли из них после этого проживут долго?

Повторная идентификация
Другая сфера, для которой актуальны вопросы использования открытых данных, — это образование. Много лет эксперты призывают Министерство образования, Мособрнадзор и региональные департаменты образования публиковать данные о среднем балле ЕГЭ по школам. Сейчас это один из немногих критериев оценки качества школьного образования. К ЕГЭ много претензий, но тем не менее есть основания считать, что в хороших школах оценки ЕГЭ гораздо выше среднего показателя. Пока Министерство образования не готово публиковать такие данные.

Для сравнения, в 2012 году в Великобритании была опубликована база всех учеников Великобритании (National Pupil Database). Без имен и фамилий, но с указанием школ, районов, уровня успеваемости и многого другого. Публикацию этой базы лоббировало огромное количество коммерческих компаний, дата-аналитиков, которые на ее основе оценивают качество школ в стране. Однако ряд некоммерческих организаций, к примеру Open Rights Group, высказывал опасения, что при наличии некоторых навыков программирования можно идентифицировать конкретного ученика. Этот процесс называется повторная идентификация (reidentification).

В российском законе о персональных данных такого понятия нет. Но что делать в ситуации, когда по публикуемым государством анонимным данным можно вычислить конкретного человека? Простой пример. Предположим, в реестре учеников не будет их имен, но будет номер телефона и успеваемость по каждому ученику. Через номер телефона, используя социальные сети и другие источники, можно с легкостью идентифицировать конкретного человека. Идентификация и сбор данных по номеру телефона активно используются бизнесом, например при выдаче банковских кредитов. По телефону и адресу электронной почты человека можно легко найти в соцсетях, которые активно используются кредиторами для скоринга. В презентации одной из скоринговых компаний было указано, что в своих оценках надежности заемщика компания опирается в том числе на количество музыки на его стене «ВКонтакте»: чем больше музыки у потенциального заемщика, тем ниже будет его оценка.

В нашей стране вопросы повторной идентификации на официальном уровне пока не обсуждаются.

Сканы как защита
Если госорган заключает контракт с индивидуальным предпринимателем или физлицом, он обязан опубликовать его персональные данные. Этого требует федеральный закон о госзакупках, устанавливающий исключение из закона о персональных данных. Фактически это означает следующее: если вы вступили в финансовые отношения с государством, особенно если вы при этом ИП, то всегда есть вероятность, что ваши данные будут опубликованы в открытом доступе и вы их не сможете удалить никогда.
Парадоксальным образом одним из главных барьеров приватности и защитой от подобного раскрытия информации является то, что большинство госдокументов до сих пор публикуется в отсканированном виде. Для тех, кто работает с данными, это проклятие, а для граждан главная защита, потому что пока еще поисковые системы не научились автоматически извлекать информацию из документов в формате PDF, TIFF и т.п.
Это касается не только госзакупок. На многих других государственных информационных системах, например портале torgi.gov.ru, в последние годы публикуют личную информацию о победителях конкурсов, которую далеко не каждый гражданин готов опубликовать самостоятельно.
Эта информация чувствительна для обычных людей, но не для ведомств или конкретных чиновников. Кстати, последние не спешат раскрывать информацию о себе. В частности, получить декларации о доходах от большинства чиновников в машиночитаемом виде очень трудно. Они все публикуются в отсканированном виде, причем зачастую это делается сознательно, чтобы с ними было максимально неудобно работать.
Сейчас публикация договоров в виде сканов — единственный барьер, ограничивающий возможности поиска информации. Но российские и зарубежные компании активно занимаются разработкой софта для распознавания текста. Когда поиск по этим документам станет возможным, люди тут же начнут искать данные друг друга и обнаружат немало интересного.

Системный подход

В вопросе информационной открытости есть две стороны. С одной стороны, «панамские бумаги» убеждают нас в ее пользе: мы получаем больше информации о лицах, принимающих решения, и видим случаи масштабной коррупции. Представители гражданского общества начинают кооперироваться в стремлении к прозрачности, например для обработки «панамских» данных и проведения расследований (в России большую работу проделали журналисты «Новой газеты» и РБК, а центр «Трансперенси Интернешнл — Россия» провел «офшоротон» с привлечением полусотни волонтеров).

С другой стороны, каждый из нас по отдельности беззащитен перед корпорациями с их огромными техническими ресурсами, позволяющими обрабатывать наши данные. Это и есть цифровое неравенство: мы знаем о банках и их владельцах очень ограниченный объем официальной информации, которую требует публиковать ЦБ. Банки могут узнать о нас значительно больше, изучая наши соцсети и следы в интернете. Корпорации, основанные на данных (data corporations), знают многое о наших потребительских предпочтениях и начинают манипулировать нами, подкидывая нужную рекламу. По косвенным признакам о нас можно узнать больше, чем мы бы сами хотели рассказывать окружающим. Например, согласно одному из исследований, по уровню заряда телефона в течение дня с  точностью 90% можно определить вероисповедание его владельца. В России эта проблема пока не осознается ни обществом, ни государством, которое, несмотря на закрытость в определенных вопросах, выкладывает в открытый доступ очень много данных.

Если не вести общественную дискуссию, не заниматься всесторонним и максимально широким обсуждением вопроса, то количество проблем, связанных с раскрытием или нераскрытием данных, будет только расти. И люди, владеющие технологиями, смогут узнавать о нас гораздо больше, чем мы бы хотели.

Об авторах
Иван Бегтин директор АНО «Информационная культура»
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.