Прямой эфир
Ошибка воспроизведения видео. Пожалуйста, обновите ваш браузер.
Лента новостей
Американское кредитное бюро Equifax вышло из капитала российской «дочки» Бизнес, 16:36
Риелторы назвали районы Москвы с подорожавшим вторичным жильем Недвижимость, 16:35
Жить в зеленом оазисе с городским комфортом: все о ЖК «Остров» РБК Стиль и Донстрой, 16:35
Военная операция на Украине. Онлайн Политика, 16:30
Кто, где и почему: какие способы бесконтактной оплаты сейчас доступны Новая Экономика, 16:29
Суд лишил генерала МВД звания и приговорил к 9,5 годам за взятку Общество, 16:27
«Простой путь к богатству»: секреты успешного инвестирования Pro, 16:24
Косторная нашла постоянного тренера после ухода от Тутберидзе Спорт, 16:18
РБК Comfort
Получайте рассылку с новостями, которые влияют на качество вашей жизни.
Подписаться за 99 ₽ в месяц
Какие места на Украине взяли под контроль российские военные. Карта Политика, 16:17
Военная операция на Украине. Главное Политика, 16:14
Что такое «очень престижные номера» для автомобилей Партнерский проект, 16:12
Hodlnaut приостановила вывод средств из-за ситуации на рынке Крипто, 16:08
В России завели еще одно дело о госизмене Политика, 16:06
Как предотвратить выгорание менеджера по продажам Pro, 16:00
Мнение ,  
0 
Иван Бегтин

Темная сторона открытости: почему не все данные стоит раскрывать

Новые технологии позволяют гражданам узнавать о злоупотреблениях чиновников, но одновременно усиливают проблему информационного неравенства

Гетто и самосуд
Разговор о «больших данных» почти всегда сводится к обсуждению их пользы для общества и бизнеса. При этом на удивление мало информации о том, что «большие данные» часто вредят потребителю: они не уменьшают, а увеличивают информационное неравенство.

Возьмем, к примеру, данные правоохранительных органов и криминальную статистику. Имеем ли мы право знать, какие преступления происходят на той или иной улице, в том или ином районе? Жители, как правило, говорят, что да, имеют, а руководители уже на уровне муниципалитетов задаются вопросом, не спровоцирует ли это панику или социальную напряженность, не усилит ли публикация данных о качестве жизни неравенство и не подтолкнет ли к формированию гетто.
Подход может быть разным. В Великобритании на сайте police.uk публикуются данные по каждому преступлению. При этом есть ряд жестких ограничений. Самое главное, не публикуются точные геоданные о месте совершения преступлений, детализация идет только в масштабе улицы. Но можно выбрать на карте конкретную улицу или район и увидеть количество совершенных там преступлений, а также узнать об их типе и количестве пострадавших.

Полиция США, напротив, публикует подробную информацию о каждом преступлении с детализацией до конкретного адреса, а также указывает тип происшествия, число погибших или раненых. Есть несколько коммерческих проектов, таких как CrimeMapping.com и CrimeReports.com, которые эту информацию используют для оказания услуг по уведомлению граждан о новых преступлениях и помощи в выборе места жительства и работы. Популярна она и у риелторских компаний. Служба такси Uber, например, анализирует получаемые заказы, просчитывает корреляцию с уровнем преступности по районам и с учетом этого составляет маршруты движения и определяет места стоянки такси.
В других странах, например в Германии, криминальная статистика до сих пор не публикуется с такой детализацией. Причина не в риске появления гетто или паники среди населения (в развитых странах все и так знают, где гетто есть, а где его нет). Дело в том, что такую информацию активно используют преступники для поиска каналов сбыта наркотиков и оружия.

Есть и другие риски. Например, полицейский департамент Нью-Йорка открыто пополняет базу данных людей, совершивших преступления, связанные с сексуальным насилием. В базу Sex Offender Registry вносятся фотография насильника, фамилия и имя, основные параметры, раса и адрес фактического проживания. Причины, по которым такая информация должна быть в открытом доступе, понятны, но есть и серьезные доводы против ее разглашения. К примеру, риск самосуда. Представьте себе, что в России велась бы открытая база данных педофилов с указанием их мест проживания. Многие ли из них после этого проживут долго?

Повторная идентификация
Другая сфера, для которой актуальны вопросы использования открытых данных, — это образование. Много лет эксперты призывают Министерство образования, Мособрнадзор и региональные департаменты образования публиковать данные о среднем балле ЕГЭ по школам. Сейчас это один из немногих критериев оценки качества школьного образования. К ЕГЭ много претензий, но тем не менее есть основания считать, что в хороших школах оценки ЕГЭ гораздо выше среднего показателя. Пока Министерство образования не готово публиковать такие данные.

Для сравнения, в 2012 году в Великобритании была опубликована база всех учеников Великобритании (National Pupil Database). Без имен и фамилий, но с указанием школ, районов, уровня успеваемости и многого другого. Публикацию этой базы лоббировало огромное количество коммерческих компаний, дата-аналитиков, которые на ее основе оценивают качество школ в стране. Однако ряд некоммерческих организаций, к примеру Open Rights Group, высказывал опасения, что при наличии некоторых навыков программирования можно идентифицировать конкретного ученика. Этот процесс называется повторная идентификация (reidentification).

В российском законе о персональных данных такого понятия нет. Но что делать в ситуации, когда по публикуемым государством анонимным данным можно вычислить конкретного человека? Простой пример. Предположим, в реестре учеников не будет их имен, но будет номер телефона и успеваемость по каждому ученику. Через номер телефона, используя социальные сети и другие источники, можно с легкостью идентифицировать конкретного человека. Идентификация и сбор данных по номеру телефона активно используются бизнесом, например при выдаче банковских кредитов. По телефону и адресу электронной почты человека можно легко найти в соцсетях, которые активно используются кредиторами для скоринга. В презентации одной из скоринговых компаний было указано, что в своих оценках надежности заемщика компания опирается в том числе на количество музыки на его стене «ВКонтакте»: чем больше музыки у потенциального заемщика, тем ниже будет его оценка.

В нашей стране вопросы повторной идентификации на официальном уровне пока не обсуждаются.

Сканы как защита
Если госорган заключает контракт с индивидуальным предпринимателем или физлицом, он обязан опубликовать его персональные данные. Этого требует федеральный закон о госзакупках, устанавливающий исключение из закона о персональных данных. Фактически это означает следующее: если вы вступили в финансовые отношения с государством, особенно если вы при этом ИП, то всегда есть вероятность, что ваши данные будут опубликованы в открытом доступе и вы их не сможете удалить никогда.
Парадоксальным образом одним из главных барьеров приватности и защитой от подобного раскрытия информации является то, что большинство госдокументов до сих пор публикуется в отсканированном виде. Для тех, кто работает с данными, это проклятие, а для граждан главная защита, потому что пока еще поисковые системы не научились автоматически извлекать информацию из документов в формате PDF, TIFF и т.п.
Это касается не только госзакупок. На многих других государственных информационных системах, например портале torgi.gov.ru, в последние годы публикуют личную информацию о победителях конкурсов, которую далеко не каждый гражданин готов опубликовать самостоятельно.
Эта информация чувствительна для обычных людей, но не для ведомств или конкретных чиновников. Кстати, последние не спешат раскрывать информацию о себе. В частности, получить декларации о доходах от большинства чиновников в машиночитаемом виде очень трудно. Они все публикуются в отсканированном виде, причем зачастую это делается сознательно, чтобы с ними было максимально неудобно работать.
Сейчас публикация договоров в виде сканов — единственный барьер, ограничивающий возможности поиска информации. Но российские и зарубежные компании активно занимаются разработкой софта для распознавания текста. Когда поиск по этим документам станет возможным, люди тут же начнут искать данные друг друга и обнаружат немало интересного.

Системный подход

Pro
Фото: New Zealand Defence Force / Getty Images Бан на маркетплейсе: чем рискует продавец товаров параллельного импорта
Pro
Фото: Shutterstock Восемь советов для тех, кто хочет вывести медитацию на новый уровень
Pro
Фото: Andrew Burton / Getty Images Основатель Alibaba Джек Ма: «Я хочу умереть на пляже, а не в офисе»
Pro
Фото: Scott Olson / Getty Images «Я просыпаюсь, пока мир спит»: зачем экс-глава Disney встает в 4.15 утра
Pro
Простой путь к богатству. Как стать успешным инвестором, обрести финансовое благополучие и свободу
Pro
Победи прокрастинацию. Как перестать откладывать дела на завтра
Pro
Фото: Airbnb Основатель Airbnb: «Если у вас 20 задач на день, не нужно делать их все»
Pro
Фото: Sean Gallup / Getty Images Кто управляет криптовалютой и при чем здесь DAO

В вопросе информационной открытости есть две стороны. С одной стороны, «панамские бумаги» убеждают нас в ее пользе: мы получаем больше информации о лицах, принимающих решения, и видим случаи масштабной коррупции. Представители гражданского общества начинают кооперироваться в стремлении к прозрачности, например для обработки «панамских» данных и проведения расследований (в России большую работу проделали журналисты «Новой газеты» и РБК, а центр «Трансперенси Интернешнл — Россия» провел «офшоротон» с привлечением полусотни волонтеров).

С другой стороны, каждый из нас по отдельности беззащитен перед корпорациями с их огромными техническими ресурсами, позволяющими обрабатывать наши данные. Это и есть цифровое неравенство: мы знаем о банках и их владельцах очень ограниченный объем официальной информации, которую требует публиковать ЦБ. Банки могут узнать о нас значительно больше, изучая наши соцсети и следы в интернете. Корпорации, основанные на данных (data corporations), знают многое о наших потребительских предпочтениях и начинают манипулировать нами, подкидывая нужную рекламу. По косвенным признакам о нас можно узнать больше, чем мы бы сами хотели рассказывать окружающим. Например, согласно одному из исследований, по уровню заряда телефона в течение дня с  точностью 90% можно определить вероисповедание его владельца. В России эта проблема пока не осознается ни обществом, ни государством, которое, несмотря на закрытость в определенных вопросах, выкладывает в открытый доступ очень много данных.

Если не вести общественную дискуссию, не заниматься всесторонним и максимально широким обсуждением вопроса, то количество проблем, связанных с раскрытием или нераскрытием данных, будет только расти. И люди, владеющие технологиями, смогут узнавать о нас гораздо больше, чем мы бы хотели.

Об авторе
Иван Бегтин Иван Бегтин директор АНО «Информационная культура»
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.
Теги