Лента новостей
В Москве у пенсионера из банковской ячейки похитили почти 15 млн руб. 11:41, Общество Когда подешевеет Ripple: за три дня курс монеты вырос на 74% 11:36, Крипто Символ сотрудничества: какое значение для России имеет проект «Сахалин-2» 11:26, Партнерский материал Число верящих в безвредность алкоголя россиян выросло в 2,5 раза 11:24, Общество В Иркутской области приостановили движение поездов из-за схода вагонов 11:23, Общество Конор Макгрегор подписал рекордный контракт в истории UFC 11:23, Спорт Путин выразил соболезнования в связи со смертью президента Вьетнама 11:21, Политика 10 лайфхаков: как быстро освоить английский для бизнеса 11:00, Партнерский материал Пушилин подал документы для регистрации на выборах главы ДНР 10:58, Политика МИД отреагировал на новые санкции США словами «играть с огнем глупо» 10:52, Политика Меч Скайуокера из «Звездных войн» продали на аукционе за $180 тыс. 10:48, Общество Аналитики назвали города с самой доступной арендой жилья 10:48, Недвижимость Мантуров заявил о планах начать в Сирии производство стройматериалов 10:46, Экономика Что будет с рынком: SEC вернулась к расследованию биткоин-ETF 10:43, Крипто Рубль приостановил рост после введения новых санкций США 10:40, Экономика Посредник между мирами: чем займется компания «Связной Евросеть» 10:31, Бизнес Бизнес в зазеркалье: как «умная» примерочная поднимает магазинам продажи 10:30, Свое дело Как взять ипотеку: пошаговая инструкция и рекомендации 10:25, Недвижимость WSJ узнала о попытке Google противостоять иммиграционному указу Трампа 10:22, Технологии и медиа Как производят мраморную говядину в России 10:08, РБК и Мираторг Баланс добычи: почему нефть не дорожает до $90 за баррель 10:07, Мнение Пранкер Вован назвал смешным запрет въезжать на Украину 10:05, Политика ФАС выступила против предложения ограничить госзакупки иностранных вин 09:54, Экономика «Ведомости» узнали о выделении 20 млрд руб. работающему в Крыму банку 09:49, Бизнес Прогнозы дня: позитив в США и Азии поддержит рынок акций 09:47, Quote Бывшего омского министра осудили за передачу земли под огороды 09:39, Общество Венесуэла объявила о применении криптовалюты в международных расчетах 09:26, Финансы Американские СМИ рассказали о модернизации Россией сверхмощных орудий 09:20, Технологии и медиа
Поиск виновного: почему стала возможной утечка данных из Google Docs
Технологии и медиа, 09 июл, 10:00
0
Иван Бегтин Поиск виновного: почему стала возможной утечка данных из Google Docs
Когда в 1990-е годы создавались известные нам поисковики, считалось, что если кто-то что-то опубликовал в Сети, значит, он заинтересован в привлечении внимания. Современный интернет устроен сложнее

Десятки блогеров и изданий написали о том, как много не предназначенной для чужих глаз информации вышло наружу, когда в поиск «Яндекса» попали общедоступные документы из сервисов Google. Достаточно было воспользоваться расширенными возможностями поиска, сузить его до домена docs.google.com и поискать по ключевым словам, например passwords, и можно было найти немало документов как с паролями компаний и отдельных пользователей, так и просто с их конфиденциальной информацией.

«Яндекс» оперативно убрал эту возможность, но вопросы остались. Как же такое произошло? И кто виноват во всей этой ситуации? «Яндекс», проиндексировавший то, что не надо было индексировать? Google, позволивший другим поисковым системам подобную индексацию? Сами пользователи, сделавшие общедоступным то, что общедоступным быть не должно было?

Как устроена система

С момента появления поисковых систем в их основе лежал простой тезис о том, что, если кто-то что-то опубликовал в открытом доступе, значит, этот человек или компания заинтересованы в привлечении внимания. Сайты выполняли маркетинговые или образовательные задачи, и поисковые системы служили, да и сейчас служат, удобным механизмом привлечения аудитории.

Для тех же, кто хотел что-то скрыть от других пользователей или не хотел бы, чтобы поисковые системы индексировали их сайты, всегда присутствовала возможность добровольного отказа от индексирования.

Практика согласия по умолчанию и добровольного отказа (opt-out) реализуется через специальные файлы-инструкции для поисковых систем — robots.txt, которые располагаются в корне сайта, а в наиболее продвинутых поисковых системах через специальные личные кабинеты веб-мастеров, где они могут не только отслеживать, как их сайты индексируются, но также управлять настройками индексирующих роботов и отслеживать возникающие ошибки. Сервисы для веб-мастеров от крупнейших поисковых систем, таких как Google, «Яндекс» или Bing, используются почти всеми сайтами, чей доход зависит от аудитории, приходящей через поисковые системы.

Этим механизмам более 20 лет. Они формировались самим интернет-сообществом, «консорциумом всемирной паутины» (W3C). Стандарт robots.txt был выработан консорциумом еще в 1994 году, и в условиях экстерриториальности интернета он работал лучше, чем любые возможные форматы государственного регулирования и международных договоров.

Однако нарастающая сложность современных универсальных поисковых систем, множество предоставляемых ими возможностей, доступность языков комплексных запросов в итоге приводили к тому, что у правил появлялись исключения.

Так, с 2017 года интернет-архив (archive.org) игнорирует файлы robots.txt. Это связано с тем, что в отличие от поисковых систем интернет-архив не исходит из заинтересованности владельца сайта в получении аудитории, а работает в интересах пользователей, которые могут потерять нужные им материалы в случае исчезновения сайта.

Сами поисковики дают продвинутым пользователям возможность контролировать доступность данных. Google Hacking Database собрала огромное число примеров запросов, позволявших находить уязвимость в веб-серверах, в устройствах, подключенных в Сеть и имеющих веб-интерфейс или же позволяющих найти утечки чувствительных данных. Есть и общедоступная Bing hacking database. Пока еще нет в открытом доступе аналогичной базы запросов для «Яндекса», но, скорее всего, это вопрос времени.

Но в некоторых случаях эти правила работают плохо и вступают в конфликт с интересами фактических владельцев контента, созданного другими. Речь идет о социальных сетях и облаках.

Защита от поиска

Облака и социальные сети в каком-то смысле очень похожи на поисковые системы. Они не производят контент, но предоставляют пользователям инфраструктуру, позволяющую его создавать.

При этом крупные соцсети стараются скрыться от поисковых систем, предпочитая вкладывать в свой бренд узнаваемость и понимая, что их контент — их богатство. Так поступает Facebook, который блокирует доступ ко всему, что в нем накоплено, работая по модели «собирай все и ничего не отдавай», так работает Twitter, который разрешает индексацию, но с ограничениями.

А вот облачные сервисы менее склонны замыкать контент на себя и заинтересованы в аудитории, приходящей через поисковые системы. Если вы публикуете в облаке что-то общедоступное, то сервис соглашается с тем, чтобы это находилось поисковиками. Отсюда более высокий риск утечек. Можно вспомнить утечку паролей в Trello через Google в августе 2017 года. В настройках сервиса управления проектами Trello всегда была возможность делать «доски» проектов общедоступными, но только по прямым ссылкам. И эти ссылки оказались в поисковой системе. А в ноябре 2017 года в кеше Google и Yandex оказались адреса электронной почты из резюме «Авито​». Многие подобные случаи просто остаются неизвестными широкой публике.

И все же о виновных

Самих пользователей можно обвинять лишь отчасти. С одной стороны, они, конечно, сами открывали доступ к своим документам, с другой — ситуация очень похожа на регулирование промышленной безопасности. Да, если человек схватился за оголенные провода и помер, то он не прав, но если кто-то оставил провода оголенными, то он совершил халатность, да и с детства учат, что за провода хвататься не нужно.

Можно ли обвинить Google в том, что они разрешают поисковым системам индексировать документы в Google Docs и не блокируют их в robots.txt?

Нет, потому что многие пользователи сознательно открывают документы. Да и другие поисковые системы могут подать в суд на собственника облачного сервиса, который запрещает индексирование, ведь он закрывает доступ к информации, которая ему не принадлежит. В чем можно обвинить облачные сервисы, так это в том, что они не до конца информируют пользователей. Не предупреждают, что если пользователь «засветил» ссылку на документ, то доступ к ней могут получить и третьи лица.

Можно ли обвинить «Яндекс» в том, что он индексирует общедоступные документы в Google Docs?

С одной стороны, нет, потому что для роботов «Яндекса» этот сайт от других мало чем отличается. В robots.txt нет ограничений, сами пользователи сделали документы общедоступными. И все же очень странно, что в поисковый индекс «Яндекса» попали документы, которые вряд ли могли быть найдены поисковым роботом, это документы внутренние, очень непубличные и которые мне, например, не удалось найти ни в одной из других поисковых систем. Хотелось бы надеяться, что речь не идет о ссылках на документы, о которых поисковик мог узнать только через сканирование своей почты или браузера. Иначе возникает очень неприятный вопрос о погружении поисковых машин вглубь условно общедоступных, но ранее непубличных документов.

Об авторах
Иван Бегтин директор АНО «Информационная культура»
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.
Магазин исследований: аналитика по теме "Интернет", "Интернет-торговля"