Поиск виновного: почему стала возможной утечка данных из Google Docs

Когда в 1990-е годы создавались известные нам поисковики, считалось, что если кто-то что-то опубликовал в Сети, значит, он заинтересован в привлечении внимания. Современный интернет устроен сложнее

Десятки блогеров и изданий написали о том, как много не предназначенной для чужих глаз информации вышло наружу, когда в поиск «Яндекса» попали общедоступные документы из сервисов Google. Достаточно было воспользоваться расширенными возможностями поиска, сузить его до домена docs.google.com и поискать по ключевым словам, например passwords, и можно было найти немало документов как с паролями компаний и отдельных пользователей, так и просто с их конфиденциальной информацией.

«Яндекс» оперативно убрал эту возможность, но вопросы остались. Как же такое произошло? И кто виноват во всей этой ситуации? «Яндекс», проиндексировавший то, что не надо было индексировать? Google, позволивший другим поисковым системам подобную индексацию? Сами пользователи, сделавшие общедоступным то, что общедоступным быть не должно было?

Как устроена система

rbc.group

С момента появления поисковых систем в их основе лежал простой тезис о том, что, если кто-то что-то опубликовал в открытом доступе, значит, этот человек или компания заинтересованы в привлечении внимания. Сайты выполняли маркетинговые или образовательные задачи, и поисковые системы служили, да и сейчас служат, удобным механизмом привлечения аудитории.

rbc.group

Для тех же, кто хотел что-то скрыть от других пользователей или не хотел бы, чтобы поисковые системы индексировали их сайты, всегда присутствовала возможность добровольного отказа от индексирования.

Практика согласия по умолчанию и добровольного отказа (opt-out) реализуется через специальные файлы-инструкции для поисковых систем — robots.txt, которые располагаются в корне сайта, а в наиболее продвинутых поисковых системах через специальные личные кабинеты веб-мастеров, где они могут не только отслеживать, как их сайты индексируются, но также управлять настройками индексирующих роботов и отслеживать возникающие ошибки. Сервисы для веб-мастеров от крупнейших поисковых систем, таких как Google, «Яндекс» или Bing, используются почти всеми сайтами, чей доход зависит от аудитории, приходящей через поисковые системы.

Этим механизмам более 20 лет. Они формировались самим интернет-сообществом, «консорциумом всемирной паутины» (W3C). Стандарт robots.txt был выработан консорциумом еще в 1994 году, и в условиях экстерриториальности интернета он работал лучше, чем любые возможные форматы государственного регулирования и международных договоров.

Однако нарастающая сложность современных универсальных поисковых систем, множество предоставляемых ими возможностей, доступность языков комплексных запросов в итоге приводили к тому, что у правил появлялись исключения.

Так, с 2017 года интернет-архив (archive.org) игнорирует файлы robots.txt. Это связано с тем, что в отличие от поисковых систем интернет-архив не исходит из заинтересованности владельца сайта в получении аудитории, а работает в интересах пользователей, которые могут потерять нужные им материалы в случае исчезновения сайта.

Сами поисковики дают продвинутым пользователям возможность контролировать доступность данных. Google Hacking Database собрала огромное число примеров запросов, позволявших находить уязвимость в веб-серверах, в устройствах, подключенных в Сеть и имеющих веб-интерфейс или же позволяющих найти утечки чувствительных данных. Есть и общедоступная Bing hacking database. Пока еще нет в открытом доступе аналогичной базы запросов для «Яндекса», но, скорее всего, это вопрос времени.

Но в некоторых случаях эти правила работают плохо и вступают в конфликт с интересами фактических владельцев контента, созданного другими. Речь идет о социальных сетях и облаках.

Защита от поиска

Облака и социальные сети в каком-то смысле очень похожи на поисковые системы. Они не производят контент, но предоставляют пользователям инфраструктуру, позволяющую его создавать.

При этом крупные соцсети стараются скрыться от поисковых систем, предпочитая вкладывать в свой бренд узнаваемость и понимая, что их контент — их богатство. Так поступает Facebook, который блокирует доступ ко всему, что в нем накоплено, работая по модели «собирай все и ничего не отдавай», так работает Twitter, который разрешает индексацию, но с ограничениями.

А вот облачные сервисы менее склонны замыкать контент на себя и заинтересованы в аудитории, приходящей через поисковые системы. Если вы публикуете в облаке что-то общедоступное, то сервис соглашается с тем, чтобы это находилось поисковиками. Отсюда более высокий риск утечек. Можно вспомнить утечку паролей в Trello через Google в августе 2017 года. В настройках сервиса управления проектами Trello всегда была возможность делать «доски» проектов общедоступными, но только по прямым ссылкам. И эти ссылки оказались в поисковой системе. А в ноябре 2017 года в кеше Google и Yandex оказались адреса электронной почты из резюме «Авито». Многие подобные случаи просто остаются неизвестными широкой публике.

И все же о виновных

Самих пользователей можно обвинять лишь отчасти. С одной стороны, они, конечно, сами открывали доступ к своим документам, с другой — ситуация очень похожа на регулирование промышленной безопасности. Да, если человек схватился за оголенные провода и помер, то он не прав, но если кто-то оставил провода оголенными, то он совершил халатность, да и с детства учат, что за провода хвататься не нужно.

Можно ли обвинить Google в том, что они разрешают поисковым системам индексировать документы в Google Docs и не блокируют их в robots.txt?

Нет, потому что многие пользователи сознательно открывают документы. Да и другие поисковые системы могут подать в суд на собственника облачного сервиса, который запрещает индексирование, ведь он закрывает доступ к информации, которая ему не принадлежит. В чем можно обвинить облачные сервисы, так это в том, что они не до конца информируют пользователей. Не предупреждают, что если пользователь «засветил» ссылку на документ, то доступ к ней могут получить и третьи лица.

Можно ли обвинить «Яндекс» в том, что он индексирует общедоступные документы в Google Docs?

С одной стороны, нет, потому что для роботов «Яндекса» этот сайт от других мало чем отличается. В robots.txt нет ограничений, сами пользователи сделали документы общедоступными. И все же очень странно, что в поисковый индекс «Яндекса» попали документы, которые вряд ли могли быть найдены поисковым роботом, это документы внутренние, очень непубличные и которые мне, например, не удалось найти ни в одной из других поисковых систем. Хотелось бы надеяться, что речь не идет о ссылках на документы, о которых поисковик мог узнать только через сканирование своей почты или браузера. Иначе возникает очень неприятный вопрос о погружении поисковых машин вглубь условно общедоступных, но ранее непубличных документов.

Об авторе