Прямой эфир
Ошибка воспроизведения видео. Пожалуйста, обновите ваш браузер.
Лента новостей
Проигрывал больше, чем выигрывал: как помочь больным людоманией Партнерский проект, 20:55
Пророссийские власти Запорожья сообщили об обстреле поезда у Мелитополя Политика, 20:53
Что такое «очень престижные номера» для автомобилей Партнерский проект, 20:05
Кадыров заявил, что Лисичанск взят под контроль Политика, 19:58
На Уимблдоне прервалась серия из 37 побед лучшей теннисистки мира Спорт, 19:57
Лукашенко рассказал о попытке удара с территории Украины по Белоруссии Политика, 19:41
Nordstar закрыла подразделение в Петербурге из-за «отсутствия перспектив» Бизнес, 19:33
«Матч ТВ» сообщил о госпитализации задержанного вратаря сборной России Спорт, 19:18
Лукашенко увидел «взращивание монстра» странами Западной Европы Политика, 19:17
Работа для подростка: как раннее трудоустройство помогает строить карьеру Партнерский проект, 19:16
Мирзиёев после протестов пообещал не вносить часть поправок в Конституцию Политика, 19:07
«Спартак» под руководством Абаскаля одержал вторую победу подряд Спорт, 18:59
В Сети появились данные клиентов сервиса по заказу билетов Туту.ру Технологии и медиа, 18:52
Качиньский пообещал «не отступать» по вопросу репараций от Германии Политика, 18:44
Мнение ,  
0 
Иван Бегтин

Поиск виновного: почему стала возможной утечка данных из Google Docs

Когда в 1990-е годы создавались известные нам поисковики, считалось, что если кто-то что-то опубликовал в Сети, значит, он заинтересован в привлечении внимания. Современный интернет устроен сложнее

Десятки блогеров и изданий написали о том, как много не предназначенной для чужих глаз информации вышло наружу, когда в поиск «Яндекса» попали общедоступные документы из сервисов Google. Достаточно было воспользоваться расширенными возможностями поиска, сузить его до домена docs.google.com и поискать по ключевым словам, например passwords, и можно было найти немало документов как с паролями компаний и отдельных пользователей, так и просто с их конфиденциальной информацией.

«Яндекс» оперативно убрал эту возможность, но вопросы остались. Как же такое произошло? И кто виноват во всей этой ситуации? «Яндекс», проиндексировавший то, что не надо было индексировать? Google, позволивший другим поисковым системам подобную индексацию? Сами пользователи, сделавшие общедоступным то, что общедоступным быть не должно было?

Как устроена система

С момента появления поисковых систем в их основе лежал простой тезис о том, что, если кто-то что-то опубликовал в открытом доступе, значит, этот человек или компания заинтересованы в привлечении внимания. Сайты выполняли маркетинговые или образовательные задачи, и поисковые системы служили, да и сейчас служат, удобным механизмом привлечения аудитории.

Для тех же, кто хотел что-то скрыть от других пользователей или не хотел бы, чтобы поисковые системы индексировали их сайты, всегда присутствовала возможность добровольного отказа от индексирования.

Практика согласия по умолчанию и добровольного отказа (opt-out) реализуется через специальные файлы-инструкции для поисковых систем — robots.txt, которые располагаются в корне сайта, а в наиболее продвинутых поисковых системах через специальные личные кабинеты веб-мастеров, где они могут не только отслеживать, как их сайты индексируются, но также управлять настройками индексирующих роботов и отслеживать возникающие ошибки. Сервисы для веб-мастеров от крупнейших поисковых систем, таких как Google, «Яндекс» или Bing, используются почти всеми сайтами, чей доход зависит от аудитории, приходящей через поисковые системы.

Этим механизмам более 20 лет. Они формировались самим интернет-сообществом, «консорциумом всемирной паутины» (W3C). Стандарт robots.txt был выработан консорциумом еще в 1994 году, и в условиях экстерриториальности интернета он работал лучше, чем любые возможные форматы государственного регулирования и международных договоров.

Pro
Очень плохой прогноз: как дефицит импортных метеоприборов бьет по бизнесу
Pro
Фото: Shutterstock Вас здесь знать не знают: как компании выстроить репутацию в новой стране
Pro
Фото: Shutterstock Как защитить кожу от солнца: подробная инструкция от дерматолога
Pro
Фото: Shutterstock Как H&M стала холдингом на $23 млрд, но так и не одолела конкурента
Pro
Фото: Shutterstock Инфляция по всему миру выходит из-под контроля. К чему это приведет
Pro
Фото: Shutterstock Почему россияне отказываются от покупки квартир и что будет со спросом
Pro
Что надо учесть компании, создавая корпоративный суперапп для сотрудников
Pro
Движение назад: почему Netflix переходит к бизнес-модели кабельного ТВ

Однако нарастающая сложность современных универсальных поисковых систем, множество предоставляемых ими возможностей, доступность языков комплексных запросов в итоге приводили к тому, что у правил появлялись исключения.

Так, с 2017 года интернет-архив (archive.org) игнорирует файлы robots.txt. Это связано с тем, что в отличие от поисковых систем интернет-архив не исходит из заинтересованности владельца сайта в получении аудитории, а работает в интересах пользователей, которые могут потерять нужные им материалы в случае исчезновения сайта.

Сами поисковики дают продвинутым пользователям возможность контролировать доступность данных. Google Hacking Database собрала огромное число примеров запросов, позволявших находить уязвимость в веб-серверах, в устройствах, подключенных в Сеть и имеющих веб-интерфейс или же позволяющих найти утечки чувствительных данных. Есть и общедоступная Bing hacking database. Пока еще нет в открытом доступе аналогичной базы запросов для «Яндекса», но, скорее всего, это вопрос времени.

Но в некоторых случаях эти правила работают плохо и вступают в конфликт с интересами фактических владельцев контента, созданного другими. Речь идет о социальных сетях и облаках.

Защита от поиска

Облака и социальные сети в каком-то смысле очень похожи на поисковые системы. Они не производят контент, но предоставляют пользователям инфраструктуру, позволяющую его создавать.

При этом крупные соцсети стараются скрыться от поисковых систем, предпочитая вкладывать в свой бренд узнаваемость и понимая, что их контент — их богатство. Так поступает Facebook, который блокирует доступ ко всему, что в нем накоплено, работая по модели «собирай все и ничего не отдавай», так работает Twitter, который разрешает индексацию, но с ограничениями.

А вот облачные сервисы менее склонны замыкать контент на себя и заинтересованы в аудитории, приходящей через поисковые системы. Если вы публикуете в облаке что-то общедоступное, то сервис соглашается с тем, чтобы это находилось поисковиками. Отсюда более высокий риск утечек. Можно вспомнить утечку паролей в Trello через Google в августе 2017 года. В настройках сервиса управления проектами Trello всегда была возможность делать «доски» проектов общедоступными, но только по прямым ссылкам. И эти ссылки оказались в поисковой системе. А в ноябре 2017 года в кеше Google и Yandex оказались адреса электронной почты из резюме «Авито​». Многие подобные случаи просто остаются неизвестными широкой публике.

И все же о виновных

Самих пользователей можно обвинять лишь отчасти. С одной стороны, они, конечно, сами открывали доступ к своим документам, с другой — ситуация очень похожа на регулирование промышленной безопасности. Да, если человек схватился за оголенные провода и помер, то он не прав, но если кто-то оставил провода оголенными, то он совершил халатность, да и с детства учат, что за провода хвататься не нужно.

Можно ли обвинить Google в том, что они разрешают поисковым системам индексировать документы в Google Docs и не блокируют их в robots.txt?

Нет, потому что многие пользователи сознательно открывают документы. Да и другие поисковые системы могут подать в суд на собственника облачного сервиса, который запрещает индексирование, ведь он закрывает доступ к информации, которая ему не принадлежит. В чем можно обвинить облачные сервисы, так это в том, что они не до конца информируют пользователей. Не предупреждают, что если пользователь «засветил» ссылку на документ, то доступ к ней могут получить и третьи лица.

Можно ли обвинить «Яндекс» в том, что он индексирует общедоступные документы в Google Docs?

С одной стороны, нет, потому что для роботов «Яндекса» этот сайт от других мало чем отличается. В robots.txt нет ограничений, сами пользователи сделали документы общедоступными. И все же очень странно, что в поисковый индекс «Яндекса» попали документы, которые вряд ли могли быть найдены поисковым роботом, это документы внутренние, очень непубличные и которые мне, например, не удалось найти ни в одной из других поисковых систем. Хотелось бы надеяться, что речь не идет о ссылках на документы, о которых поисковик мог узнать только через сканирование своей почты или браузера. Иначе возникает очень неприятный вопрос о погружении поисковых машин вглубь условно общедоступных, но ранее непубличных документов.

Об авторе
Иван Бегтин Иван Бегтин директор АНО «Информационная культура»
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.
Теги
Магазин исследований Аналитика по теме "Интернет"