Власти назвали условия доступа разработчиков нейросетей к госданным
Разработчики решений в области искусственного интеллекта смогут получать доступ к государственным наборам данных через государственных операторов на основе мотивированного запроса, сообщил «Интерфакс» со ссылкой на проект концепции Минцифры, представленный во вторник, 30 ноября, на расширенном заседании Комиссии РСПП по медиаиндустрии и предпринимательству в информационной сфере. Документ, по информации агентства, внесен в аппарат правительства.
Как пояснил советник гендиректора «Центра экспертизы и координации информатизации Министерства цифрового развития» (ЦЭКИ) Андрей Никуличев, концепция предполагает создание государственных операторов наборов данных, которых будет определять правительство и субъекты России. Дата-сеты будут формироваться на заявительной основе, учитывая высокую стоимость их создания: стоимость одного набора составляет не менее 1 млн руб., сообщил Никуличев. Состав и источники данных для набора будут определять операторы. Среди функций последних также будет обезличивание данных и обеспечение доступа к дата-сетам в зависимости от класса защищенности. В первый класс войдут общедоступные данные, во второй — обезличенные конфиденциальные (содержащие банковскую, налоговую, медицинскую и другие виды тайн), в третий — данные, содержащие гостайну, рассказал Никуличев, оговорившись, что вопрос доступа к третьему классу остается дискуссионным.
В зависимости от класса данных будет регулироваться список допущенных к ним лиц, в частности, ко второму и третьему классам смогут получить доступ лишь аккредитованные разработчики, а также инфраструктура доступа и хранения сведений (данные, содержащие гостайну, разработчики смогут использовать для обучения ИИ-моделей только на инфраструктуре операторов, без возможности скачивания). Проверять результаты обезличивания данных, а также правильность отнесения к тому или иному классу чувствительности будут специальные аккредитованные центры безопасности данных.
«Мы должны четко знать, кому эти наборы данных нужны, каким образом они будут использоваться, какой социально-экономический эффект они будут приносить», — приводит слова Андрея Никуличева «Интерфакс». Согласно планам, в 2022–2023 годах разработчики смогут получить доступ к наборам открытых данных, в 2023-му — к обезличенным данным, а к 2024-му — к данным, содержащим гостайну. Для реализации концепции потребуются изменения в законы «Об информации, информационных технологиях и о защите информации», «О персональных данных» и «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления».
Зачем нужен доступ к данным
Разработчики технологии искусственного интеллекта не раз заявляли, что для ее развития необходим доступ к данным. В России регулируется использование персональных данных, но вопросы, связанные с их использованием в обезличенном виде или с использованием «больших данных» (например, показаний счетчиков) пока находятся в серой зоне.
Ряд экспертов заявили, что поддерживают предложенный в концепции Минцифры подход. Управляющий партнер аналитической компании Marketing Logic Дмитрий Галкин назвал описанный формат работы с данными, если он будет реализован в заявленном виде и не преобразится по каким-то причинам, — «близким к идеальному». Он рассчитывает, что, если дата-сеты будут надежно защищены на государственном уровне, это сократит злоупотребление данными и нарушение их конфиденциальности, а также общий уровень доверия к технологии и всем сферам, где она используется. «Все-таки у нас уровень доверия к государственным сервисам выше, чем к коммерческим, во многом потому, что государство, как подразумевается, не ставит целью извлечение сверхприбыли и в случае соблюдения законов и отсутствия коррупции внутри конкретной структуры лучше защищает права субъектов данных, не торгует ими направо и налево, а выдает под конкретные исследования в обезличенном виде», — пояснил Галкин. Он привел в пример публичный сервис ФНС по получению выгрузки компаний из ЕГРЮЛ, которым пользуются многие компании, в том числе Marketing Logic.
Гендиректор VisionLabs Дмитрий Марков говорит, что также поддерживает инициативу, поскольку для создания продуктов на основе компьютерного зрения компания иногда вынуждена пользоваться не только открытыми, но и платными источниками данных — вплоть до покупки готовых дата-сетов. В то же время он отметил, что важно, чтобы государство и бизнес совместно выработали требования к предлагаемым наборам данных в зависимости от отраслевой специфики — в дальнейшем это позволит создавать высокоэффективные и востребованные алгоритмы.
Директор по продуктам МТС AI Ольга Кулешова также указала, что на рынке уже существует большое количество открытых дата-сетов по различным направлениям, но вопрос заключается в их полноте, качестве и релевантности задачи, которая стоит у разработчиков. «Если появится еще один источник новых данных по запросу, то это, безусловно, позитивный знак для рынка искусственного интеллекта, поскольку могут появиться какие-то уникальные дата-сеты, пусть и с рядом ограничений», — считает она. А поскольку проект подразумевает обезличивание данных, то это минимизирует риски для безопасности — нельзя будет определить, кто является субъектом персональных данных.
В то же время Анна Серебряникова, президент Ассоциации больших данных (АБД), которая объединяет «Яндекс», VK, Сбербанк, «МегаФон», «Ростелеком» и др., указала, что сейчас в мире отсутствуют примеры того, что государство может выступить гарантом правильного обезличивания данных. «Прежде всего это обосновано тем, что выбор методов обезличивания зависит от конкретного дата-сета и относится к сфере компетенций бизнеса. Наиболее перспективным направлением нам представляется введение института дата-посредников, — организаций, аккредитованных государством и выполняющих функции аккумуляции лучших практик в области работы с данными, стандартизации, отбора перспективных проектов, взаимодействия с государством и бизнесом», — отметила Серебряникова, подчеркнув, что опыт других стран «убедительно показывает, что модель сотрудничества государства и бизнеса через такой институт наиболее эффективна». В то же время она подчеркнула, что АБД поддерживает расширение доступа к государственным дата-сетам и их использование в сферах искусственного интеллекта.