Эксперт рассказал о механизме утечки личных данных пользователей с банковских и других сайтов

Проблема с утечкой персональных данных пользователей приобретает все большие масштабы: если раньше этого можно было ждать в основном от мелких интернет-магазинов, то сейчас это актуально и для таких гигантов, как ВТБ, Сбербанк, Департамент транспорта Москвы, агрегаторы авиабилетов и т. п. Об этом говорится в опубликованном на портале vc.ru материале SEO-специалиста, эксперта по поисковым системам в Rush Agency Павла Медведева, который объясняет, как происходят такие утечки.

В материале приводятся скриншоты с примерами данных, которые можно найти в поисковой выдаче. В том числе это данные трансакций через Сбербанк, электронные билеты РЖД, сканы паспортов, которые можно найти через Единый транспортный портал Москвы.

«На фоне всеобщей истерии в ленте по поводу «Google Документов» и Power Bi я ввел старый запрос 2011 года, чтобы посмотреть, изменилась ли ситуация, и ужаснулся. Раньше проблемы были в основном у мелких интернет-магазинов, сейчас информацию сливают и такие гиганты, как ВТБ, Сбербанк, Департамент транспорта Москвы, агрегаторы авиабилетов и многие другие. Я считаю, это связано с тем, что из-за кризиса многие хорошие специалисты и разработчики переориентировались на Запад и качество кадров в ИТ снизилось», — комментирует Медведев.

Он поясняет, что поисковые системы не могут получать доступ к страницам, которые требуют авторизации, и читать оттуда информацию. Но создатели сайтов для удобства доступа пользователей к личным страницам придумали документы с уникальным длинным адресом из случайного набора символов, который невозможно угадать или получить перебором. Такие переходы считаются надежными, но есть много способов, как поисковая система может узнать о ссылке, утверждает автор статьи.

«Например, вы на каком-то полуприватном затерянном на окраинах Интернета форуме, где сидите только вы и пять ваших близких знакомых, поделились этой ссылкой. Поисковые системы регулярно переобходят даже самые малопосещаемые и никому неизвестные сайты, если они доступны для индексации роботам. Такая ссылка рано или поздно проиндексируется, и страница с личной информацией попадет в индекс», — рассказывает эксперт по поисковым системам. Он напоминает, что в 2011 году был скандал с попавшими в выдачу СМС-сообщениями «МегаФона».

Один из каналов утечки — системы аналитики (счетчики, которые устанавливают на каждой странице сайта для исследования поведения посетителей на нем), следует из материала. Самые популярные в России — «Яндекс.Метрика» и Google Analytics. По словам эксперта, хотя в настройках любого счетчика «Метрики» есть опция запрета автоматической отправки страниц сайта, на которых установлен счетчик «Метрики», на индексацию «Яндекс.Поиску», «приватные страницы все равно попадают в индекс, потому что это один из множества источников данных поисковых систем».

«У Google есть браузер Chrome, у «Яндекса» — «Яндекс.Браузер». На них приходится более 70% всех посетителей. Устанавливая браузеры, вы соглашаетесь с возможной обработкой, отправкой браузером анонимных данных о просмотрах и так далее. То есть это вполне легальный способ собрать большую часть когда-либо просмотренных пользователями страниц. Когда вы скачиваете какую-нибудь бесплатную программу, часто с ней агрессивно навязываются программы и плагины для браузера от поисковых систем, которые многие специалисты расценивают как дополнительный канал для анализа трафика и поведения пользователей», — рассказывает Медведев.

Помимо этого поисковые системы могут покупать анонимизированные данные о трафике, просмотренных сайтах или страницах, как это делает известный сервис SimilarWeb.

«Представьте ситуацию: вы купили авиабилет с вылетом через полгода, вам пришла СМС со ссылкой для просмотра и редактирования информации в «Личном кабинете». Вы перешли на нее в телефоне, проверили и забыли. Тем временем ваш мобильный «Яндекс.Браузер», Android или счетчик метрики сообщил поисковику, что появилась неизвестная ранее страница, робот проверил — страница работает, проиндексировал ее через какое-то время. Потом злоумышленник вбивает в поиск запрос вроде «билет на Бали октябрь изменить бронирование» — попадает в ваш «Личный кабинет», переписывает фамилию на свою и через полгода улетает вместо вас», — приводит специалист пример того, как можно воспользоваться данными (можно представить, что и такие сайты существуют, которые даже не предупредят об изменении и не запросят дополнительное подтверждение или авторизацию, рассуждает он).

«Поисковый робот не знает — персональные ли данные в файле. Коммерческая ли тайна в таблицах с финансовыми показателями или, наоборот, вы хотели бы делиться этой информацией со всеми. Он переходит по страницам, доступ к которым не закрыт владельцами сайта», — констатирует Медведев.

По его мнению, в сложившейся ситуации 80% вины лежит на владельцах сайтов, которые не обеспечивают должного качества их разработки и оптимизации, а 20% — на поисковиках, которые недостаточно освещают свои механизмы ранжирования и индексации.

«Большинство современных разработчиков считает, что документ, доступный по длинной уникальной ссылке, надежно защищен и никогда не попадет в индекс. Рекомендую представителям поисковых систем больше упоминать на своих профильных конференциях и вебинарах для профессионалов о том, что любая страница, доступная без авторизации, может рано или поздно попасть в индекс», — подчеркивает автор материала.

«Любые чувствительные данные максимально закрывать от посторонних с помощью авторизации», — дает он главную рекомендацию владельцам сайтов. В частности, по его словам, необходимо «запрещать роботам индексировать любую конфиденциальную информацию, причем использовать не только один из рекомендуемых поисковой системой способов, а дублировать, используя все методы защиты, такие как robots.txt, clean-param, meta-noindex».

В числе прочего в статье Медведева указано, что упомянутые домены ВТБ, Сбербанка и Единого транспортного портала Москвы «пренебрегают элементарными требованиями защиты данных — у них даже отсутствует файл robots.txt».

Разработчики поисковиков, по его мнению, должны были бы добавлять в документы, доступные по ссылке, запрет индексации с помощью метатега robots noindex и блокировать доступ поисковых роботов к таким документам, а также выдавать предупреждение при открытии доступа по ссылке: «наличие ссылки только у вас не значит, что о ней никто не узнает, — множество программ, браузеров, плагинов, счетчиков, скриптов собирают информацию, и только их разработчикам известно, как они ее хранят и куда дальше направляют.

Источник: banki.ru