Что такое Scraping?

Инструменты парсинга, извлекающие данные с веб-сайтов, все чаще становятся для хакеров альтернативой сложным атакам. Это то, что вам нужно знать.

Остерегайтесь скраперов (scraping): после публикации в Интернете информация может быть собрана и использована не по назначению.

Сейчас это почти обычная практика, когда миллионы пользовательских данных регулярно попадают в чужие руки из-за взломов и утечки данных в онлайн-сервисах. Например, данные от более чем 553 миллионов пользователей Facebook и 500 миллионов учетных записей LinkedIn.

Однако довольно необычно то, что все компании отрицают, что стали жертвами взлома. По их словам, это был скорее случай соскабливания (scraping).

Были перехвачены те данные, которые были опубликованы самими пользователями и которые могут быть просмотрены другими участниками. Но что такое scraping (парсинг), как он работает и как от него защититься?

Обзор понятия Scraping

Scraping (парсинг) как сокращенная форма Screen Scraping (парсинга экрана) или Web Scraping (парсинга веб-страниц) — это функция, в которой приложение или скрипт считывает и хранит информацию с сайта или онлайн-сервиса – т.е. «собирает» информацию с экрана.

Хорошо известные случаи использования этой технологии включают ботов поисковых систем, таких как Google, которые постоянно путешествуют по Интернету для индексации веб-сайтов (сканирования). Но порталы сравнения также используют этот метод для сбора огромных объемов данных и их последующей оценки.

Во многих случаях такая практика также отвечает интересам операторов веб-сайтов, поскольку благодаря такой индексации они могут добиться большего охвата или увеличения продаж своих продуктов и услуг. Однако эту технологию можно использовать и с другой целью. Компании могут использовать scraping (парсинг) для автоматического поиска в интернет-магазинах конкурентов.

Затем они могут, например, корректировать свои цены так, чтобы они всегда были немного дешевле (захват цен). Или вы можете взять на себя описания и изображения их продуктов (захват контента) или весь дизайн интернет-магазина и сэкономить много времени и денег. Номера телефонов и адреса электронной почты, собранные в Facebook, также напрямую связаны с последующими волнами «смишинга» и фишинга.

Как работает Scraping?

Процесс парсинга (scraping) в целом состоит из двух частей: посещение нужных веб-страниц (статических и динамически генерируемых) и последующее извлечение данных. Доступно множество инструментов для парсинга, многие из которых есть только на GitHub. Там представлены решения и наборы инструментов для широкого спектра областей применения.

В случае с информацией Facebook, из которой также были извлечены данные, помеченные как частные, эксперты предполагают использование специального метода, который воспользовался пробелом в функции импорта контактов платформы, которая была закрыта в конце 2019 года.

Эта функция предназначена для того, чтобы пользователи могли идентифицировать друзей и знакомых на Facebook, загружая их телефонную книгу. По данным Facebook, злоумышленники широко использовали эту функцию, чтобы запросить набор профилей пользователей, а затем получить информацию о них, содержащуюся в их общедоступных профилях.

Scraping – это законно или незаконно?

Ответ зависит от многих факторов. Если для парсинга не преодолены никакие технические средства защиты, само действие не является противозаконным — ведь собирается только та информация, которая уже находится в открытом доступе. Однако то, что вы делаете с данными после их сбора, может быть незаконным.

Если изображения, статьи и тому подобное копируются и публикуются где-либо без разрешения, это явное нарушение авторских прав. Использование наборов данных для фишинга и подобной деятельности является незаконным.

Вердикт еще более ясен, когда речь идет о сборе персональных данных. Законы о защите данных содержат четкие рекомендации по сбору и хранению персональных данных.

Для этого у вас должна быть законная причина, например явное согласие или законный интерес в сборе и хранении персональных данных. Закон также требует, чтобы обрабатывалось только столько данных, сколько необходимо для выполнения задачи (экономика данных).

Большинство операторов социальных сетей также исключают парсинг в своих условиях. Тот факт, что, как и в случае с Facebook и LinkedIn здесь практически нет других контролирующих органов, бросает плохой свет на их настройки безопасности.

Scraping (парсинг данных): меры защиты.

У оператора сайта есть различные варианты защиты от скраперов. Обычно используемые методы включают использование запросов с помощью капчи или файла robots.txt для запрета доступа веб-сканерам. Кроме того, брандмауэры веб-приложений обычно способны обнаруживать подозрительные действия с помощью парсера.

Кроме того, не следует слишком упрощать работу автоматизированных сборщиков данных. В случае с некоторыми сайтами, похоже, при создании профилей пользователей в базе данных SQL использовалась последовательная нумерация. Это обеспечивает относительно легкий доступ к парсерам: простого скрипта, который добавляет номер к ссылкам профиля, достаточно для массового парсинга данных.

А что на стороне пользователя? Пользователи должны осознавать, что любая информация, находящаяся в публичном доступе, также рискует стать жертвой скраперов, независимо от того, Facebook ли это, LinkedIn или другие приложения.

Эксперты по безопасности от Mainton: После публикации информация может быть собрана, и вы не можете контролировать, кто копирует данные и что с ними делается на просторах Интернета.

Соответственно, единственный способ предотвратить сбор и использование публичной информации нежелательным образом – это не публиковать ее. Facebook также рекомендует всем пользователям регулярно проверять настройки защиты данных, чтобы постоянно адаптировать их к своим текущим предпочтениям.

Компания Mainton - разработка и тестирование программного обеспечения под заказ, DevOps и SRE, SEO и реклама в интернете с 2004 года.

ПЕНТЕСТ БЕЗОПАСНОСТЬ ВЗЛОМАЛИ? МОНИТОРИНГ СТАТЬИ ВАКАНСИИ