Бесплатно Экспресс-аудит сайта:

05.10.2021

Эксперты обошли защиту от блокировщиков рекламы с помощью машинного обучения

Исследователи из Политехнического университета Виргинии и Университета Калифорнии (Дэвис) в США и FAST NUCES и Лахорского университета управленческих наук в Пакистане разработали метод на основе машинного обучения для определения web-сайтов, устойчивых к блокировке рекламы и другим технологиям, сохраняющим конфиденциальность. Специалисты также проанализировали методы, используемые такими сайтами для «смешивания» рекламного и реального контент, в результате чего последний не отображается при включенном блокировщике рекламы.

Эксперты провели масштабное исследование «смешанных ресурсов» на 100 тыс. web-сайтов и обнаружили, что 17% доменов, 48% имен хостов, 6% скриптов и 9% методов доставки контента намеренно сочетают функции отслеживания (рекламы) с процессами, предоставляющими реальный контент. В таких случаях контент статьи будет исчезать для пользователей, которые используют программное обеспечение для блокировки рекламы, вынуждая отключить данные меры для дальнейшего просмотра контента.

Исследователи предложили систему, способную разделять компоненты этих «смешанных» web-ресурсов с точностью 98%, что дает решениям по блокировке рекламы и борьбе с отслеживанием шанс распутать потоки в более поздних итерациях своего программного обеспечения и снова включить доступ к контенту на страницах с блокировкой рекламы.

Системы блокировки рекламы в целом полагаются на то, что рекламный контент на web-странице происходит из определенных, выделенных доменов (рекламных технологий с доменными именами и/или IP-адресами). Данный подход позволяет разрабатывать списки блокировки, которые не будут отображать контент из этих источников внутри web-страницы.

Эксперты создали платформу TrackerSift для анализа сетевых ресурсов, загружаемых web-сайтами, с последующим разделением смешанных ресурсов на «контент» и «рекламу». На самом общем уровне анализа TrackerSift записывает основные сетевые запросы на ресурсы, такие как рекламный контент, полученный из сети доставки контента или рекламной платформы. Затем он детализирует содержимое извлеченных ресурсов, выполняя анализ на уровне кода и различая функции различных типов кодовых вызовов и процедур.