Недавно мы писали в проекте Прайсматрикс, что сделали парсер сайтов на woocommerce (парсит только сайты на woocommerce, достаточно вставить только ссылку на сайт) и решили оценить, как много сайтов на вукомерс в рунете. Попутно посмотрели и на другие cms, сколько их. Какая статистика получилась и как ее делали - смотрите дальше в этой статье.
Исходные данные.
В открытом доступе скачали списки трех доменных зон и там было такое количество доменов:
- ru - 5638193
- рф - 776974
- su - 109267
Как анализировали.
Анализ проводился в несколько этапов:
- Загрузка главной страницы сайта: Мы разработали программу, которая загружала главную страницу каждого сайта из списка доменов. Это позволило получить исходные данные для дальнейшего анализа.
- Поиск упоминаний “тегов” из заранее сформированного словаря: Использовали словарь ключевых тегов и атрибутов, специфичных для каждой CMS. Например, для WordPress это могли быть метатеги или специфичные CSS-классы, такие как "wp-content" или "wp-includes". Для Bitrix мы искали упоминания таких ключевых слов, как "bitrix" и т.п.
- Присвоение соответствующей CMS домену и запись результата в файл: Если на странице находились упоминания из словаря, домену присваивалась соответствующая CMS, и результат записывался в файл. Этот процесс позволял быстро обрабатывать большие объемы данных.
Софт, который мы использовали, позволяет обрабатывать весь этот объем данных за один день.
Результаты.
Сайтов на Woocommerce смогли найти 31638 шт.
Статистика про другие движки получились такая (для увеличения картинки кликайте по ней):
Анализ показал, что большинство сайтов в рунете использует WordPress, что ожидаемо, учитывая его популярность в мире. Tilda и Bitrix также занимают значительные доли рынка.
Трудности и ограничения
Множество сайтов имеют различную защиту от роботов парсинга, самое элементарное - закрыт доступ с зарубежных IP. Так как парсинг осуществлялся самым простым способом без всяких примочек, то большая часть от исходного списка доменов осталась с неопределенной CMS, что может повлиять на результаты.
Есть несколько направлений для дальнейшего улучшения:
- Оптимизация парсинга: Использование проксей и методов обхода защитных механизмов сайтов позволит увеличить количество обработанных доменов.
- Расширение словаря тегов: пополнение словаря ключевых тегов поможет более точно идентифицировать CMS, особенно новых и менее распространенных.
Статистика прошлых лет.
Ранее мы делали подобные анализы похожим способом, но только для интернет-магазинов, а не любых сайтов. Несколько скриншотов из прошлых анализов см. ниже.
Август 2018 (картинка кликабельна):
Ноябрь 2016 (картинка кликабельна):
Ноябрь 2015 (картинка кликабельна):