https://catalogloader.com в этом году сделал значимое достижение по скорости парсинга. Кто не знает что такое парсинг - это извлечение информации из сайтов и сохранение ее в структурированном виде, например, в Excel файл или CSV/JSON файлы. Так вот достижение заключается в том, что смогли развить скорость парсинга на 1 сервере до 12 тысяч запросов в минуту. Если в начале года мы очень радовались новой цифре в 2 тысячи запросов в минуту, то в августе 2021 смогли уже преодолеть 12 тысяч. Только представьте: 12000 успешных скачиваний страниц в минуту. Еще год назад представить, что такое возможно было бы сложно, хотя мы теме парсинга очень давно. Но оказалось, что пару предположений и идей, которые были всегда где-то рядом и несколько месяцев разработки позволили получить вот такой результат. Что дает такой инструмент? Первое - это огромную экономию на серверах. Если раньше надо было 20-40 серверов для решения подобной задачи, то теперь достаточно 1 сервера. Плюс еще , конечно же, то что мы можем делать задачи по парсингу сайтов, которые раньше даже не взялись бы оценивать.
Так выглядит код парсера CatalogLoader: