Статьи и новости

Парсер контента и товаров V4

Долгожданная новая версия парсера товаров V4 вышла в свет. Главной особенностью этого релиза является возможность создавать парсеры. Т.е. наша программа, которая называлась CatalogLoader FULL была перенесена в V4. Сейчас она доступна в V4 как модуль. Но самое главное даже не то , что были объединены Парсер CatalogLoader FULL и V4, а то, что теперь можно протестировать работу парсера CatalogLoader FULL (точнее уже модуля) перед покупкой. Дополнительно было убрано требование запускать ПО под правами администратора (это коснулось всех продуктов CatalogLoader). Что касается...

Читать далее

База товаров CatalogLoader (clp) и Логи

База товаров CatalogLoader - это файл с расширение *.clp, в котором хранится вся информация, которую Вы спарсили продуктами Catalogloader. Сlp позволяет на порядок быстрее решить все вопросы, связанные с работой парсера и Базу товаров можно найти: 1. в директории c:\Users\ВАШ_Пользователь\Documents\CatalogLoader\V4\Databases\..  (в старых версия "c:\Users\Пользователь\AppData\Roaming\CatalogLoader\V4\Databases\" или "c:\Program Files\catalogloader.com\Парсер товаров Catalogloader v.4.0\Databases\.." ) 2. через интерфейс программы:  База товаров Clp Выбираем нужный файл, упаковываем его архиватором и отправляем в службу поддержки. Если архиватор говорит "Процесс не может получить доступ к файлу, так как...

Читать далее

Парсер на python

Парсер сайтов может использоваться для различных целей: получать самые свежие новости сайтов, которые не поддерживают RSS; получить данные с сайта конкурента; анализировать тексты в интернете; автоматизировать рутинные действия для сайтов, которые не предоставляют API. Исходя из целей парсера, логично предположить, что он должен уметь скачивать из интернета html страницы и извлекать необходимые данные. Так для скачивания html страницы, есть несколько способов: можно работать напрямую с сокетами и выполнять соответствующие HTTP запросы самим или воспользоваться существующими Python пакетами. Например: httplib, pycurl, pycurl2,...

Читать далее