Парсер "V4.IDE". Документация.

Эта версия документации для V4.IDE неактуальна.

Актуальная версия здесь: 

http://catalogloader.com/documentation/primer-nastrojki-parsera-v4-ide-na-primere-sajta-catalogloader-com

 

+Введение
+Термины и определения
+Возможности программы
+Установка и запуск программы
+Создание проекта, редактирование уже существующего
+Редактор: настройка парсера
+Первоначальные настройки
+Данные для тестирования настроек
+Настройка парсинга (копирования) структуры каталога (категорий) сайта-источника
+Настройка параметров товара
+Имена параметров
+Настройки параметров
+Тестирование настроек
+Дополнительные шаблоны экспорта
+Скачивание и выгрузка товаров
+Скачивание изображений
+Полезные программы для работы с парсерами>

Введение

"Среда разработки парсеров CatalogLoader" – это программное обеспечение для решения задач связанных с извлечением и анализом данных из сайтов. Среда разработки представляет собой модуль к парсеру V4. CatalogLoader V4, являясь универсальным парсером данных, специализируется для решения задач связанных с извлечения данных из интернет – магазинов, что достигается за счет тесной интеграции программы с популярными СMS для Интернет-торговли такими как 1С-Битрикс, OpenCart, Prestashop  Virtuemart, Vamshop, Amiro, NetCat, Magento и другими. ПО представляет собой программу для Windows.

Термины и определения

Основные термины, используемые при работе с программой, описаны в настоящем разделе и используются по тексту данного руководства. Разработчики программы, а так служба поддержки сервис центр используют именно эти термины во время общения с заказчиками, что позволяет сократить время на понимание сути задач и перейти непосредственно к обсуждению деталей процессов.
Сайт источник – сайт в интернете, из которого извлекаются данные.

Парсер – Программа CatalogLoader, предназначенная для извлечения данных

CMS \ Движок сайта \ Админка – информационная система или компьютерная программа, используемая для обеспечения и организации совместного процесса создания, редактирования и управления контентом. Популярные системы общего назначения: Joomla WordPress, для интернет-торговли Virtue mart, Ecommerce, Prestashop, Magento, X-Cart, NetCat.

Атрибут \ Параметр \ Свойство товара \ Характеристика – это то что отличает один товар от другого, классический атрибутов в интернет магазине по отношению к товару является имя товара, или его цена, цвет и стоимость. Если речь идет о статьях, то характеристиками обычно являются Текст статьи, автор, время публикации и название.

SKU \ Артикул \Product ID \ ID Товара – Это параметр \ атрибут, который является уникальным для всего набора товаров в конкретном интернет магазине. По SKU\ Артикул \Product ID можно точно найти товар в определенном магазине. Когда речь идет о переносе товаров из одной системы в другую, то употребляются выражения “внутренний Артикул” и “внешний Артикул”.

CSV файл \ CSV формат – текстовый формат данных, используется для импорта \ экспорта данных в CMS системы. Для работы с файлами этого формата можно использовать Блокнот (он установлен на всех Windows системах) и увидеть содержимое файла. Также такие программы как Excel и Open Office используются для работы с CSV файлами. Особенностью формата способность представления табличных данных в текстовом виде, в качестве разделителей колонок данных используется специальных разделитель, обычно это запятая, точка с запятой, знак табуляции или любой другой символ или их комбинация.

GrabCatalog – это название формата файла используемого программой CatalogLoader для описания и хранения информации о структуре каталога сайта источника. Файл формата .GrabCatalog является текстовым файлом и его можно открыть в программе «Блокнот».

GrabSettings – это название формата файла используемого программой CatalogLoader для описания правил извлечения данных из сайта источника. Файл формата . GrabSettings является текстовым файлом и его можно открыть в программе «Блокнот», но ввиду сложности восприятия информации расположенной в этом файле рекомендуется использовать редактор настроек проекта CatalogLoader.

Кэш \ Cache – промежуточный буфер с быстрым доступом, содержащий информацию, которая может быть запрошена с наибольшей вероятностью. Доступ к данным в кэше идёт быстрее, чем выборка исходных данных за счёт чего уменьшается среднее время доступа и увеличивается общая производительность компьютерной системы. Прямой доступ к данным, хранящимся в кэше, программным путем невозможен. Программа CatalogLoader обладает функциями поддержки работы с КЭШем и сохраняет его в папке \Cache\Имя проекта. Если требуется извлечь свежие данные то пользователю следуют очистить папку \Cache\Имя проекта.

Экспорт – Операция по формированию экспортных файлов в требуемую CMS. В программе CatalogLoader выделают два основных типа экспортных файлов: 1) экспортный файл с описаниями товаров и их положения в категориях CMS, 2) экспортный файл для копирования файлов с изображениями. Следует знать, что некоторые CMS требуют экспортные файлы с описанием каталога.

Pagination \ Пагинация – Способ представления длинных списков однородной информации путем разбиения ее на небольшие блоки обычно одинаковой длинны (10, 15, 20 штук на страницу). Пагинация используется в Интернет - магазинов при отображении товаров принадлежащих к определенной категории.

Стандартные атрибуты программы – набор атрибутов, которые создаются автоматически при создании нового проекта в программе CatalogLoader. Для проектов типа «интернет-магазинов» такими атрибутами являются: 1) Название товара, 2) Описание товара, 3) Краткое описание 4) Стоимость 5) Изображение товара.

Визуальная настройка – способ указания части данных, которые будут являться источником для формирования значения атрибута. Особенностью является возможность указания источника с помощью кликов мышкой по частям данных в браузере.

XPath (Икс пас) – способ указания части данных, которые будут являться источником для формирования значения атрибута. XML Path Language — язык запросов к элементам XML-документа. Разработан для организации доступа к частям документа XML в файлах трансформации XSLT и является стандартом консорциума W3C. XPath призван реализовать навигацию по DOM в XML. В XPath используется компактный синтаксис, отличный от принятого в XML.

Regular expression (регулярное выражение) – это формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (символов-джокеров, англ. wildcard characters). По сути это строка-образец (англ. pattern, по-русски её часто называют «шаблоном», «маской»), состоящая из символов и метасимволов и задающая правило поиска.
Структура сайта источника – порядок, вложенность категорий сайта.

Возможности программы

- Автоматическое построение категорий с иерархией сайта источника.

- Возможно менять иерархию категорий. Изменение структуры сайта источника – возможность точечного изменения структуры, которая будет переноситься на сайт-приемник.

- Извлечение данных из HTML.

- Извлечение изображений – извлечение полной ссылки на изображение, извлечение название файла, скачивание файла с изображением.

- Переименовывание изображений.

- Изменение артикула на случайный или требуемый.

- Работа с AJAX данными.

- Экспорт данных в CSV \ Excel \ XML \ YML популярных CMS.

- Экспорт данных напрямую в базу данных с автоматической загрузкой изображений.

Установка и запуск программы

Загружаем на компьютер, а затем запустить установочный файл Setup_CatalogLoader.exe. В конце установки будет предложено запустить программу.
Установщик создаст ярлыки на рабочем столе и в главном меню, которыми можно будет пользоваться для запуска программы.

Создание проекта, редактирование уже существующего

Для начала работы непосредственно с проектом, нужно его создать или открыть уже существующий.

Для создания нового проекта выбираем меню Файл –> Создать Парсер. В появившемся "Среде разработки парсеров" выбираем Парсер -> Создать.

create1

create2

после чего в появившемся окне указываем имя проекта, как правило, это имя сайта-источника:

create3

Для редактирования уже имеющегося проекта выбираем в меню Файл – Открыть проект.

Все проекты хранятся в директории Projects, которая находится в корне директории куда установлен парсер.

Настройка парсера

Все настройки парсера выполняются в среде для создания парсеров.
settings_open

Если вы создали проект, то после его создания или после открытия его на редактирование открывается редактор настроек.

edit_main

Первоначальные настройки

К первоначальным настройкам относятся настройки

- Домен сайта источника.

- Ссылка на начало каталога источника.

- Кодировка сайта источника.

- Пользовательские параметры.

- Максимальное число продуктов в одной категории.

- Параметр "Скачивать продукты только из нижних категорий".

edit_main

 

Данные для тестирования настроек

Для тестирования настаиваемых параметров в редакторе парсера нужно указать ссылку на товар, ссылки на страницы категорий соответствующего уровня.

Product link – ссылка на товар. Используется для тестирования параметров, которые настраиваются в Настройки – Attributes.

Редактирование категорий

edit_cat

Cat level 1 link, Cat level 2 link, … – ссылка на страницу, где находятся категории первого, второго, … и т.д. соответственно уровней. Используется для тестирования настроек извлечения структуры каталога путем нажатия на кнопку

Парсинг товаров невозможен без ссылок (адресов) на категории, в которых эти товары находятся, поэтому необходимо построить структуру каталога. Построить структуру каталога можно руками, если количество категорий не большое и структура простая, или в автоматическом режиме.

Информация о структуре каталога, название категорий и ссылки на категории на сайте-источнике находятся в файле *.GrabCatalog. Чтобы создать *.GrabCatalog вручную, нужно знать его структуру.

Для примера рассмотрим следующую строку:

##Android Tablets / Phones[path]http://www.chinavasion.com/android/@@1001, где

## - это означает что данная категория второго уровня вложенности, далее идет имя категории «Android Tablets / Phones», которое будет использовано во время экспорта результатов работы парсера, далее через [path] указан адрес категории, откуда и будет парситься товар. Заканчивается запись через @@ уникальным номером, id категории, в файле *.GrabCatalog они не должны повторяться.

Фрагмент *.GrabCatalog файла:

#Mobile Phones[path]http://www.chinavasion.com/index.php/cName/mobile-phones/@@1002

##Classic / Fold Cell Phones[path]http://www.chinavasion.com/index.php/cName/mobile-phones-classic-fold-cell-phones/@@1019

##Slide / Twist Cell Phones[path]http://www.chinavasion.com/index.php/cName/mobile-phones-slide-twist-cell-phones/@@1020

##Smartphones[path]http://www.chinavasion.com/index.php/cName/mobile-phones-pda-touchscreen-cell-phones/@@1021

##Cell Phone Watch[path]http://www.chinavasion.com/index.php/cName/mobile-phones-cell-phone-watch/@@1022

Для построения структуры каталога в автоматическом режиме необходимо выполнить соответствующие настройки в Настройки – Links:

 

Links:

Use categorirs via attributes rules (SYS_CATALOG_NAME, SYS_CATALOG_HREF) – использовать для извлечения структуры каталога (имя категории и ссылка на категорию) настройки не из параметров Cat level 1, Cat level 2, … т.д., а настройки из параметров SYS_CATALOG_NAME, SYS_CATALOG_HREF в Настройки – Attributes.

Для категории первого уровня параметры будут следующие:

SYS_CATALOG_NAME1 – имя категории первого уровня,

SYS_CATALOG_HREF1 – ссылка на категорию первого уровня.

Для второго SYS_CATALOG_NAME2 и SYS_CATALOG_HREF2 и т.д.

Данные настройки помогают извлекать структура каталога в «чистом» виде, без всего лишнего, а так же возможно парсить структруру, которая подгружается скриптами.

 

Cat level 1 – настройки для извлечения категорий первого уровня вложенности.

Cat level 2, … т.д. аналогично Cat level 1.

 

Пример:

Результат с использование Cat level 1:

#<b>НОВИНКИ</b>[path]http://www.verybest.ru/catalogue/group1/

Результат с использование SYS_CATALOG_NAME1 и SYS_CATALOG_HREF1:

#НОВИНКИ[path]http://www.verybest.ru/catalogue/group1/

Download bottom categories only – установленная галочка означает, что товары будут скачиваться только из категории самого нижнего уровня. Такой прием во многих случаях помогает избежать дублирования товаров, которые кроме своей категории находятся еще и в родительских категориях (высшего уровня).

 

 

Пагинация:

 

edit_pagination

Template – шаблон изменения ссылки при переходе на вторую страницу товаров внутри одной категории.

ProductsOnPage (step) – шаг изменения {0} в шаблоне Template.

PaginationStartIndex – индекс, начиная с которого будет изменяться {0} в шаблоне Template.

Настройки для извлечения категорий, как и для других параметров, производятся на языке XPath.

Пример:

CLF_023

 

 

получаем ссылки на страницы товаров в данной категории:

http://www.verybest.ru/catalogue/pierre_cardin_aksessuaryi_dlya_muzhchin/zazhigalki_%22pierre_cardin%22/zazhigalki_gazovyie_pezo/

http://www.verybest.ru/catalogue/pierre_cardin_aksessuaryi_dlya_muzhchin/zazhigalki_%22pierre_cardin%22/zazhigalki_gazovyie_pezo/page2/

http://www.verybest.ru/catalogue/pierre_cardin_aksessuaryi_dlya_muzhchin/zazhigalki_%22pierre_cardin%22/zazhigalki_gazovyie_pezo/page3/

и т.д.

Ссылка на товары изменяется добавлением page и порядкового номера, шаблон для данного случая будет такой:

page{0}/,

где {0} – часть, которую мы будем изменять с шагом ProductsOnPage (step), начиная от PaginationStartIndex.

Если ссылка на следующую страницу имеет более сложную структуру, которую описать шаблоном проблематично или не возможно, используется параметр SYS_PAGINATION_NEXT_LINK. Для этого нужно установить галочку на SYS_PAGINATION_NEXT_LINK и настроить этот параметр в Настройки – Attributes.

Тестовую проверку правильности настроек перед запуском парсера можно провести в разделе

Test links с помощью кнопки “S” .

 

Настройка параметров товара

Настройка и создание параметров товара производится в Настройки – Attributes:

edit_fields

Всю область во вкладке Attributes можно условно разделить на два поля: имена параметров и настройки для этих параметров.

 

Имена параметров

При создании нового проекта автоматически создаются следующие параметры:

SYS_CATALOG_NAME1 – имя категории 1-го уровня

SYS_CATALOG_HREF1 – ссылка на категорию 1-го уровня

SYS_PRODUCT_LINK – ссылка на товар в категории

SYS_PRODUCT_NAME – имя товара

SYS_PRODUCT_SKU – ID (артикул) товара

SYS_PRODUCT_ART – артикул товара

SYS_PRODUCT_IMAGE – имя изображения товара

SYS_PRODUCT_IMAGE_FULL – ссылка на изображение товара

SYS_PRODUCT_PRICE – цена товара

SYS_PRODUCT_DESC – полное описание товара

SYS_PAGINATION_NEXT_LINK – ссылка на следующую страницу товаров в категории

Новые параметры добавляются и помощью кнопки "Add +".

Стандартные параметры, которые можно добавить руками при их необходимости:

SYS_PRODUCT_MANUFACTURER – производитель товара;

SYS_PRODUCT_DESC_SMALL – краткое описание товара;

SYS_META_TITLE – мета-заголовок товара;

SYS_META_DESCR – мета-описание товара;

SYS_META_KEYWORDS – мета-ключевые слова товара;

SYS_PRODUCT_QUANTITY – количество товара;

SYS_PRODUCT_CURRENCY – валюта товара (RUB, USD);

SYS_PRODUCT_URLREWRITE – дружественный url товара (используется для PrestaShop старых версий);

 

Дополнительные изображения:

SYS_PRODUCT_IMAGE2 – имя 1-го дополнительного изображения,

SYS_PRODUCT_IMAGE_FULL2 – ссылка на 1-ое дополнительное изображение,

SYS_PRODUCT_IMAGE3 – имя 2-го дополнительного изображения,

SYS_PRODUCT_IMAGE_FULL3 – ссылка на 2-ое дополнительное изображение,

и т.д. для изображений.

Настройки извлечения полей

edit_field_rule

Настройка параметров производится в правом поле (см. Рисунок 78) для каждого параметра соответственно.

Метод - xpath или регулярное выражение

XPath – XPath (Икс пас) для соответствующего параметра.

Атрибут(опц) – дополнительно можно указать атрибут для XPath. Для ссылки <a> это может быть href, title, alt и т.п., для <img> это src и т.д.

Последнне слово– стоп-слово (выражение), достигнув которого извлечение данных будет остановлено.

Замена– поле, которое позволять делать замену, удаление как отдельных символов, слов, так и выражений. Шаблон: word1[--->]word2 – слово word1 будет заменено на word2. Следующее правило добавляется через [next]: word1[--->]word2[next]word3[--->]word4[next]. Если нужно удалить что, то после [--->] ничего не пишем: word1[--->][next] – слово word1 будет удалено.

Ограничить длину текста до– количество символов, которые будут взяты в данном параметре. 0 – данная опция выкл.

Очистить пустые символы справа и слева– удаляет пробелы сначала и конца строки.

Получить из HTML чистый текст– удаляет все html-теги.

Шаблон – шаблон, с помощью которого можно добавлять к данному параметру другие данные (другие параметры, произвольный текст).

Пример шаблона: {0} word2, где {0} – это текущий параметр, word2 – произвольный текст.

Пример добавления значения второго параметра:

{0} [[[ SYS_PRODUCT_NAME]]], где [[[ SYS_PRODUCT_NAME]]] – значение другого параметра, в данном случае это имя товара.

Удалить тэги – удаление указанных тегов html. Если указать в данном поле a, то в данном параметре будут удалены все ссылки вместе с содержимым тега a. Несколько тегов указывается через [next]: a[next]img[next]span и т.п.

Фильтр - не можут быть пустым– опция, при включении которой не будут скачиваться товары, у которых настраиваемый параметр пустой. Если данную опцию включить для картинок, то товары у которых нету их не будут скачаны.

Convert to lat – преобразовать значение параметра в латиницу – русский текст будет переведен в аналогичный на латинице. Используется для изменения имен картинок, если имя картинки нужно дать как имя товара, для создания ЧПУ и др. ссылок в зависимости от cms, куда будет импортирован товар.

Get file name from path – используется для получения имени картинки из ссылки на эту картинку. Часть ссылки будет удалена и останется только имя изображения.

Contains (low) – опция, которая позволяет фильтровать скачиваемые данные на сходство с данными, указанными в Contains (low).

Используется для скачивания определенных товаров, например артикулы которых известны: в Contains (low) перечисляются все артикулы, и для параметра артикула (SYS_PRODUCT_ART) включается данная опция, в результате из источника будут скачаны только те товары, артикулы которых указаны в Contains (low).

Так же возможно в Contains (low) указать имя файла, котором перечислены артикулы(или что то др.): file:downloadproductart.txt, каждое значение в файле пишется с новой строки:

Doesn’t eq (low) – опция, работающая противоположным образом Contains (low) – указываем то, что не нужно скачивать.

Тестирование настроек

Результаты работы можно посмотреть в нижнем поле парсера:

CLF_031

где указаны названия параметров и их значения согласно текущим настройкам.
Обновить результаты после изменения настроек можно нажатием на кнопку "Обновить" или F5.

Дополнительные шаблоны экспорта

Кроме стандартных шаблонов экспорта в различные cms в парсере есть возможность создавать специальные шаблоны для проекта. Добавить свой специальный шаблон можно в Настройки – Miscellaneous – Custom template enable. Установив галочку на Custom template enable подсветится область ниже, где можно составить свой шаблон экспорта.

Запись для добавления шаблона состоит из трех строк:

- первая строка – это название шаблона,

- вторая строка – это заглавия столбцов файла,

- третья строка – это значения, которые будут записаны в соответствующие столбцы.

edit_templates

Скачивание и выгрузка товаров

После всех настроек и их тестирования переходим к скачиванию товаров в полном объеме.

Чтобы скачать товары нажимаем на кнопку Запустить парсер. После нажатия кнопки появится диалоговое окно, где нужно выбрать категории для скачивания:

 

Выбрав нужные категории, запускаем парсер нажатием на кнопку Запустить.

Начнется скачивание товаров.

После завершения скачивания товаров будет выведено сообщение, что все завершено:

parser_run

parser_user_settings

parser_categories_selected_by_user

После того, как все завершено, закрываем это окно, и возвращаемся к основному меню программы.

Следующий шаг – экспорт товаров в нужный формат (нужную cms). Для того нажимаем Открыть экспорт:

 

export_main

export_csv

В диалоговом окне выбираем файл, который сформировался в результате парсинга, его имя состоит из имена проекта и даты начала парсинга: market.yandex.ru_20110930_0936.clp например, находятся такие файлы в "c:\Program Files\catalogloader.com\Парсер Catalogloader\ExportFiles\0\..", если программа устанавливалась в директория по умолчанию. Выбираем нужный файл, нажимаем Открыть, и будет предложено создать экспорт:

Здесь выбираем какие категории экспортировать, в какой формат сделать экспорт и количество строк в файле (актуально для сайтов, где невозможно загрузить большие файлы из-за ограничений на хостинге), нажимаем Запустить. После завершения генерации файла будет выведено соответствующее сообщение, что Операция завершена.

Сгенерированные файлы помещаются в "c:\Program Files\catalogloader.com\Парсер Catalogloader\ExportFiles\0" и имеют расширение *.csv.

Скачивание изображений

Для скачивания изображений возвращаемся в основное меню программы: и выбираем "Картинки" на CLP файле, после чего откроется диалоговое окно:

image_download

Файл – нужно выбрать файл со ссылками на изображения, данный файл находится в " c:\Program Files\catalogloader.com\Парсер catalogloader.com\ExportFiles\0\.."), его имя заканчивается на … _images.csv.

Шаблон имени иконки – шаблон имени изображений другого размера.

Например по шаблону {0}_small из картинки img1.jpg будет создана картинка другого размера с именем img1_small.jpg и т.д. Если не нужно менять имя – поле оставляем пустым.

Ширина, Высота – ширина и высота новых изображений соответственно.

Фиксировать ширину иконки, – Фиксировать размер новых изображений по ширине или высоте соответственно.

Настраиваем изменение размеров картинок (если требуется) и запускаем скачивание нажатием на OK.

Скачиваемые картинки помещаются в директорию в"c:\Program Files\catalogloader.com\ Парсер Catalogloader\ImageStore".

Для изображений, размер которых изменяется, будет создана новая директория с соответствующим именем в директории ImageStore.

Полезные программы для работы с парсерами

Редактор текста Notepad++   http://notepad-plus-plus.org/

CSV редактор бесплатный http://www.openoffice.org/

Редактор базы данных http://www.navicat.com/

Редактор регулярных выражений “Free Regular Expression Designer” http://www.radsoftware.com.au/regexdesigner/