Парсер "V4.IDE". Документация.
Эта версия документации для V4.IDE неактуальна.
Актуальная версия здесь:
https://catalogloader.com/documentation/primer-nastrojki-parsera-v4-ide-na-primere-sajta-catalogloader-com
+Введение
+Термины и определения
+Возможности программы
+Установка и запуск программы
+Создание проекта, редактирование уже существующего
+Редактор: настройка парсера
+Первоначальные настройки
+Данные для тестирования настроек
+Настройка парсинга (копирования) структуры каталога (категорий) сайта-источника
+Настройка параметров товара
+Имена параметров
+Настройки параметров
+Тестирование настроек
+Дополнительные шаблоны экспорта
+Скачивание и выгрузка товаров
+Скачивание изображений
+Полезные программы для работы с парсерами>
Введение
"Среда разработки парсеров CatalogLoader" – это программное обеспечение для решения задач связанных с извлечением и анализом данных из сайтов. Среда разработки представляет собой модуль к парсеру V4. CatalogLoader V4, являясь универсальным парсером данных, специализируется для решения задач связанных с извлечения данных из интернет – магазинов, что достигается за счет тесной интеграции программы с популярными СMS для Интернет-торговли такими как 1С-Битрикс, OpenCart, Prestashop Virtuemart, Vamshop, Amiro, NetCat, Magento и другими. ПО представляет собой программу для Windows.
Термины и определения
Основные термины, используемые при работе с программой, описаны в настоящем разделе и используются по тексту данного руководства. Разработчики программы, а так служба поддержки сервис центр используют именно эти термины во время общения с заказчиками, что позволяет сократить время на понимание сути задач и перейти непосредственно к обсуждению деталей процессов.
Сайт источник – сайт в интернете, из которого извлекаются данные.
Парсер – Программа CatalogLoader, предназначенная для извлечения данных
CMS \ Движок сайта \ Админка – информационная система или компьютерная программа, используемая для обеспечения и организации совместного процесса создания, редактирования и управления контентом. Популярные системы общего назначения: Joomla WordPress, для интернет-торговли Virtue mart, Ecommerce, Prestashop, Magento, X-Cart, NetCat.
Атрибут \ Параметр \ Свойство товара \ Характеристика – это то что отличает один товар от другого, классический атрибутов в интернет магазине по отношению к товару является имя товара, или его цена, цвет и стоимость. Если речь идет о статьях, то характеристиками обычно являются Текст статьи, автор, время публикации и название.
SKU \ Артикул \Product ID \ ID Товара – Это параметр \ атрибут, который является уникальным для всего набора товаров в конкретном интернет магазине. По SKU\ Артикул \Product ID можно точно найти товар в определенном магазине. Когда речь идет о переносе товаров из одной системы в другую, то употребляются выражения “внутренний Артикул” и “внешний Артикул”.
CSV файл \ CSV формат – текстовый формат данных, используется для импорта \ экспорта данных в CMS системы. Для работы с файлами этого формата можно использовать Блокнот (он установлен на всех Windows системах) и увидеть содержимое файла. Также такие программы как Excel и Open Office используются для работы с CSV файлами. Особенностью формата способность представления табличных данных в текстовом виде, в качестве разделителей колонок данных используется специальных разделитель, обычно это запятая, точка с запятой, знак табуляции или любой другой символ или их комбинация.
GrabCatalog – это название формата файла используемого программой CatalogLoader для описания и хранения информации о структуре каталога сайта источника. Файл формата .GrabCatalog является текстовым файлом и его можно открыть в программе «Блокнот».
GrabSettings – это название формата файла используемого программой CatalogLoader для описания правил извлечения данных из сайта источника. Файл формата . GrabSettings является текстовым файлом и его можно открыть в программе «Блокнот», но ввиду сложности восприятия информации расположенной в этом файле рекомендуется использовать редактор настроек проекта CatalogLoader.
Кэш \ Cache – промежуточный буфер с быстрым доступом, содержащий информацию, которая может быть запрошена с наибольшей вероятностью. Доступ к данным в кэше идёт быстрее, чем выборка исходных данных за счёт чего уменьшается среднее время доступа и увеличивается общая производительность компьютерной системы. Прямой доступ к данным, хранящимся в кэше, программным путем невозможен. Программа CatalogLoader обладает функциями поддержки работы с КЭШем и сохраняет его в папке \Cache\Имя проекта. Если требуется извлечь свежие данные то пользователю следуют очистить папку \Cache\Имя проекта.
Экспорт – Операция по формированию экспортных файлов в требуемую CMS. В программе CatalogLoader выделают два основных типа экспортных файлов: 1) экспортный файл с описаниями товаров и их положения в категориях CMS, 2) экспортный файл для копирования файлов с изображениями. Следует знать, что некоторые CMS требуют экспортные файлы с описанием каталога.
Pagination \ Пагинация – Способ представления длинных списков однородной информации путем разбиения ее на небольшие блоки обычно одинаковой длинны (10, 15, 20 штук на страницу). Пагинация используется в Интернет - магазинов при отображении товаров принадлежащих к определенной категории.
Стандартные атрибуты программы – набор атрибутов, которые создаются автоматически при создании нового проекта в программе CatalogLoader. Для проектов типа «интернет-магазинов» такими атрибутами являются: 1) Название товара, 2) Описание товара, 3) Краткое описание 4) Стоимость 5) Изображение товара.
Визуальная настройка – способ указания части данных, которые будут являться источником для формирования значения атрибута. Особенностью является возможность указания источника с помощью кликов мышкой по частям данных в браузере.
XPath (Икс пас) – способ указания части данных, которые будут являться источником для формирования значения атрибута. XML Path Language — язык запросов к элементам XML-документа. Разработан для организации доступа к частям документа XML в файлах трансформации XSLT и является стандартом консорциума W3C. XPath призван реализовать навигацию по DOM в XML. В XPath используется компактный синтаксис, отличный от принятого в XML.
Regular expression (регулярное выражение) – это формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (символов-джокеров, англ. wildcard characters). По сути это строка-образец (англ. pattern, по-русски её часто называют «шаблоном», «маской»), состоящая из символов и метасимволов и задающая правило поиска.
Структура сайта источника – порядок, вложенность категорий сайта.
Возможности программы
- Автоматическое построение категорий с иерархией сайта источника.
- Возможно менять иерархию категорий. Изменение структуры сайта источника – возможность точечного изменения структуры, которая будет переноситься на сайт-приемник.
- Извлечение данных из HTML.
- Извлечение изображений – извлечение полной ссылки на изображение, извлечение название файла, скачивание файла с изображением.
- Переименовывание изображений.
- Изменение артикула на случайный или требуемый.
- Работа с AJAX данными.
- Экспорт данных в CSV \ Excel \ XML \ YML популярных CMS.
- Экспорт данных напрямую в базу данных с автоматической загрузкой изображений.
Установка и запуск программы
Загружаем на компьютер, а затем запустить установочный файл Setup_CatalogLoader.exe. В конце установки будет предложено запустить программу.
Установщик создаст ярлыки на рабочем столе и в главном меню, которыми можно будет пользоваться для запуска программы.
Создание проекта, редактирование уже существующего
Для начала работы непосредственно с проектом, нужно его создать или открыть уже существующий.
Для создания нового проекта выбираем меню Файл –> Создать Парсер. В появившемся "Среде разработки парсеров" выбираем Парсер -> Создать.
после чего в появившемся окне указываем имя проекта, как правило, это имя сайта-источника:
Для редактирования уже имеющегося проекта выбираем в меню Файл – Открыть проект.
Все проекты хранятся в директории Projects, которая находится в корне директории куда установлен парсер.
Настройка парсера
Все настройки парсера выполняются в среде для создания парсеров.
Если вы создали проект, то после его создания или после открытия его на редактирование открывается редактор настроек.
Первоначальные настройки
К первоначальным настройкам относятся настройки
- Домен сайта источника.
- Ссылка на начало каталога источника.
- Кодировка сайта источника.
- Пользовательские параметры.
- Максимальное число продуктов в одной категории.
- Параметр "Скачивать продукты только из нижних категорий".
Данные для тестирования настроек
Для тестирования настаиваемых параметров в редакторе парсера нужно указать ссылку на товар, ссылки на страницы категорий соответствующего уровня.
Product link – ссылка на товар. Используется для тестирования параметров, которые настраиваются в Настройки – Attributes.
Редактирование категорий
Cat level 1 link, Cat level 2 link, … – ссылка на страницу, где находятся категории первого, второго, … и т.д. соответственно уровней. Используется для тестирования настроек извлечения структуры каталога путем нажатия на кнопку
Парсинг товаров невозможен без ссылок (адресов) на категории, в которых эти товары находятся, поэтому необходимо построить структуру каталога. Построить структуру каталога можно руками, если количество категорий не большое и структура простая, или в автоматическом режиме.
Информация о структуре каталога, название категорий и ссылки на категории на сайте-источнике находятся в файле *.GrabCatalog. Чтобы создать *.GrabCatalog вручную, нужно знать его структуру.
Для примера рассмотрим следующую строку:
##Android Tablets / Phones[path]http://www.chinavasion.com/android/@@1001, где
## - это означает что данная категория второго уровня вложенности, далее идет имя категории «Android Tablets / Phones», которое будет использовано во время экспорта результатов работы парсера, далее через [path] указан адрес категории, откуда и будет парситься товар. Заканчивается запись через @@ уникальным номером, id категории, в файле *.GrabCatalog они не должны повторяться.
Фрагмент *.GrabCatalog файла:
#Mobile Phones[path]http://www.chinavasion.com/index.php/cName/mobile-phones/@@1002
##Classic / Fold Cell Phones[path]http://www.chinavasion.com/index.php/cName/mobile-phones-classic-fold-cell-phones/@@1019
##Slide / Twist Cell Phones[path]http://www.chinavasion.com/index.php/cName/mobile-phones-slide-twist-cell-phones/@@1020
##Smartphones[path]http://www.chinavasion.com/index.php/cName/mobile-phones-pda-touchscreen-cell-phones/@@1021
##Cell Phone Watch[path]http://www.chinavasion.com/index.php/cName/mobile-phones-cell-phone-watch/@@1022
Для построения структуры каталога в автоматическом режиме необходимо выполнить соответствующие настройки в Настройки – Links:
Links:
Use categorirs via attributes rules (SYS_CATALOG_NAME, SYS_CATALOG_HREF) – использовать для извлечения структуры каталога (имя категории и ссылка на категорию) настройки не из параметров Cat level 1, Cat level 2, … т.д., а настройки из параметров SYS_CATALOG_NAME, SYS_CATALOG_HREF в Настройки – Attributes.
Для категории первого уровня параметры будут следующие:
SYS_CATALOG_NAME1 – имя категории первого уровня,
SYS_CATALOG_HREF1 – ссылка на категорию первого уровня.
Для второго SYS_CATALOG_NAME2 и SYS_CATALOG_HREF2 и т.д.
Данные настройки помогают извлекать структура каталога в «чистом» виде, без всего лишнего, а так же возможно парсить структруру, которая подгружается скриптами.
Cat level 1 – настройки для извлечения категорий первого уровня вложенности.
Cat level 2, … т.д. аналогично Cat level 1.
Пример:
Результат с использование Cat level 1:
#<b>НОВИНКИ</b>[path]http://www.verybest.ru/catalogue/group1/
Результат с использование SYS_CATALOG_NAME1 и SYS_CATALOG_HREF1:
#НОВИНКИ[path]http://www.verybest.ru/catalogue/group1/
Download bottom categories only – установленная галочка означает, что товары будут скачиваться только из категории самого нижнего уровня. Такой прием во многих случаях помогает избежать дублирования товаров, которые кроме своей категории находятся еще и в родительских категориях (высшего уровня).
Пагинация:
Template – шаблон изменения ссылки при переходе на вторую страницу товаров внутри одной категории.
ProductsOnPage (step) – шаг изменения {0} в шаблоне Template.
PaginationStartIndex – индекс, начиная с которого будет изменяться {0} в шаблоне Template.
Настройки для извлечения категорий, как и для других параметров, производятся на языке XPath.
Пример:
получаем ссылки на страницы товаров в данной категории:
и т.д.
Ссылка на товары изменяется добавлением page и порядкового номера, шаблон для данного случая будет такой:
page{0}/,
где {0} – часть, которую мы будем изменять с шагом ProductsOnPage (step), начиная от PaginationStartIndex.
Если ссылка на следующую страницу имеет более сложную структуру, которую описать шаблоном проблематично или не возможно, используется параметр SYS_PAGINATION_NEXT_LINK. Для этого нужно установить галочку на SYS_PAGINATION_NEXT_LINK и настроить этот параметр в Настройки – Attributes.
Тестовую проверку правильности настроек перед запуском парсера можно провести в разделе
Test links с помощью кнопки “S” .
Настройка параметров товара
Настройка и создание параметров товара производится в Настройки – Attributes:
Всю область во вкладке Attributes можно условно разделить на два поля: имена параметров и настройки для этих параметров.
Имена параметров
При создании нового проекта автоматически создаются следующие параметры:
SYS_CATALOG_NAME1 – имя категории 1-го уровня
SYS_CATALOG_HREF1 – ссылка на категорию 1-го уровня
SYS_PRODUCT_LINK – ссылка на товар в категории
SYS_PRODUCT_NAME – имя товара
SYS_PRODUCT_SKU – ID (артикул) товара
SYS_PRODUCT_ART – артикул товара
SYS_PRODUCT_IMAGE – имя изображения товара
SYS_PRODUCT_IMAGE_FULL – ссылка на изображение товара
SYS_PRODUCT_PRICE – цена товара
SYS_PRODUCT_DESC – полное описание товара
SYS_PAGINATION_NEXT_LINK – ссылка на следующую страницу товаров в категории
Новые параметры добавляются и помощью кнопки "Add +".
Стандартные параметры, которые можно добавить руками при их необходимости:
SYS_PRODUCT_MANUFACTURER – производитель товара;
SYS_PRODUCT_DESC_SMALL – краткое описание товара;
SYS_META_TITLE – мета-заголовок товара;
SYS_META_DESCR – мета-описание товара;
SYS_META_KEYWORDS – мета-ключевые слова товара;
SYS_PRODUCT_QUANTITY – количество товара;
SYS_PRODUCT_CURRENCY – валюта товара (RUB, USD);
SYS_PRODUCT_URLREWRITE – дружественный url товара (используется для PrestaShop старых версий);
Дополнительные изображения:
SYS_PRODUCT_IMAGE2 – имя 1-го дополнительного изображения,
SYS_PRODUCT_IMAGE_FULL2 – ссылка на 1-ое дополнительное изображение,
SYS_PRODUCT_IMAGE3 – имя 2-го дополнительного изображения,
SYS_PRODUCT_IMAGE_FULL3 – ссылка на 2-ое дополнительное изображение,
и т.д. для изображений.
Настройки извлечения полей
Настройка параметров производится в правом поле (см. Рисунок 7‑8) для каждого параметра соответственно.
Метод - xpath или регулярное выражение
XPath – XPath (Икс пас) для соответствующего параметра.
Атрибут(опц) – дополнительно можно указать атрибут для XPath. Для ссылки <a> это может быть href, title, alt и т.п., для <img> это src и т.д.
Последнне слово– стоп-слово (выражение), достигнув которого извлечение данных будет остановлено.
Замена– поле, которое позволять делать замену, удаление как отдельных символов, слов, так и выражений. Шаблон: word1[--->]word2 – слово word1 будет заменено на word2. Следующее правило добавляется через [next]: word1[--->]word2[next]word3[--->]word4[next]. Если нужно удалить что, то после [--->] ничего не пишем: word1[--->][next] – слово word1 будет удалено.
Ограничить длину текста до– количество символов, которые будут взяты в данном параметре. 0 – данная опция выкл.
Очистить пустые символы справа и слева– удаляет пробелы сначала и конца строки.
Получить из HTML чистый текст– удаляет все html-теги.
Шаблон – шаблон, с помощью которого можно добавлять к данному параметру другие данные (другие параметры, произвольный текст).
Пример шаблона: {0} word2, где {0} – это текущий параметр, word2 – произвольный текст.
Пример добавления значения второго параметра:
{0} [[[ SYS_PRODUCT_NAME]]], где [[[ SYS_PRODUCT_NAME]]] – значение другого параметра, в данном случае это имя товара.
Удалить тэги – удаление указанных тегов html. Если указать в данном поле a, то в данном параметре будут удалены все ссылки вместе с содержимым тега a. Несколько тегов указывается через [next]: a[next]img[next]span и т.п.
Фильтр - не можут быть пустым– опция, при включении которой не будут скачиваться товары, у которых настраиваемый параметр пустой. Если данную опцию включить для картинок, то товары у которых нету их не будут скачаны.
Convert to lat – преобразовать значение параметра в латиницу – русский текст будет переведен в аналогичный на латинице. Используется для изменения имен картинок, если имя картинки нужно дать как имя товара, для создания ЧПУ и др. ссылок в зависимости от cms, куда будет импортирован товар.
Get file name from path – используется для получения имени картинки из ссылки на эту картинку. Часть ссылки будет удалена и останется только имя изображения.
Contains (low) – опция, которая позволяет фильтровать скачиваемые данные на сходство с данными, указанными в Contains (low).
Используется для скачивания определенных товаров, например артикулы которых известны: в Contains (low) перечисляются все артикулы, и для параметра артикула (SYS_PRODUCT_ART) включается данная опция, в результате из источника будут скачаны только те товары, артикулы которых указаны в Contains (low).
Так же возможно в Contains (low) указать имя файла, котором перечислены артикулы(или что то др.): file:downloadproductart.txt, каждое значение в файле пишется с новой строки:
Doesn’t eq (low) – опция, работающая противоположным образом Contains (low) – указываем то, что не нужно скачивать.
Тестирование настроек
Результаты работы можно посмотреть в нижнем поле парсера:
где указаны названия параметров и их значения согласно текущим настройкам.
Обновить результаты после изменения настроек можно нажатием на кнопку "Обновить" или F5.
Дополнительные шаблоны экспорта
Кроме стандартных шаблонов экспорта в различные cms в парсере есть возможность создавать специальные шаблоны для проекта. Добавить свой специальный шаблон можно в Настройки – Miscellaneous – Custom template enable. Установив галочку на Custom template enable подсветится область ниже, где можно составить свой шаблон экспорта.
Запись для добавления шаблона состоит из трех строк:
- первая строка – это название шаблона,
- вторая строка – это заглавия столбцов файла,
- третья строка – это значения, которые будут записаны в соответствующие столбцы.
Скачивание и выгрузка товаров
После всех настроек и их тестирования переходим к скачиванию товаров в полном объеме.
Чтобы скачать товары нажимаем на кнопку Запустить парсер. После нажатия кнопки появится диалоговое окно, где нужно выбрать категории для скачивания:
Выбрав нужные категории, запускаем парсер нажатием на кнопку Запустить.
Начнется скачивание товаров.
После завершения скачивания товаров будет выведено сообщение, что все завершено:
После того, как все завершено, закрываем это окно, и возвращаемся к основному меню программы.
Следующий шаг – экспорт товаров в нужный формат (нужную cms). Для того нажимаем Открыть экспорт:
В диалоговом окне выбираем файл, который сформировался в результате парсинга, его имя состоит из имена проекта и даты начала парсинга: market.yandex.ru_20110930_0936.clp например, находятся такие файлы в "c:\Program Files\catalogloader.com\Парсер Catalogloader\ExportFiles\0\..", если программа устанавливалась в директория по умолчанию. Выбираем нужный файл, нажимаем Открыть, и будет предложено создать экспорт:
Здесь выбираем какие категории экспортировать, в какой формат сделать экспорт и количество строк в файле (актуально для сайтов, где невозможно загрузить большие файлы из-за ограничений на хостинге), нажимаем Запустить. После завершения генерации файла будет выведено соответствующее сообщение, что Операция завершена.
Сгенерированные файлы помещаются в "c:\Program Files\catalogloader.com\Парсер Catalogloader\ExportFiles\0" и имеют расширение *.csv.
Скачивание изображений
Для скачивания изображений возвращаемся в основное меню программы: и выбираем "Картинки" на CLP файле, после чего откроется диалоговое окно:
Файл – нужно выбрать файл со ссылками на изображения, данный файл находится в " c:\Program Files\catalogloader.com\Парсер catalogloader.com\ExportFiles\0\.."), его имя заканчивается на … _images.csv.
Шаблон имени иконки – шаблон имени изображений другого размера.
Например по шаблону {0}_small из картинки img1.jpg будет создана картинка другого размера с именем img1_small.jpg и т.д. Если не нужно менять имя – поле оставляем пустым.
Ширина, Высота – ширина и высота новых изображений соответственно.
Фиксировать ширину иконки, – Фиксировать размер новых изображений по ширине или высоте соответственно.
Настраиваем изменение размеров картинок (если требуется) и запускаем скачивание нажатием на OK.
Скачиваемые картинки помещаются в директорию в"c:\Program Files\catalogloader.com\ Парсер Catalogloader\ImageStore".
Для изображений, размер которых изменяется, будет создана новая директория с соответствующим именем в директории ImageStore.
Полезные программы для работы с парсерами
Редактор текста Notepad++ http://notepad-plus-plus.org/
CSV редактор бесплатный http://www.openoffice.org/
Редактор базы данных http://www.navicat.com/
Редактор регулярных выражений “Free Regular Expression Designer” http://www.radsoftware.com.au/regexdesigner/