Парсер PHP

Парсер PHP - это программа, которая на писана на языке программирования PHP. Парсер PHP обычно извлекает данные из какого-то сайта. Этот сайт называют источником парсинга. Почему PHP приемлем для парсинга? Причин несколько.

Первая на мой взгляд - это популярность PHP. Очень много программистов умеют программировать на нем. Особенно в вебе и рунете их очень много. PHP достаточно простой.

Вторая причина заключается в том, что те кому нужен парсер PHP они в первую очередь будут запускать его на сервере. А на серверах обычно стоит PHP. Конечно это не всегда так , но в реальности мои слова правдивы где-то на 90%. Безусловно в каждом правиле есть исключения.

Кажется языков программирования много, а программируют парсеры на PHP. Ввиду того что сегодня PHP является де факто стандартом для веба, то и программируют на том, что сегодня популярно и дешево. парсеры обычно пишут новички. Вещь достаточно простая и они готовы взяться за дело. И самое главное и денег не попросят. Поэтому парсер PHP очень привлекательная стратегия для заказчиков.

Однако есть минусы. Первый минус.

Скорость.

Парсер PHP или python Парсер

Я общался с одним заказчиком. Который с огромной уверенностью мне рассказывал , что парсер на Python работает в разы лучше чем парсер на PHP. Я был так поражен, что даже решил проверить правда ли это. Заказчик утверждал, что питон работает как-то очень правильно с операционной системой и парсит так круто, что делает это чуть ли не в 10 раз чем на PHP. Однако я сделал свои тесты производительности и действительно парсер на Питон работал лучше чем парсер на PHP, но не на столько чтобы уж совсем заявлять о супер превосходстве. Следует признать, что действительно парсеры и на питоне и на PHP они медленный если их сравнивать с парсерами на C++, asm или C#, Java. Почему? Да просто это сама природа этих языков программирования такая. Они интерпретируемые и им никогда не угнаться за тем же С++.

 

Память.

Память - это вторая проблема парсера на PHP.  Конечно многие меня могут упрекнуть, что это не так и, возможно, будут правы. Но я должен сказать что в реальности люди устанавливают парсеры PHP на обычный дешевый хостинг. Кстати дешевый я имею любой shared хостинг и за 1 доллар и за 15 долларов в месяц. И получается, что на таких хостингах парсеры не могут себя проявить на всю мощь. Для PHP там ограничены ресурсы. Например максимальная память процесса может быть не больше 64 мб. Это не проблема когда у вас выделенный сервер или виртуалка или вы запускаете на своем компьютере. Однако если это уже так, то вся прелесть в использовании PHP исчезает. И тогда не очень понятно зачем вы делали разработку парсера PHP. Можно было бы использовать любой другой язык программирования.

 

Внешний вид.

Парсер PHP - пример интерефейса популярного парсера

Позиция спорная. Впринципе как и в целом для рынка парсеров. Но внешний вид парсеров тех что есть на рынке далек от совершенства. Или супер минимализм. Или вообще не понятная штуковина с сотней раных кнопочек и стрелочек и текстовых полей, которые чем-то надо заполнить. Вещь неоднозначная и на мой взгляд получить какой-то средний хороший результат, который будет подходить для всех - это не очень просто. Учитывая то, что парсеры разрабатываются за маленькие деньги и для решения каких-то очень маленьких средних локальных задач для единоразового получения файла, то не стоит ожидать больших изменений в этой области в ближайшем будущем.

Итого получается, что парсеры на php были есть и будут. Всегда найдутся люди, которым будут нужны парсеры на php и которые смогут их сделать за 30-50 долларов. Качество соответственно тоже.

 

Сроки

Парсер PHP - программист не справился с созданием парсера в срок

Парсер PHP - программист не справился с созданием парсера в срок

Если верить заявлениям исполнителей на небезызвестном сайта фриланс точка ру, то работа будет сделана за 1 день ну максимум 2. В реальности. Кстати , а какая может быть реальность?

Представьте, вам надо извлечь 10000 товаров из 400 категорий. Задача сама по себе требует просто скачать эти 10000 страниц из веба. Протестировать. Загрузить в файл спец формата.

Реальный срок - это неделя.  И представьте, человек за 30-50 долларов работает неделю, кормит вас обещаниями. Сможет ли он так должен прожить и проработать? Ну собсственно эта идея она понятно всем кто работает. Дешевая работа может оказаться просто невыполненной и разработчик посчитавший ее простой исчезнет. Конечно есть исключения. Но реальность такова, что все через это проходят.

 

Выгрузка. Формат файла.

Парсер PHP - пример выгрузки в csv файл

Парсер PHP - пример выгрузки в csv файл

Самое забавное с парсерами php, то что заказчикам нужен не сам парсер, а данные. Всем конечно хочется получить данные сразу в нужной базе данных. Но так как разработчику парсера никто доступ не дает к БД. Может боятся, а може т и правильно думают, что это выйдет дороже, то просят делать выгрузку из парсера php сразу в csv файлы ну или xml какой-нибудь.

И тут начинается веселуха. В первую очередь формат надо согласовать. Вообще-то не всякий заказчик знает какой- формат ему надо. А даже если и знает и даже и получит выгрузку в этом формате, то как воспользоваться этим файлом, который получили из парсера - это целый вопрос. Правда разработчик парсера php ответственность не несет за файл. Если только он не работает по пост оплате. Иначе у него могут быть большие проблемы. Вроде он работу всю и сделал, а вот файл не импортируется куда нужно. Поэтому обычно парсеры пишут по полной предоплате - это редко. Или по предоплате. от 30 до 70 процентов. Парсеры разные бывают.