A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc
Страницы: Пред. 1 2 3 4 5 ... 13 След.
A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc
Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!

Получение страниц сайта и проверка индексации в Google и Яндекс
Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.
Рисунок


Парсим title и description для TOP10 поисковой выдачи по ключевому слову
Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.
Рисунок


Поиск сабдоменов сайта
Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется Рисунок
HTML::LinkExtractor и Parse to level для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.
Рисунок


Кроме этого:

* Работа с SQLite из JavaScript парсеров - показаны все базовые возможности нового функционала по работе с SQLite


Еще больше различных рецептов в нашем обновленном Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.


* Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
* Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов
* Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов
* Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы
* Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта
* Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво
* Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам
* Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube
* Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность
* Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий
* Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!
* Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок
* Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query
* Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты
* Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu
* Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей
* Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК
* Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов
* Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress
* Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов
* Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

Сборники статей:
* Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы
* Сборник статей #2: цикл статей-уроков по созданию JS парсеров
Сборник статей #3: пагинация, переменные и БД SQLite

В этом сборнике статей мы рассмотрим все возможные варианты решения задачи прохода по пагинации на сайтах, очень детально изучим работу с переменными в JavaScript парсерах, а также попробуем работать с базами данных SQLite на примере парсера курсов валют. Поехали!

Обзор вариантов прохода по пагинации
В A-Parser существует несколько способов, с помощью которых можно реализовать проход по пагинации. В связи с их разнообразием, становится актуальным вопрос выбора нужного алгоритма, который позволит максимально эффективно переходить по страницам в процессе парсинга. В этой статье мы постараемся разобраться с каждым из способов максимально подробно. Также будут показаны реальные примеры и даны рекомендации по оптимизации многостраничного парсинга. Статья - по ссылке выше.
Рисунок


Переменные в парсерах JavaScript
JS парсеры в А-Парсере появились уже около года назад. Благодаря им стало возможным решать очень сложные задачи по парсингу, реализовывая практически любую логику. В этой статье мы максимально подробно изучим работу с разными типами переменных, а также узнаем, как можно оптимизировать работу сложных парсеров. Все это - в статье по ссылке выше.
Рисунок


Разработка JS парсера с сохранением результата в SQLite
Начиная с версии 1.2.152 в A-Parser появилась возможность работать с БД SQLite.
В данной статье мы рассмотрим разработку JavaScript парсера, который будет парсить курсы валют из сайта finance.i.ua и сохранять их в БД. В результате получится парсер, в котором продемонстрированы основные операции с базами данных. Подробности, а также готовый парсер - по ссылке выше.
Рисунок


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки smile:) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей
* Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы
* Сборник статей #2: цикл статей-уроков по созданию JS парсеров
1.2.185 - увеличение скорости в SE::Google::Modern, новые возможности Net:: DNS, множество улучшений [url=https://a-parser.com/threads/4471/]

Рисунок


Улучшения


[*] SE::Google::Modern [url=https://a-parser.com/wiki/se-google-modern/] - многократно увеличена скорость парсинга
[*]Множество улучшений в Net:: DNS [url=https://a-parser.com/wiki/net-dns/]:
      - Возможность указать несколько DNS и задать метод выбора
      - Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
      - Возможность вывести в результат использованный DNS сервер при удачном запросе
[*]В SE::Google::Modern [url=https://a-parser.com/wiki/se-google-modern/] добавлена опция Use sessions
[*]В SE::Yandex::WordStat [url=https://a-parser.com/wiki/se-yandex-wordstat/] добавлена настройка пресета антигейта для логина
[*]Также в SE::Yandex::WordStat [url=https://a-parser.com/wiki/se-yandex-wordstat/] удалены настройки Use logins/Use sessions, теперь они включены всегда
[*]Добавлена возможность автоматического удаления задания из Завершенных
[*]В макросе подстановок {num} добавлена поддержка обратного отсчета
[*]В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
[*]В JavaScript парсерах добавлена возможность прямого сохранения в файл
[*]В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
[*]В связи с неактуальностью удалены парсеры SE::Google::Mobile и SE::Yandex::Catalog

Исправления в связи с изменениями в выдаче

[*]Исправлен парсинг сниппетов в SE::Yandex [url=https://a-parser.com/wiki/se-yandex/]
[*]В SE::Google::Modern [url=https://a-parser.com/wiki/se-google-modern/] исправлена пагинация в мобильной версии, а также парсинг сниппетов и рекламы в некоторых случаях
[*]Исправлен парсинг цен в GooglePlay::Apps [url=https://a-parser.com/wiki/googleplay-apps/]
[*]Исправлена работа функции Remove bad accounts в парсерах Wordstat
[*]Rank::MegaIndex [url=https://a-parser.com/wiki/rank-megaindex/], Rank::OpenSiteExplorer [url=https://a-parser.com/wiki/rank-opensiteexplorer/], Rank::OpenSiteExplorer::Extended [url=https://a-parser.com/wiki/rank-opensiteexplorer-extended/], SE:: DuckDuckGo [url=https://a-parser.com/wiki/se-duckduckgo/], SE::IxQuick [url=https://a-parser.com/wiki/se-ixquick/]

Исправления

[*]Количество неудачных больше не обнуляется при постановке на паузу
[*]Исправлена проблема с подключением Node.js модулей на Linux
[*]Исправлено падение парсера в редких ситуациях при использовании JS парсеров
[*]Решена проблема с подключением Node.js модулей lodash, sequelize
[*]Исправлена ошибка итератора при равных границах в макросе {num}
Разгадывание рекаптч в JS парсере

Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.[https://www.youtube.com/watch?v=mFnseLvKkfE]

В уроке рассмотрено:

[*]Описание и настройка парсера [https://a-parser.com/wiki/util-recaptcha2/]
[*]Описание принципа работы ReCaptcha2
[*]Создание кастомного JavaScript парсера с поддержкой разгадывания рекаптч


Ссылки:

[*]Тестирование работы ReCaptcha2: [http.myjino.ru/recaptcha/test-get.php]
[*]Статья и готовый парсер: [https://a-parser.com/resources/259/]

Оставляйте комментарии и подписывайтесь на наш канал на YouTube! [https://www.youtube.com/c/AParser_channel]
https://a-parser.com/threads/4517/]Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!

https://a-parser.com/resources/285/]Получение категорий сайтов из Google

Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.
Рисунок


https://a-parser.com/resources/284/]Выгрузка товаров в формате YML

YML - это стандарт, разработанный Яндексом для работы с Маркетом. По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине. Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.
Рисунок


https://a-parser.com/resources/281/]Парсим Google новости с датой и преобразуем ее

В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.
Рисунок


Кроме этого:
https://a-parser.com/resources/280/]Сохранение произвольных данных в сессиях - новый функционал по работе с сессиями
https://a-parser.com/resources/279/]Сохранение больших файлов напрямую на диск - возможность сохранять файлы в JS парсерах напрямую, минуя шаблонизатор

Еще больше различных рецептов в нашем https://a-parser.com/resources/]Каталоге!

Предлагайте ваши идеи для новых парсеров https://a-parser.com/threads/3464/]здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw]наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в https://twitter.com/a_parser]Twitter.

Предыдущие сборники рецептов:

a-parser.com/threads/1250/]Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
a-parser.com/threads/1328/]Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов
a-parser.com/threads/1660/]Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов
a-parser.com/threads/1674/]Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы
a-parser.com/threads/1705/]Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта
a-parser.com/threads/1737/]Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво
a-parser.com/threads/1778/]Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам
a-parser.com/threads/1809/]Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube
a-parser.com/threads/1830/]Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность
a-parser.com/threads/1881/]Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий
a-parser.com/threads/1938/]Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!
a-parser.com/threads/2240/]Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок
a-parser.com/threads/2460/]Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query
a-parser.com/threads/2613/]Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты
a-parser.com/threads/2712/]Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu
https://a-parser.com/threads/2808/]Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей
https://a-parser.com/threads/3544/]Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК
https://a-parser.com/threads/3862/]Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов
https://a-parser.com/threads/3910/]Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress
https://a-parser.com/threads/4074/]Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов
https://a-parser.com/threads/4318/]Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb
https://a-parser.com/threads/4405/]Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов
https://a-parser.com/threads/4563/]1.2.216 - улучшения в SE::Google::Modern и JS парсерах, а также множество других

Рисунок


Улучшения
[*]Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой
[*]Добавлен повтор без смены прокси при неудачной отправке рекаптчи в https://a-parser.com/wiki/se-google-modern/]SE::Google::Modern
[*]Добавлен бан прокси при получении 403 кода ответа в https://a-parser.com/wiki/se-google-modern/]SE::Google::Modern
[*]Процент неудачных запросов теперь отображается относительно числа выполненных запросов
[*]Добавлена возможность вызвать URL после выполнения задания
[*]Улучшен обзор каталогов при выборе файлов запросов
[*]Добавлена поддержка setInterval в JavaScript парсерах
[*]Уменьшено Wait between get status и улучшено логгирование в https://a-parser.com/wiki/util-recaptcha2/]Util::ReCaptcha2
[*]Улучшена обработка редиректов
[*]Добавлена защита от бесконечного выполнения в JavaScript парсерах
[*]Значительно увеличены возможности check_content в JS парсерах
[*]В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads

Исправления в связи с изменениями в выдаче
[*]Исправлен парсинг рекламы в мобильной версии https://a-parser.com/wiki/se-google-modern/]SE::Google::Modern
[*]Исправлен парсинг количества результатов в https://a-parser.com/wiki/se-baidu/]SE::Baidu
[*]https://a-parser.com/wiki/rank-majesticseo/]Rank::MajesticSEO, https://a-parser.com/wiki/se-google-modern/]SE::Google::Modern, https://a-parser.com/wiki/se-google-trends/]SE::Google::Trends
Исправления
[*]Исправлено ведение лога при нескольких паузах задания
[*]Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в https://a-parser.com/wiki/se-google-modern/]SE::Google::Modern
[*]Исправлена работа с url, содержащими фрагмент # в https://a-parser.com/wiki/net-http/]Net::HTTP
[*]Исправлен парсинг ссылок в https://a-parser.com/wiki/html-linkextractor/]HTML::LinkExtractor
[*]Исправлена работа опции Pages count в https://a-parser.com/wiki/se-yandex/]SE::Yandex
[*]Исправлен выбор файлов запросов на Windows 10
[*]Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами
[*]Исправлено отображение проксичекера в конфиге потоков
[*]Исправлена кодировка некоторых результатов в https://a-parser.com/wiki/se-google-suggest/]SE::Google::Suggest
[*]Исправлена ситуация, когда не читались настройки из config.txt
https://a-parser.com/threads/4591/]Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

24-й сборник рецептов. В нем мы научимся мониторить окончание срока регистрации доменов с уведомлением в Телеграм, сделаем альтернативный чекер сайтов в базе РКН, а также на простом примере парсера курсов валют изучим работу с базами данных. Поехали!

https://a-parser.com/resources/287/]Получаем уведомления в Telegram об окончании срока регистрации доменов

Мониторинг сроков регистрации доменов - это довольно распространенная задача. A-Parser позволяет легко автоматизировать этот процесс. Более того, можно настроить получение прямо в Телеграм уведомлений о доменах, срок регистрации которых скоро закончится. Готовое решение для автоматической проверки с уведомлением - по ссылке выше.
Рисунок


https://a-parser.com/resources/286/]Проверка блокировки РосКомНадзора через GitHub

В А-Парсере есть стандартный парсер https://a-parser.com/wiki/check-roskomnadzor/]Check::RosKomNadzor[/URL], который позволяет проверять наличие сайтов в базе РКН. Данные получаются напрямую из официального сервиса, для работы обязательно нужно подключать антигейт. Кроме того, официальный сервис РКН часто подвергается атакам, в связи с чем может быть недоступен. Но существуют альтернативные источники данных, доступность которых значительно выше и к тому же не требующие проверки в виде каптчи. Парсинг одного из таких источников и реализован в пресете по ссылке выше.
Рисунок


https://a-parser.com/resources/275/]Простой парсер обменника с записью в БД SQLite

Как известно, в A-Parser есть возможность чтения/записи данных в БД SQLite. В этом рецепте показано использование этого функционала на примере парсинга курсов валют. Готовый парсер доступен по ссылке выше.
Рисунок


Еще больше различных рецептов в нашем https://a-parser.com/resources/]Каталоге!

Предлагайте ваши идеи для новых парсеров https://a-parser.com/threads/3464/]здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw]наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в https://twitter.com/a_parser]Twitter.

Предыдущие сборники рецептов:
a-parser.com/threads/1250/]Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
a-parser.com/threads/1328/]Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов
a-parser.com/threads/1660/]Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов
a-parser.com/threads/1674/]Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы
a-parser.com/threads/1705/]Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта
a-parser.com/threads/1737/]Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво
a-parser.com/threads/1778/]Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам
a-parser.com/threads/1809/]Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube
a-parser.com/threads/1830/]Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность
a-parser.com/threads/1881/]Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий
a-parser.com/threads/1938/]Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!
a-parser.com/threads/2240/]Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок
a-parser.com/threads/2460/]Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query
a-parser.com/threads/2613/]Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты
a-parser.com/threads/2712/]Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu
https://a-parser.com/threads/2808/]Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей
https://a-parser.com/threads/3544/]Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК
https://a-parser.com/threads/3862/]Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов
https://a-parser.com/threads/3910/]Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress
https://a-parser.com/threads/4074/]Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов
https://a-parser.com/threads/4318/]Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb
https://a-parser.com/threads/4405/]Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов
https://a-parser.com/threads/4517/]Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат
1.2.246 - обновление базы Rank::CMS и новые функции в парсерах Baidu и MajesticSEO

Рисунок

Улучшения
* В Rank::CMS обновлена база определяемых движков, теперь поддерживается одновременно старый и новый формат apps.json (при обновлении рекомендуется также обновить apps.json)
* SE::Baidu полностью переписан:

- добавлен парсинг related keywords
- убран $cachedate из $serp, т.к. его похоже больше нет в выдаче
- добавлена опция Get full link, преобразующая обрезанные ссылки в полные
- исправлены некоторые регулярные выражения и баг с двойным http в ссылках
* Изменения в Rank::MajesticSEO:
- Добавлен параметр Check type, позволяет выбрать тип проверки: Root Domain/Subdomin/URL
- Убран параметр Extract domain
- Исправлена работа в некоторых случаях
* Улучшена отзывчивость в редакторе JavaScript парсеров
* Улучшена работа HTML::EmailExtractor, устранены зависания, которые возникали на определенных страницах
* Обновлен список регионов в парсерах Яндекс
* Пустой результат в SE::Google::Trends больше не считается неудачным запросом
* Улучшена работа с сессиями в SE::Yandex::WordStat[/LIST]
Исправления в связи с изменениями в выдаче
* Исправлен парсинг рекламы в SE::Yandex
* Исправлена работа, а также улучшен алгоритм парсинга в SE::DuckDuckGo
* Исправлено указание региона в парсерах Яндекс
* Исправлен парсинг $ads.$i.visiblelink в SE::Google::Modern
* Исправлен парсинг $totalcount в SE::Yandex::Direct
Исправления
* Исправлена ошибка, из-за которой процент обработанных запросов мог быть больше 100
* Исправлены ошибки, из-за которых парсинг мог зависать при снятии с паузы, а также сбивался перебор в макросах подстановок
* Исправлено отображение кириллицы в $headers в Net::HTTP
* Исправлена ошибка в Конструкторе результатов, из-за которой в редких случаях парсер мог падать
* Устранена проблема с кодировкой при работе с SQLite
* Исправлена ошибка со сменой прокси в JavaScript парсерах
Изменено: A-Parser Support - 3 Июля 2018 10:41
Сборник статей #4: добавление товаров в OpenCart и парсинг JSON

В 4-м сборнике статей будет рассмотрено добавление товаров в OpenCart, а также описано создание универсального парсера JSON. В каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

Работаем с OpenCart. Часть 1. Вступление.

Данная статья начинает цикл об одной из наиболее часто запрашиваемых возможностей - заливке товаров в интернет-магазин. A-Parser - это универсальный инструмент, который кроме прочего может решать и такие задачи. Для тестов выбран движок OpenCart, в 1-й статье будет рассмотрена авторизация, получение списка товаров и добавление товара. Подробности, а также пример парсера - по ссылке выше.

Рисунок


Парсинг JSON ответов и работа с их содержимым

JSON - это довольно популярный способ предоставления данных, который, например, часто используется при работе с API различных сервисов. В А-Парсере есть встроенные инструменты для работы с ним, но не всегда их применение может быть простым, иногда требуется дополнительно писать сложные шаблоны, используя шаблонизатор. Поэтому в статье по ссылке выше будет рассказано, как написать простой универсальный парсер JSON.

Рисунок


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки smile:) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей
* Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы
* Сборник статей #2: цикл статей-уроков по созданию JS парсеров
* Сборник статей #3: пагинация, переменные и БД SQLite
Видео урок: Создание JS парсеров. Работа с SQLite

Продолжение цикла уроков по созданию JavaScript парсеров. В этом видео показано, как работать с базой данных SQLite в JS парсере.

https://www.youtube.com/watch?v=-8plKZpHO4M] Рисунок


В этом уроке рассмотрены:
- Знакомство с языком запросов SQL
- Создание простейшей базы данных SQLite при работе с JS-парсером
- Получение и запись данных в базу SQLite при работе с JS-парсером

Ссылки:
- www.sql-tutorial.ru/ru/content.html - учебник по SQL
- samoychiteli.ru/document29118.html - тоже учебник по SQL
- https://finance.i.ua/converter/ - сайт, который использовался в качестве примера
- https://a-parser.com/resources/276/ - статья и готовый парсер

Оставляйте комментарии и https://www.youtube.com/c/AParser_channel]подписывайтесь на наш канал на YouTube!
https://a-parser.com/threads/4688/]1.2.270 - новый парсер Rank::Curlie, множество доработок в Node.js функционале

Рисунок


Улучшения

[*]Добавлен новый парсер https://a-parser.com/wiki/rank-curlie/]Rank::Curlie
[*]В https://a-parser.com/wiki/html-linkextractor/]HTML::LinkExtractor улучшена обработка портов по умолчанию, теперь ссылки с портом приводятся к каноническому виду
[*]Оптимизирована работа https://a-parser.com/wiki/se-yandex-wordstat/]SE::Yandex::WordStat
[*]Улучшена работа с сессиями в https://a-parser.com/wiki/se-yandex/]SE::Yandex
[*]Улучшена обработка некорректных ответов в https://a-parser.com/wiki/se-yandex/]SE::Yandex https://a-parser.com/wiki/se-google-suggest/]SE::Google::Suggest

Исправления в связи с изменениями в выдаче

[*]Исправлены https://a-parser.com/wiki/se-bing/]SE::Bing, https://a-parser.com/wiki/se-duckduckgo/]SE:: DuckDuckGo и https://a-parser.com/wiki/rank-majesticseo/]Rank::MajesticSEO

Исправления

[*]Исправлена проблема с запуском на некоторых linux дистрибутивах
[*]Исправлена загрузка node.js модулей в редких случаях на Windows
[*]JS парсеры: добавлена поддержка dns.lookup и улучшена совместимость с модулем mysql2
[*]JS парсеры: исправлен util.promisify
[*]Исправлена работа некоторых Node.js модулей
[*]В https://a-parser.com/wiki/se-google-modern/]SE::Google::Modern и https://a-parser.com/wiki/se-bing/]SE::Bing $totalcount при 0 результатов теперь возвращает 0
[*]Исправлено логгирование в режиме foreground
https://a-parser.com/threads/4722/]25-й сборник рецептов
25-й сборник рецептов. В нем будет показан способ периодического парсинга с дозаписью результатов в таблицу, рассмотрен парсинг с помощью Node.js модуля Cheerio без использования регулярных выражений, а также показан парсер первой мобильной поисковой системы в Китае - Shenma. Поехали!

https://a-parser.com/resources/294/]Периодическая проверка обратных ссылок с дозаписью результатов в таблицу
Пример решения одной из наиболее запрашиваемых задач - дозапись периодически получаемых результатов в одну и ту же таблицу. В качестве хранилища данных используется SQLite, при каждом запуске данные добавляются и выводятся в таблицу. Готовый пресет с комментариями - по ссылке выше.
Рисунок


https://a-parser.com/resources/296/]Парсер поисковой системы Haosou
Как известно, в основе почти любого парсера используются регулярные выражения, реже - XPath. Работа с этими методами требует определенных знаний, что в свою очередь может вызывать некоторые сложности. Поэтому существуют и другие методы. Использование одного из них на примере парсинга популярного в Китае поисковика Haosou, показано по ссылке выше.
Рисунок


https://a-parser.com/resources/295/]Парсер китайского поисковика Shenma
Еще один китайский поисковик в этом сборнике - Shenma. Это первая мобильная поисковая система в Китае, ориентирована в первую очередь на мобильные сайты. Пресет - по ссылке выше.
Рисунок


Еще больше различных рецептов в нашем https://a-parser.com/resources/]Каталоге!
Предлагайте ваши идеи для новых парсеров https://a-parser.com/threads/3464/]здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw]наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в https://twitter.com/a_parser]Twitter.

Предыдущие сборники рецептов:
* a-parser.com/threads/1250/]Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
* a-parser.com/threads/1328/]Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов
* a-parser.com/threads/1660/]Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов
* a-parser.com/threads/1674/]Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы
* a-parser.com/threads/1705/]Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта
* a-parser.com/threads/1737/]Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво
* a-parser.com/threads/1778/]Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам
* a-parser.com/threads/1809/]Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube
* a-parser.com/threads/1830/]Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность
* a-parser.com/threads/1881/]Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий
* a-parser.com/threads/1938/]Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!
* a-parser.com/threads/2240/]Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок
* a-parser.com/threads/2460/]Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query
* a-parser.com/threads/2613/]Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты
* a-parser.com/threads/2712/]Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu
* https://a-parser.com/threads/2808/]Сборник рецептов #16: парсинг OpenSiteExplorer с авторизацией, Яндекс.Каталога и Яндекс.Новостей
* https://a-parser.com/threads/3544/]Сборник рецептов #17: картинки из Flickr, язык ключевых слов, список лайков в ВК
* https://a-parser.com/threads/3862/]Сборник рецептов #18: скриншоты сайтов, lite выдача Яндекса и проверка сайтов
* https://a-parser.com/threads/3910/]Сборник рецептов #19: публикация сообщений в Wordpress, парсинг Chrome Webstore и AliExpress
* https://a-parser.com/threads/4074/]Сборник рецептов #20: автообновление цен в ИМ, анализ текстов и регистрация аккаунтов
* https://a-parser.com/threads/4318/]Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb
* https://a-parser.com/threads/4405/]Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов
* https://a-parser.com/threads/4517/]Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат
* https://a-parser.com/threads/4591/]Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite
Видео урок: Создание JS парсеров. Реализация подстановки запросов и их многопоточной обработки.
Продолжение цикла уроков по созданию JavaScript парсеров. В этом видео будет показано, как "на лету" добавлять запросы в задание и многопоточно их обрабатывать.
Загрузка плеера

В одной из наших статей мы рассмотрели способ разработки парсера, который собирает ТОП 10 из выдачи поисковика, а затем по очереди парсит нужные данные по полученным ссылкам. Вроде все неплохо, но если у вас не 10 запросов, несколько тысяч? Задание будет выполняться очень долго, а время это самый драгоценный и не восполняемый ресурс.
К счастью в A-Parser есть такая замечательная вещь, как многоуровневый парсинг, который позволяет многократно увеличить скорость парсинга, и в этом видео мы рассмотрим как этой возможностью пользоваться.

В этом уроке рассмотрено:
* Реализация раздельных процедур парсинга в зависимости от внешних условий, а именно - уровня парсинга
* Подстановка запросов в задание "на лету"
* Использование стандартных парсеров в кастомных JavaScript парсерах
Ссылки:
* Документация по JS парсерам
* Описание метода для подстановки запросов
* Статья и готовый парсер
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
1.2.292 - новый парсер Яндекс ИКС, улучшения в работе с кодировками, оптимизации встроенных парсеров
Рисунок

Улучшения
* Добавлен парсер SE::Yandex::SQI - парсер Индекса качества сайта (Яндекс ИКС)
* Оптимизирована работа Очереди заданий
* Добавлена поддержка множества экзотических кодировок китайского языка
* Добавлена опция Save as UTF-8 with BOM, которая решает проблему определения кодировки при открытии сформированного CSV в Excel
* SE::Youtube полностью переписан с использованием современного юзерагента
* SE::AOL::Suggest оптимизирован и переписан на JavaScript
* Улучшена работа SE::Google,SE::Google::Modern, Rank::MajesticSEO,SE::Bing,Shop::Amazon

Исправления в связи с изменениями в выдаче

* Исправлен парсинг мобильной выдачи в SE::Google::Modern
* Исправлено определение опечаток в SE::Google и SE::Google::Modern
* Исправлена ситуация, при которой в SE::Google::Modern в сниппеты могли попадать ненужные ссылки
* Исправлен парсинг рекламы в SE::Yandex
* Исправлен парсинг количества результатов в SE::Youtube
* Удален SE::Yandex::TIC, т.к. больше не актуален
* Исправлен Shop::Yandex::Market,SE::DuckDuckGo,SE::AOL::Suggest

Исправления

* Исправлена работа Net::Whois для некоторых доменных зон
* Исправлена ошибка, при которой не импортировался пресет, если не установлены модули, используемые в нем
* Исправлена кодировка при использовании fs.readdirSync в JS парсерах
Сборник статей #5: собственный канал в Telegram и массовое добавление товаров в OpenCart
В 5-м сборнике статей на реальном примере будет показано, как создать свой канал в Телеграме и полностью автоматизировать его наполнение контентом. Также мы продолжаем цикл статей по работе с OpenCart и во 2-й части будет рассмотрен вопрос массового добавления товаров. Как обычно, в каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

Полноценный Telegram канал на базе A-Parser
В этой статье будет описан способ создания полноценного канала в Telegram c автоматизированным сбором контента и постингом сообщений через заданные интервалы. И конечно, все это на базе A-Parser. Все подробности, а также готовые пресеты - по ссылке выше.
Рисунок


Работаем с OpenCart. Часть 2. Массовое добавление товаров
Мы продолжаем цикл статей о заливке товаров в интернет-магазин на базе OpenCart. Во второй части будет рассмотрено массовое добавление товара. Подробности, а также пример готового парсера - по ссылке выше.
Рисунок


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки smile:) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

* Сборник статей #1: A-Parser для маркетологов, SEO-специалистов и реальный опыт работы
* Сборник статей #2: цикл статей-уроков по созданию JS парсеров
* Сборник статей #3: пагинация, переменные и БД SQLite
* Сборник статей #4: добавление товаров в OpenCart и парсинг JSON
[/LIST]
Страницы: Пред. 1 2 3 4 5 ... 13 След.
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
20:42 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 
21:26 DreamCash.tl - заработок на онлайн-видео. До 95% отчислений, отличный конверт! 
20:12 Как быстро восстановить сайт в ПС 
15:56 LOSPOLLOS.COM - Конвертим по рецепту Хайзенберга. Dating, Mainstream, Binary Options 
14:59 Партнерская программа Xoffers с прямыми офферами в вертикалях форекс, крипта и бинарные опционы. 
01:50 Gogetlinks - ссылки навсегда на качественных сайтах с гарантией индексации! - 2 
01:41 Изменение в продвижении под Яндекс 
22:24 Удостоверение журналиста СМИ РФ. Официальное оформление в действующей редакции. Без предоплаты! 
11:56 USMobileSMSBot - 
11:13 Majento SiteAnalyzer - бесплатная программа для аудита и анализа сайта 
09:16 BestX24 - быстрый и безопасный обменник криптовалют и электронных денежных средств 
15:29 Belurk — высокоскоростные анонимные прокси от 0,24 рублей 
14:11 DualCoin - быстрый криптовалютный обменник 
13:07 Expa24.com Обмен Криптовалют. Ввод/Вывод наличные Украина/Северный Кипр/Мир 
17:21 "Яндекс Go" впервые выписал штраф 100 тыс. руб. самокатчику 
11:17 Пятница 13-ое: VK принял радикальное решение и закрыл доступ к порно контенту 
11:15 Клещи 
11:14 Осталось 3-5 месяцев до блокировки YouTube в России, — заявил Клименко 
09:46 Получайте доход, снимая видео о нарушениях ПДД 
08:56 Apple начнет блокировать айфоны, в которых стоят б/у запчасти 
03:38 Точные прогнозы на футбол