A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc
Страницы: Пред. 1 ... 3 4 5 6 7
A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc
1.2.948 - новые парсеры SecurityTrails IP и Domain, поддержка доменных прокси, множество исправлений

Рисунок


Улучшения
* Добавлен парсер Rank::MOZ.
Собираемые данные: вся информация, содержащаяся на странице.
* Добавлены парсеры SecurityTrails::Domain и SecurityTrails::IP.
Для работы парсеров необходимо указать пресет Util::ReCaptcha2.
- SecurityTrails::IP
В качестве запроса следует указывать ipv4 адрес.
Собирает домены по IP и информацию о них.
- SecurityTrails::Domain
В качестве запроса следует указывать домен, например a-parser.com.
Собираемые данные:
- Данные по DNS
- Список технологий, используемых на сайте (движки и проч.)
- Список открытых портов
- Alexa rank
- Страна
- Хостер
- Даты начала и окончания регистрации
- Whois статус
- Регистратор
- Список исторических данных по DNS
- Список субдоменов
* Добавлена возможность отключать валидацию TLS сертификатов.
* Добавлена поддержка доменных прокси.
Исправления в связи с изменениями в выдаче
* Исправлен парсинг новостей в SE::Google.
* Исправлен Social::Instagram::Profile.
* Исправления в SE::Yandex:
- исправлен парсинг турбо ссылок;
- исправлен парсинг новостных сниппетов.
* Исправления в SE::Google, SE::Baidu, SE::Yandex::Direct, Shop::Yandex::Market.
* Исправления в SE::Yahoo - ошибка в выборе стран, у которых одинаковый домен, восстановлен парсинг сниппетов.
Исправления
* Исправлена ошибка в алгоритме автовыбора домена в SE::Yandex.
* Исправлена работа Rank::MajesticSEO, SE::Bing::Translator.
* Исправлена ошибка, если файл config.txt был сохранен в кодировке utf-8 с BOM (парсер некорректно читал файл).
* Решена проблема с переопределениями опций в парсере HTML::LinkExtractor.
* NodeJS: новые установленные модули теперь доступны до перезагрузки A-Parser'a.
* Исправлено падение парсера при вызове метода getProxies.

Рисунок

Прогон по твиттеру, постинг в 1500 аккунтов
Постинг в твиттер аккаунты, для ускорения индексации ваших сайтов, сателлитов, дорвеев.

Сборник статей #12: скорость работы парсеров, debug режим и работа с куками

В 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками.

Скорость и принцип работы парсеров

В этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга.

Рисунок


Использование Debug режима

В этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные.

Рисунок


Работа с куками и заголовками на примере соглашения с правилами сайта auto.ru

А в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer.

Рисунок


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки smile:) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники статей

Рисунок
Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string

В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера

Загрузка плеера


1. Где и как можно посмотреть результаты парсинга?
2. Как подключить прокси с авторизацией?
3. Extra query string, что это такое и как применять эту опцию?

В уроке рассмотрено:
* Просмотр результатов парсинга 3-мя способами:
- Способ первый. "Из очереди заданий, если задание на паузе".
- Способ второй. "Из очереди заданий, если задание завершено".
- Способ третий. "Забираем результат из папки results".
* Подключение прокси с авторизацией.
* Примеры использования опции Extra query string.
Полезные ссылки:
* https://a-parser.com/resources/categories/14/ - сохранение результатов (каталог)
* https://a-parser.com/resources/77/ - Сохранение результатов нескольких парсеров в разные папки
* https://a-parser.com/resources/394/ - Сохранение результатов в несколько файлов используя переменные, массивы и условия (видео)
* https://a-parser.com/resources/397/ - Сохранение результатов в Google SpreadSheets
* https://a-parser.com/wiki/proxy/ - Настройка прокси
* https://a-parser.com/wiki/settings-and-presets/ - Общие настройки для парсеров

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Рисунок
Изменено: A-Parser Support - 9 Сентября 2020 16:42
Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF

43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.

Аукцион доменов REG.RU
Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.
Рисунок


Определение категорий сайта
Парсер, собирающий категории сайтов из MegaIndex.
Рисунок


Парсинг PDF
Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.
Рисунок


Кроме этого:
* Парсер ссылок локаций для Social::Instagram::Geo - сбор ссылок на локации в Instagram
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by

44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.

Парсер Cloudflare Radar

Парсер для сбора категорий сайтов из Cloudflare Radar

Рисунок


Rozetka - получение данных по API

Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.

Рисунок


Парсинг объявлений kufar.by

Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.

Рисунок


А также, обновлены следующие ресурсы:
* Парсинг комментариев из Youtube
* Парсер собирающий вопросы и ответы из выдачи Google

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку

Рисунок

Улучшения

* В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
- Net::HTTP
- HTML::LinkExtractor
- HTML::TextExtractor
- HTML::TextExtractor::LangDetect
- Check::BackLink
* Основные улучшения от перевода данных парсеров на Node.js:
- увеличение производительности в ~1.5 раза
- унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
* Добавлены новые парсеры:
- DeepL::Translator
- Rank::Ahrefs::KeywordDifficulty
- Rank::Ahrefs::KeywordGenerator
* В HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
* В SE::Google::Translate добавлены новые переменные:
- $translit_orig - оригинальный текст транслитом
- $translit_translated - переведенный текст транслитом
- $variants.$i.text - список вариантов перевода оригинального текста
* В SE::Bing обновлен список регионов и языков
* В Social::Instagram::Profile и Social::Instagram::Post добавлена возможность собирать кол-во видеопросмотров
* В SE::Yandex::Translate добавлена возможность отключать использование сессий
* В Net::HTTP добавлена возможность указывать user-agent для Chrome
* В парсере Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
* В Rank::CMS добавлена поддержка нового apps.json и возможность использовать Net::HTTP
* В Net::Whois обновлена поддержка всех зон
* Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
- "All" - использует все прокси выбранные для задании
- конкретный проксичекер - использует его, даже если он не выбран в задании
* Добавлена поддержка устаревших версий SSL
* JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
* JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
* JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки
Исправления в связи с изменениями в выдаче
* Множество различных исправлений в SE::Google и SE::Yandex в связи с изменениями в выдаче
* В SE::Yandex удалена функция автораспознавания каптч в связи с изменением вида каптч
* Исправлена работа SE::Google::Translate
* В HTML::EmailExtractor исправлена ошибка, при которой пропускались большие блоки html
* Исправлена ошибка в Social::Instagram::profile из-за которой не парсилось больше одной страницы
* Исправлена авторизация в SE::Google::KeywordPlanner
* В SE::Google::TrustCheck исправлено определение горизонтальных блоков ссылок
* В SE::Baidu исправлен парсинг related keywords
* В Shop::Amazon исправлен сбор продавцов, а также исправлена ошибка, связанная с количество страниц
* Исправлен Rank::Linkpad, а также в нем удалена переменная $links_cost, т.к. этого показателя больше нет на источнике
* В Rank::Social::Signal в связи с неактуальностью удалена переменная $googleplus_like
* В Rank::CMS исправлено определение по признакам скриптов для нового apps.json
* Также адаптированы к изменениям в выдаче: SE::Yandex::Translate, SE::MailRu, Rank::MajesticSEO, SE::Yandex::Direct, SE::Google::ByImage, Rank::Ahrefs, Shop::eBay, SE::Yandex::Register, SE::Seznam, Shop::Yandex::Market, SE::Dogpile, SE::Dogpile::Images, SE::Startpage, SE::Baidu, Shop::AliExpress, SE::Youtube, Rank::Social::Signal, SE::Yandex::SQI, SecurityTrails::Domain
Исправления
* В SE::Yandex исправлена работа Extra query string
* Исправлено регулярное выражение в HTML::EmailExtractor для устранения ошибок в некоторых случаях
* Исправлено поведение парсера SE::Google::KeywordPlanner при отсутствии результатов по запросу
* Maps::Yandex исправлен и переведен на puppeteer
* Исправлена ошибка в приоритетах выбора проксичекера
* JS парсеры: исправлен follow_meta_refresh
* API: исправлена работа параметра rawResults

Рисунок
Сборник рецептов #45: парсеры Google Places и prom.ua, получение характеристик картинок "на лету"

45-й сборник рецептов, в который вошли парсер результатов поиска на Google Places, парсер для prom.ua и пример скачивания картинок с одновременным определением их характеристик.

Парсер Google Places
Парсер для поиска заведений по ключевым словам в Google Places. В отличие от парсера Google Maps здесь не нужно задавать координаты поиска, а достаточно вместе с ключевым словом написать нужный город.
Рисунок


Парсер prom.ua
Парсинг товарных позиций для одной из крупнейших в Украине торговых площадок prom.ua. Кроме собственно названий товаров и их цен, позволяет собирать такие данные продавцов, как телефоны и электронные почты.
Рисунок


Скачивание картинок
В этом примере показан способ решения задачи по скачиванию картинок и одновременному получению их характеристик, а именно размера и ориентации. Для получения характеристик используется NodeJS модуль.
Рисунок


Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
1.2.1148 - накопительное обновление встроенных парсеров и исправление Bypass Cloudflare

Рисунок


Улучшения
* В HTML::LinkExtractor добавлена опция Skip comment blocks, которая позволяет исключить из парсинга блоки html комментариев
* Повышена производительность Shop::Yandex::Market
* В Check::RosKomNadzor добавлена возможность выбирать источник для проверки
* Maps::Yandex переписан на TypeScript, добавлена возможность подключения сервисов разгадывания каптч
* В Rank::Alexa::API добавлена возможность получать название страны вместо ее кода
* В Rank::Ahrefs расширен перечень собираемых данных
* В SE::Seznam добавлена поддержка сессий и возможность разгадывать каптчи
* Реализована возможность использовать прокси с одним IP:port, но с разными логинами
Исправления в связи с изменениями в выдаче
* Множество различных адаптаций к изменениям в верстке страниц с результатами в SE::Google и SE::Yandex
* Множество исправлений в Rank::MajesticSEO, связанных с постоянными изменениями в логике запроса и верстке страницы
* В Rank::Alexa::API исправлено получение кода страны
В Rank::Ahrefs исправлен парсинг рейтинга
* Исправлена работа с каптчами в SE::Yandex, SE::Yandex::SQI, SE::Yandex::Images
* Исправлен парсинг $keywords в SE::Yandex::ByImage
* Исправлена работа SE::Yandex::Direct, SE::Ask, SE::Baidu, SE::Bing::Suggest, Rank::KeysSo, SE::Google::TrustCheck, SE::Google::ByImage, Check::RosKomNadzor, SE::Seznam, SE::MailRu, Rank::Ahrefs, Rank::Ahrefs::KeywordDifficulty, Rank::Ahrefs::KeywordGenerator
Исправления
* Исправлен экспериментальный обход защиты Cloudflare с помощью Chrome
* Исправлена ошибка в Maps::Yandex, из-за которой не собиралось больше 1 страницы, а также исправлена проблема с получением исходного кода страниц
* В SE::Youtube исправлено игнорирование настроек поиска, проход по пагинации, а также в некоторых случаях не делались повторные попытки
* В SE::Google::KeywordPlanner исправлена авторизация
* Исправлена утечка памяти, которая проявлялась при долго работающих заданиях с большим числом запросов
* Исправлена ошибка с Buffer, проблема появилась в одной из предыдущих версий

Рисунок

Рисунок
Страницы: Пред. 1 ... 3 4 5 6 7
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
18:49 Где найти онлайн игры на сайт (html 5 + JS) 
18:36 Стоит ли покупать Zenoposter 
18:27 Majento - Онлайн сервис мониторинга позиций в Яндекс и Google 
15:27 Главную моего сайта скопировали на Главную порно домена. Зачем и что делать??? 
14:13 seosolution 
19:39 выдача 15 апреля | Если Яндекс не отображает ссылки, то значит ли, что он и не учитывает? 
12:40 Куплю ваши аккаунты Google Adsense 
07:39 Нужна оценка сайта перед продажей 
19:30 [Западный Терминал]Обмен криптовалют Украина-Европа, лучшие % ставки кеш 
19:12 BestChange – обменивать электронную валюту можно быстро и выгодно 
18:21 Обмен криптовалют в Telegram 
17:23 За сколько можно толкнуть этот сайт? 
15:52 Чат бот для AVITO 
15:41 Раскрутка Instagram, YouTube, TikTok, Twitter, Вконтакте, Telegram, Twitch, Likee - smmservis.ru 
19:03 РБК: Создатель биткоина вошел в топ-20 самых богатых людей мира 
14:21 Google пообещала удалить нарушающий российские законы контент 
22:53 Байден потребовал у конгресса $715 млрд на оборону и сдерживание России. 
18:56 ТАСС: Wildberries открыл интернет-магазин в США 
18:43 NaZapad — 17-я онлайн-конференция по SEO-продвижению на западных рынках 
19:42 PushAdvert.biz — зарабатывайте на Push подписках еще больше 
09:27 "Иронию судьбы" планируют переснять с голливудскими актерами