Как заблочить роботов, которые кладут сайт
Страницы: Пред. 1 2 3 4 След.
Как заблочить роботов, которые кладут сайт
sharkson, ну вот и у меня все было хорошо и посещалка такая же
а последнее время Отфильтрованы по статистическим правилам стало много
Отфильтрованы по статистическим правилам 3 058 на данный момент
поэтому когда пару раз увидел 508 и пообщался с хостером начал искать решение
яндексу Crawl-delay: 6 сделал

Прогон по твиттеру, постинг в 1500 аккунтов
Постинг в твиттер аккаунты, для ускорения индексации ваших сайтов, сателлитов, дорвеев.

Crawl-delay не нужно трогать - есть нюансы - бот сам определяет оптимальную частоту.

А блочить - через htaccess не стоит - слишком много и не оптимально.

И потом - разберитесь, почему это вдруг такая ситуация возникла - это и есть корень проблем и начало решения.
Coder, дак а что делать?
1. Подумать, с какого момента началось безобразие и что делалось с сайтом в это время и вокруг него
2. Тщательно проанализировать логи - именно тщательно, стараясь выявить повторения и какие-то закономерности
3 Используем что написано тут и не только, и комбинируем:

Запрет/бан доступа на сайт/страницу по ip через php _http://coderhs.com/archive/ban_ip_php (ставим автобан -> по следующему скрипту)

Защита сайта от слишком частого обращения  _http://coderhs.com/archive/defens_ddos (это у вас как раз частят)

Снизить нагрузку на сервер через .htaccess _http://coderhs.com/archive/reduce_server

Капча: решение текстового примера со сложением или вычитанием, просто _http://coderhs.com/archive/captcha_math_text (добавляем не текст, а картинку с текстом - никто, кроме человека и крутейшего ИИ, не прочтет)

--> Вариант такой - явных в автобан, неявных в передержку, возможных людей - капчу.

В любом случае - тепм атаки будет сбит, на автомате, или нет, целенаправлено или нет - и парсинг и злоумышление иное потеряет смысл, если придется по несколько минут ждать даже просто возжности захода на сайт.

Намек - оставляем только явных нужных ботов поисковиков, и затем смотрим - если кто совсем хулиганит, то возможна подмена - смотрим в инфо ПС и устанавливаем принадлежность и возможность такого поведения - в крайнем случае баним и смотрим результат.

--> Вариантов много - творческий подход и много-много работы.

+ Да и сам анализатор логов можно придумать - потом ручная проверка - и все в бан или еще куда - быстро, красиво и дешево.
Изменено: Coder - 14 Октября 2019 20:08
Coder,
Cloudflare часть проблем может решить.
Про капчу google невидимую не разбирались еще? Идея хорошая.
Цитата
Zhezkazganetcs пишет:
по отчетам в хостинге лазил и вот что нашел

но больше всего яндексбот шарится
Код
 YandexBot   33,909+260   2.74 ГБ   11 Окт 2019 - 15:10 
а вы уверены что это именно яндекс бот шарится? а не имитация его?и уверены что на вашем хостинге, а не другой сайт на сервере просто атачат, а ваш бонусом пошёл полежать?
Цитата
rushot пишет:
Про капчу google невидимую не разбирались еще? Идея хорошая.
Ну, 3 еще не смотрел, но вторую проходят - пока не поставил текстовую математическую капчу именно ввиде картинки в дополнение к google капчe v2, замусоривали и почту и отзывы. Причем иностранцы - видимо, переводили через перевод и грузили по полной. А как условие задачки на картинке - и все,потому как не переведешь.
Код
5.45.207.33 Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
штук 20
Код
5.45.207.67 Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
штук 15
Код
37.17.37.140 Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36

и это за сегодня
там конечно есть и другие, и много, но так вот в разделе посетители на хостинге
для Яндекс бота, да и других рекомендую задать delay в robots.txtа остальных негодяев я лично блокирую прямо в nginx


Код
if ($http_user_agent ~ SputnikBot|Crowsnest|PaperLiBot|peerindex|ia_archiver|Slurp|Aport|NING|JS-Kit|rogerbot|BLEXBot|MJ12bot|Twiceler|Baiduspider|Java|CommentReader|Yeti|discobot|BTWebClient|Tagoobot|Ezooms|igdeSpyder|AhrefsBot|Teleport|Offline|DISCo|netvampire|Copier|HTTrack|WebCopier) {
return 403;
}
 
на счёт Яндекс бота - посмотрите логи руками, отфильтруйте по IP и проверьте выборочно - принадлежит ли IP диапазону Я.Бота (можно найти в сети эти диапазоны)
Цитата
Клим Молотов пишет:
посмотрите логи руками, отфильтруйте по IP и проверьте выборочно - принадлежит ли IP диапазону Я.Бота (можно найти в сети эти диапазоны)

Я также сделал +smile:)
в общем я тут копался и нашел куда ломятся эти боты (наверно)

Код
/pab-sw.js

но у меня нет этого на сайте
как им запретить искать или заходить по этому пути?

Код
Disallow: /pab-sw.js 


или как?
всем спасибо, кто помогал и Coder, который натолкнул на мысль, что проблема в движке
в итоге, я отключил все плагины (штук 11) и поочередно включал самые необходимые
проблема пропала
но не все плагины еще включены
так что вероятнее всего проблема в каком то плагине
и снова здрасти
сегодня опять лег хостинг, причем надолго
ответ тп
В пиковый момент нагрузки, согласно логам сервера, видим активную работу планировщика задач, который может создавать нагрузку:
Код
2a0a:7d80:1:7::70 - - [14/Jul/2020:15:12:44 +0300] "POST /wp-cron.php?doing_wp_cron=1594728764.3192570209503173828125 HTTP/1.0" 508 288 "site.ru/wp-cron.php?doing_wp_cron=1594728764.3192570209503173828125" "WordPress/5.4.2; site.ru"
2a0a:7d80:1:7::70 - - [14/Jul/2020:15:13:45 +0300] "POST /wp-cron.php?doing_wp_cron=1594728824.9129590988159179687500 HTTP/1.0" 508 288 "site.ru/wp-cron.php?doing_wp_cron=1594728824.9129590988159179687500" "WordPress/5.4.2; site.ru"
2a0a:7d80:1:7::70 - - [14/Jul/2020:15:13:45 +0300] "POST /wp-cron.php?doing_wp_cron=1594728824.6222090721130371093750 HTTP/1.0" 508 288 "site.ru/wp-cron.php?doing_wp_cron=1594728824.6222090721130371093750" "WordPress/5.4.2; site.ru"
2a0a:7d80:1:7::70 - - [14/Jul/2020:15:13:45 +0300] "POST /wp-cron.php?doing_wp_cron=1594728824.8189480304718017578125 HTTP/1.0" 508 288 "site.ru/wp-cron.php?doing_wp_cron=1594728824.8189480304718017578125" "WordPress/5.4.2; site.ru"


перекрыл крону кран
Код
define('DISABLE_WP_CRON', true);

но теперь отложка работать не будет
а т.к. посты идут на утро (03:00), то как бы неудобно

как победить?
роботов перенаправте на сайт конкурента
Продвижение
Страницы: Пред. 1 2 3 4 След.
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
14:55 C www и без www 
14:41 ТОП 3 Яндекса идеален? 
01:27 Биржи ссылок и статей 2020 
01:18 Проблема с размером таблицы БД во время удаления постов 
00:36 SEO-оптимизация сайта на WordPress 
21:45 Накрутка ПФ - сколько может стоить? 
17:04 LOSPOLLOS.COM - Конвертим по рецепту Хайзенберга. Dating, Mainstream, Binary Options 
14:19 Комплексный прогон по трастовым сайтам, статейное размещение. Рост НЧ-СЧ, Тиц-пр. 
14:04 Торговля на бирже Binance, прибыль 10-100% в месяц binancetrade.pro 
19:47 Продажа аккаунтов Adsense 
18:12 Продвину сайт качественными ссылками. Рост посещаемости, позиций и ИКС. Крауд ссылки недорого + скидки. 
17:18 ВК Целевая аудитория в вашу группу/живые реальные пользователи! Не офферы/боты. Без банов и списаний. Гарантия! 
14:15 Аккаунты ЭПС | Yandex, Neteller, Skrill, Qiwi, PayPal, N26, Perfect 
13:46 Базы ключевых слов с Adwords и подсказок гугла 
10:43 Покупаете готовый шашлык? 
19:09 [b]Webvork [/b]- международная товарная СРА сеть с сертифицированными офферами на Европу. 
19:55 В/у, замена 
10:04 Хотят купить сайт 
13:30 Влияние лета на заработок 
22:58 Партнерка UDS. Мобильное приложение для бизнеса . Программа лояльности 
11:36 Private-Zone.Biz – Прорыв в монетизации файлового трафика, до 8р/инсталл, CPM от 4500