Как заблочить роботов, которые кладут сайт
Страницы: Пред. 1 2 3 След.
Как заблочить роботов, которые кладут сайт
в общем сейчас мой роботс выглядит так
Код
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads
Crawl-delay: 10.0 # задает тайм-аут в 10 секунд   

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

User-agent: Mail.Ru
Disallow:

Sitemap: <a href=\"https://site.ru/sitemap_index.xml\" target=\"_blank\">https://site.ru/sitemap_index.xml</a>

буду наблюдать

Прогон по твиттеру, постинг в 1500 аккунтов
Постинг в твиттер аккаунты, для ускорения индексации ваших сайтов, сателлитов, дорвеев.

ПС:
Если стоит

User-agent: *

то задержка краулинга будет касаться всех ботов. Которые не игнорируют правила роботс само собой.
для гугла яндекса и майла нет задержки, а остальные пусть в очереди стоят
Вот это
Цитата
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла


неправда, т. к. * - это вообще все-все--все боты


Проверьте файл роботс на ошибки через Вебмастер Яндекса и гугла.

Тут ошибка. Уберите в 10.0 - точку 0
только целые числа в секундах
Цитата

Crawl-delay: 10.0 # задает тайм-аут в 10 секунд  
т.е. надо так
Код
Crawl-delay: 10
 
Код
User-agent: Mail.Ru
Disallow:

Если хотите запретить мейлрушнику всё - замените на

Код
User-agent: Mail.Ru
Disallow: /
 
Изменено: sharkson - 12 Октября 2019 16:22
Т. е. команда для мейлрушного бота должна выглядеть как я написал - если вы хотите ему запретить сканить всё на сайте.
нет, мейлру разрешить все
точнее сделал как гуглу, только rss и feed удалил, т.к. нужна лента майлу
хотя яндекс сам пишет

Код
User-agent: Yandex
Crawl-delay: 2.0 # задает тайм-аут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 1.5 # задает тайм-аут в 1.5 секунды
 
Цитата
sharkson пишет:
Проверьте файл роботс на ошибки через Вебмастер Яндекса и гугла.

нет ошибок и предупреждений
Цитата
Zhezkazganetcs пишет:
нет, мейлру разрешить все
точнее сделал как гуглу
Тогда можно продублировать тоже что и гуглу - заменив название бота на нужное.
Цитата
sharkson пишет:
Тогда можно продублировать тоже что и гуглу - заменив название бота на нужное.
да, я уже сделалтеперь наблюдать буду
но вроде немного Отфильтрованы по статистическим правилам затормозилось
Проще конечно вспомнить время и посмотреть когда были всплески нагрузки в панели хостера. Потом поискать по логам доступа - какая сволочь это вызвала. И забанить ее по агенту и\или по айпи.
время почему то обеденное
где эти логи могут быть? в какой категории или

ответ хостера

Код
Видим, что нагрузка на хостинг создается при обращении к файлу index.php сайта site.ru
ххххх 2401604 12.5 0.0 390476 52536 ? Rs 10:26 0:01 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401629 12.8 0.0 390476 52864 ? Rs 10:26 0:01 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401756 14.1 0.0 388428 51576 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401825 14.2 0.0 388172 50920 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401844 13.4 0.0 384468 47124 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402084 16.0 0.0 373456 36692 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402118 13.0 0.0 369576 32336 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402202 15.0 0.0 365260 27944 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php

Фиксируем следующие обращения к вашему сайту:

693 141.8.142.34
664 5.45.207.33
630 178.154.171.88
530 5.45.207.67
429 141.8.132.40
330 94.245.133.48
290 213.180.203.19
260 93.157.45.114
225 18.233.194.247
213 66.249.92.130


пока написал хостеру, чтобы подсказал где это все искать и смотреть, но пока ответа нет
Цитата
Zhezkazganetcs пишет:
ложат сайт, что появляется 508 ошибка
как решить проблему?
Вариант приобретения нормального хостинга был? smile:)
Самый быстрый хостинг на SSD. Месяц в подарок. Поддержка 24/7. Помощь в переезде.

Передовое сообщество вебмастеров. Тебе к нам!
Цитата
Zhezkazganetcs пишет:
693 141.8.142.34
664 5.45.207.33
630 178.154.171.88
530 5.45.207.67
429 141.8.132.40
330 94.245.133.48
290 213.180.203.19
260 93.157.45.114
225 18.233.194.247
213 66.249.92.130

7 из 10 ip  в этом списке принадлежат яндекс ботам.




Цитата
Zhezkazganetcs пишет:
Код
 Видим, что нагрузка на хостинг создается при обращении к файлу index.php  
Что за CMS у вас или самопис?
Попробуйте с кэшированием поэксперементировать... да и о смене хостинга как сказано выше может стоить подумать smile:)
Цитата
Артем Малков пишет:
Вариант приобретения нормального хостинга был? smile:)
хостинг самый лучший в беларуси!

Цитата
MrLexKo пишет:
Что за CMS у вас или самопис?

wordpress + WP Super Cache
проблема началась недели 2 назад, когда начали активно посещать роботы
Цитата
Zhezkazganetcs пишет:
проблема началась недели 2 назад , когда начали активно посещать роботы
Когда роботы Яндекса кладут сайт - это ненормальная ситуация и так быть не должно. Не знаю что у вас за хостинг, но у меня на сайтах боты поисковиков посещают очень часто, с одного вообще не вылазят. Никогда не было чтобы какие-либо боты клали сайт.
Страницы: Пред. 1 2 3 След.
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
12:28 Популярном хакерском форуме DedicateT 
11:46 14.11 Яндекс выдача | А что ты сделал для продвижения? 
10:42 Поднять ИКС 
10:26 Если украли статьи 
10:18 Размещение ссылок на англоязычных сайтах 
21:07 Захват ТОПА выдачи 
14:09 CPA-сеть MyLead - глобальная монетизация трафика! 
12:05 Размещение статей, ссылок и постовых на качественных ресурсах 
11:19 SocksHub.net - proxy, которые подходят всем 
10:59 Выведу в Топ 5 - Топ 10 Яндекса любые запросы по любому региону России 
10:44 BestChange – обменивать электронную валюту можно быстро и выгодно 
09:11 Сколько стоит такой сайт? 
06:38 PROFIT-SMM.RU - Бесплатные просмотры(глазик)! Раскрутка в Tg/Vk/Yt/Inst. Опыт и гарантия в работе. 
03:26 ВК Целевая аудитория в вашу группу/живые реальные пользователи! Не офферы/боты. Без банов и списаний. Гарантия! 
08:41 Не актуально 
22:32 в это воскресенье 17.10 с 18:00 до 21:00 приглашаю сходить в Бизнес- Баню. 
21:07 Добавить условие в меню wordpress 
03:54 Украсть ворованное. Дилемма. 
13:18 Кидала, Кидок, Кидало 
21:55 Yoast SEO WP 
19:50 Комплексное продвижение в Instagram