Как заблочить роботов, которые кладут сайт
Страницы: Пред. 1 2 3 След.
Как заблочить роботов, которые кладут сайт
в общем сейчас мой роботс выглядит так
Код
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads
Crawl-delay: 10.0 # задает тайм-аут в 10 секунд   

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

User-agent: Mail.Ru
Disallow:

Sitemap: <a href=\"https://site.ru/sitemap_index.xml\" target=\"_blank\">https://site.ru/sitemap_index.xml</a>

буду наблюдать

Комплексное SEO продвижение в поисковых системах Яндекс, Google

ПС:
Если стоит

User-agent: *

то задержка краулинга будет касаться всех ботов. Которые не игнорируют правила роботс само собой.
для гугла яндекса и майла нет задержки, а остальные пусть в очереди стоят
Вот это
Цитата
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла


неправда, т. к. * - это вообще все-все--все боты


Проверьте файл роботс на ошибки через Вебмастер Яндекса и гугла.

Тут ошибка. Уберите в 10.0 - точку 0
только целые числа в секундах
Цитата

Crawl-delay: 10.0 # задает тайм-аут в 10 секунд  
т.е. надо так
Код
Crawl-delay: 10
 
Код
User-agent: Mail.Ru
Disallow:

Если хотите запретить мейлрушнику всё - замените на

Код
User-agent: Mail.Ru
Disallow: /
 
Изменено: sharkson - 12 Октября 2019 16:22
Т. е. команда для мейлрушного бота должна выглядеть как я написал - если вы хотите ему запретить сканить всё на сайте.
нет, мейлру разрешить все
точнее сделал как гуглу, только rss и feed удалил, т.к. нужна лента майлу
хотя яндекс сам пишет

Код
User-agent: Yandex
Crawl-delay: 2.0 # задает тайм-аут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 1.5 # задает тайм-аут в 1.5 секунды
 
Цитата
sharkson пишет:
Проверьте файл роботс на ошибки через Вебмастер Яндекса и гугла.

нет ошибок и предупреждений
Цитата
Zhezkazganetcs пишет:
нет, мейлру разрешить все
точнее сделал как гуглу
Тогда можно продублировать тоже что и гуглу - заменив название бота на нужное.
Цитата
sharkson пишет:
Тогда можно продублировать тоже что и гуглу - заменив название бота на нужное.
да, я уже сделалтеперь наблюдать буду
но вроде немного Отфильтрованы по статистическим правилам затормозилось
Проще конечно вспомнить время и посмотреть когда были всплески нагрузки в панели хостера. Потом поискать по логам доступа - какая сволочь это вызвала. И забанить ее по агенту и\или по айпи.
время почему то обеденное
где эти логи могут быть? в какой категории или

ответ хостера

Код
Видим, что нагрузка на хостинг создается при обращении к файлу index.php сайта site.ru
ххххх 2401604 12.5 0.0 390476 52536 ? Rs 10:26 0:01 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401629 12.8 0.0 390476 52864 ? Rs 10:26 0:01 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401756 14.1 0.0 388428 51576 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401825 14.2 0.0 388172 50920 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401844 13.4 0.0 384468 47124 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402084 16.0 0.0 373456 36692 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402118 13.0 0.0 369576 32336 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402202 15.0 0.0 365260 27944 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php

Фиксируем следующие обращения к вашему сайту:

693 141.8.142.34
664 5.45.207.33
630 178.154.171.88
530 5.45.207.67
429 141.8.132.40
330 94.245.133.48
290 213.180.203.19
260 93.157.45.114
225 18.233.194.247
213 66.249.92.130


пока написал хостеру, чтобы подсказал где это все искать и смотреть, но пока ответа нет
Цитата
Zhezkazganetcs пишет:
ложат сайт, что появляется 508 ошибка
как решить проблему?
Вариант приобретения нормального хостинга был? smile:)
Самый быстрый хостинг на SSD. Месяц в подарок. Поддержка 24/7. Помощь в переезде.

Передовое сообщество вебмастеров. Тебе к нам!
Цитата
Zhezkazganetcs пишет:
693 141.8.142.34
664 5.45.207.33
630 178.154.171.88
530 5.45.207.67
429 141.8.132.40
330 94.245.133.48
290 213.180.203.19
260 93.157.45.114
225 18.233.194.247
213 66.249.92.130

7 из 10 ip  в этом списке принадлежат яндекс ботам.




Цитата
Zhezkazganetcs пишет:
Код
 Видим, что нагрузка на хостинг создается при обращении к файлу index.php  
Что за CMS у вас или самопис?
Попробуйте с кэшированием поэксперементировать... да и о смене хостинга как сказано выше может стоить подумать smile:)
Цитата
Артем Малков пишет:
Вариант приобретения нормального хостинга был? smile:)
хостинг самый лучший в беларуси!

Цитата
MrLexKo пишет:
Что за CMS у вас или самопис?

wordpress + WP Super Cache
проблема началась недели 2 назад, когда начали активно посещать роботы
Цитата
Zhezkazganetcs пишет:
проблема началась недели 2 назад , когда начали активно посещать роботы
Когда роботы Яндекса кладут сайт - это ненормальная ситуация и так быть не должно. Не знаю что у вас за хостинг, но у меня на сайтах боты поисковиков посещают очень часто, с одного вообще не вылазят. Никогда не было чтобы какие-либо боты клали сайт.
Страницы: Пред. 1 2 3 След.
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
21:57 Как собрать семантическое ядро!? Словоеб не парсит. 
21:03 Не понятный УРЛ 
17:43 AdBean.ru - Бобовая тизерная сеть. Новостные и товарные тизеры. До 90% отчислений! 
14:45 17.11 АЯВ | Влияет ли реклама у Яндекса на продвижение сайта в Яндексе? 
13:58 Нет посетителей 
13:20 Продвижение в ТОП Яндекс. Мега быстро! 
10:51 Аффилиаты сайта 
19:11 Проставлю Upvoted на ваши посты в Reddit 
18:24 Proxywhite прокси ipv4/ipv6 индивидуальные оптом 
15:59 Софт на заказ 
15:54 Вечные ссылки с ТОПОВЫХ ресурсов! Размещение вечных трастовых ссылок с тИЦ от + 1000 до +45000 
14:19 Продвину сайт качественными ссылками. Рост посещаемости, позиций и ИКС. Крауд ссылки недорого + скидки. 
13:15 Продам Каналы на Яндекс.Дзен 
08:29 Мастер шаблона размножения статей + Ручной синонимизатор-рерайтер 
21:28 Городской сайт объявлений 
17:28 Моральный отдых 
13:47 Самый современный в мире, новейший веб-каталог | Цифровая сторона вашего сайта 
23:17 Обмен новостным трафиком 
02:09 Все хотят украсть мой трастовый аккаунт ВК 
20:12 Приведу живых участников к Вам в группу ВК от 1.5 р. за участника 
19:41 Монетизация молодого сайта