Если страницы не заходят в индекс или висят там частично, чаще всего проблема не в контенте, а в базе, и в первую очередь стоит посмотреть robots.txt и sitemap, там обычно и зарыта причина.
По robots.txt логика простая, не нужно закрывать все подряд, часто вижу как под нож идут целые разделы, хотя закрывать стоит только техничку, админку, фильтры и дубли, а основные страницы должны быть доступны без ограничений, плюс важно проверить, нет ли случайных запретов после старых правок. Еще момент с директивами, иногда файл есть, но настроен так, что бот видит сайт не так, как вы ожидаете, поэтому лучше прогнать через проверку и посмотреть, как его читает робот.
С sitemap похожая история, его делают для галочки, но он должен содержать только те страницы, которые реально нужно индексировать, без мусора и дублей, и при этом обновляться, если на сайте появляется новый контент. Важно, чтобы карта сайта совпадала с тем, что открыто в robots.txt, потому что бывает ситуация, когда в sitemap страницы есть, а robots их закрывает, и получается конфликт.
И еще нюанс. Даже при правильных настройках, если страница глубоко зарыта или на нее нет внутренних ссылок, бот может до нее доходить долго, поэтому базовая перелинковка тоже влияет, хоть напрямую в robots и sitemap это не видно.
Если коротко.
robots.txt - не закрываем лишнего.
sitemap - добавляем только нужное и следим за актуальностью.
страницы - должны быть доступны и связаны между собой.
Кто на практике ловил проблемы именно из-за этих двух файлов, а не из-за контента или ссылок?
По robots.txt логика простая, не нужно закрывать все подряд, часто вижу как под нож идут целые разделы, хотя закрывать стоит только техничку, админку, фильтры и дубли, а основные страницы должны быть доступны без ограничений, плюс важно проверить, нет ли случайных запретов после старых правок. Еще момент с директивами, иногда файл есть, но настроен так, что бот видит сайт не так, как вы ожидаете, поэтому лучше прогнать через проверку и посмотреть, как его читает робот.
С sitemap похожая история, его делают для галочки, но он должен содержать только те страницы, которые реально нужно индексировать, без мусора и дублей, и при этом обновляться, если на сайте появляется новый контент. Важно, чтобы карта сайта совпадала с тем, что открыто в robots.txt, потому что бывает ситуация, когда в sitemap страницы есть, а robots их закрывает, и получается конфликт.
И еще нюанс. Даже при правильных настройках, если страница глубоко зарыта или на нее нет внутренних ссылок, бот может до нее доходить долго, поэтому базовая перелинковка тоже влияет, хоть напрямую в robots и sitemap это не видно.
Если коротко.
robots.txt - не закрываем лишнего.
sitemap - добавляем только нужное и следим за актуальностью.
страницы - должны быть доступны и связаны между собой.
Кто на практике ловил проблемы именно из-за этих двух файлов, а не из-за контента или ссылок?
