Откуда берутся дубликаты статей?
Страницы: 1
Откуда берутся дубликаты статей?, Как избавиться от дубликатов статей?
Тема возникла из наблюдений за анализом своего сайта. Никак не могла понять, почему у меня на сайте порядка тысячи статей, а Гугл индексирует четыре тысячи с лишним. А когда заглянула, чем Яндекс занимается, вообще офонарела - больше восьми тысячи статей загружено роботом. И ни одной не показано. Понятно, что-то я там наколбасила и терпение Яндекса лопнуло.

Теперь нужно выяснить, почему так много дубликатов.

С тэгами я разобралась. Чем больше под материалом тэгов, тем больше будет дубликатов. Чтобы этого избежать, запретила индексацию тэгов. Хорошо это или плохо, пока не знаю, понаблюдаю, скажу.

Дубликаты в вордпрессе появляются еще и при анонсах статей, + каталоги и рубрики. Как я понимаю, все это надо запрещать к индексации.

Но все же мне непонятно. Я вчера выкинула чуть ли не три тысячи меток, а число проиндексированных статей уменьшилось всего на 120. Правда, из под-фильтра было выведено 12%. Значит, эффект все же есть?
Я знала, что вордпресс делает дубликаты статей, но чтобы столько! smile:(
Мне стало интересно, по каким ссылкам, где можно будет увидеть, допустим, мой материал "Правильный robots.txt для WordPress"? При условии, что он будет помещен в категорию "Моя web-мастерская" в раздел "Индексация сайта". Метка у этого материала такая же - индексация сайта. Итак, поехали.

1. Анонс статьи на главной - URL САЙТА/ Кликнув на ссылку "Читать далее", мы увидим его полный адрес http://olejnikova.ru/2011/01/03/pravilnyj-robots-txt-dlya-wordpress/ Когда его вытеснят другие материалы, он "переползет" на вторую страницу, на третью и так далее, то есть найти этот материал можно будет по адресу URL САЙТА/page/№страницы/

2. Анонс статьи в категории "Моя веб-мастерская" http://olejnikova.ru/category/webworkshop/. Как и в предыдущем варианте, при появлении новых материалов, этот будет оттеснен на страницы и найти его можно будет по адресу URL САЙТА/category/webworkshop/page/№ страницы/

3. Анонс статьи в разделе (рубрике-подкатегории - назвать можно как угодно, но понятно, что при древовидной системе меню, это тот раздел, который находится на ступеньку ниже категории), который я назвала "Индексация сайта" URL САЙТА/category/webworkshop/subscripting-the-site/ Ситуация с новыми материалами аналогична предыдущим - материал здесь тоже прописывается навсегда, лишь со временем он уходит все дальше и дальше вглубь сайта, меняя номер страницы. Адрес, где его можно будет увидеть, такой: URL САЙТА/category/webworkshop/subscripting-the-site/page/№ страницы/

4. Анонс статьи в Календаре. Если я поставлю виджет "Календарь", то смогу найти эту статью по адресу URL САЙТА/2011/01/03/

5. Анонс статьи в Архиве. При установке виджета "Архив", появится список по месяцам и эту статью можно будет увидеть по адресу URL САЙТА/2011/01/

6. Анонс статьи в Комментариях: URL САЙТА/2011/01/03/pravilnyj-robots-txt-dlya-wordpress/#respond

7. Анонс статьи в Ленте новостей (RSS записей) URL САЙТА/feed/

8. Анонс статьи в комментариях к Ленте новостей URL САЙТА/comments/feed/

9. Анонс статьи по тэгу (чем больше будет под статьей тэгов,тем больше будет дубликатов) http://olejnikova.ru/tag/indeksaciya-sajta/ Я раньше думала, если к материалу поставить несколько меток, то это ох как здорово. А когда увидела, что стоит нажать на такую метку, как увидишь свой материал, а если этих меток много, то материал будет показан по каждой, то сразу поняла, почему мои страницы разрастаются в геометрической прогрессии.

10. Полный текст по результатам поиска URL САЙТА/?s=%D0%9F%D1%80%D0%B0%D0%B2%D0%B8%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+robots.txt+%D0%B4%D0%BB%D1%8F+WordPress

Ссылки на этот материал будут также в Карте сайта сразу в двух местах - в категории "Моя web-мастерская" и подкатегории "Индексация сайта"

Во всех случая, пройдя по ссылке "Читать далее", вы увидите полный текст страницы по адресу URL САЙТА/2011/01/03/pravilnyj-robots-txt-dlya-wordpress/#more-10898

Вполне допускаю, что статья может появиться еще где-то, но пока я нашла только такие варианты.
Теперь нужно определить, что из всего этого "добра" можно оставить и дать возможность поисковикам проиндексировать, а что нужно закрыть от индексации в обязательном порядке. Принцип "чему больше, тем лучше", тут не катит, большое количество дублированных материалов не нравится ни Гуглу, ни Яндексу и они делают все, чтобы закрыть все лазейки, позволяющие сайтам тиражировать одну и ту же статью по разным адресам.
Страницы: 1
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
21:27 ИИ врёт, но ему всё равно верят. Что это значит для сайтов и трафика 
19:21 Заказал "положить сайт" а положили тебя? Полиция добралась до клиентов DDoS-сервисов 
19:17 Штрафы за крипту до 2 млн + ап Яндекса 19 апреля - что опять поменяли и куда всё катится? 
17:35 Заходишь на сайт, а там уже левые товары вместо контента. Новый тип SEO-взлома уже в деле? 
17:25 Скан глаза для Zoom и Tinder + ап Яндекса 21 апреля. К этому реально всё идёт? 
16:53 В Яндексе позиции держатся, а трафик проседает - стало заметно сильнее 
15:02 Claude по паспорту + апдейт Яндекса 17 апреля - у кого что по выдаче 
18:46 buyingproxy.com | $0.95/GB Residential Proxies - 80M+ IPs | No Bandwidth Expiry 
18:10 UltraXchina: Современный сервис обмена Alipay, USDT, Наличные 
17:38 YoChange.com - Ваш лучший помощник в обмене цифровых валют! 
14:52 Прошу оценить сайт 
13:56 Owlchange.com — сервис обмена криптовалют с выплатами в фиат 
13:39 Вериф аккаунты АВИТО + платежи 
10:26 Мониторинг обменников Сrypto-scout.io 
00:15 Ставки на супер тренды в спорте 
00:07 Точные прогнозы на футбол 
23:19 Хочешь чат в PlayStation? Покажи лицо. Как нас постепенно привязывают к личности 
21:31 ЕС сделал проверку возраста, а её уже ломают за минуты. Серьёзно? 
17:20 Список обновленных тем пуст... 
19:57 Во Франции начали штрафовать за IPTV - до 300-400 евро уже прилетает обычным пользователям 
17:02 арбитражники