Дублирование контента
Страницы: 1
Дублирование контента
Расширенный поиск яндекса показывает в выдаче одну статью 7 раз!  почти все с разным урлом. Как копии поубирать-то? Чем это грозит для сайта?  (работает на джумле)

на главной есть 5-6 статей в виде привью, нажимая на кнопку "продолжение" можно дочитать их. Может из-за этого копии создаются?  Главная тянется на 4-5 страниц.

И как мне определить какую именно статью, с каким урлом все таки оставить?

Заранее всем спасибо smile:)
Цитата
Koza Moza пишет:
Чем это грозит для сайта?
Худшей индексацией. Контент перестаёт быть уникальным. Как-то так...
Цитата
Евгений Ерёмин пишет:
Цитата
Koza Moza пишет:
Чем это грозит для сайта?
Худшей индексацией. Контент перестаёт быть уникальным. Как-то так...

Подскажите, что с ним делать?  как удалить и запретить дублировать?
Koza Moza, то что повторяется часть контента на главной, ничего страшного, просто не выводите на нее слишком много информации.
Как скрыть? работайте с robots.txt, для проблемы дублирования контента - хватит.
А вот какой именно роботс вам нужен - это уже от многого зависит, например чпу, и набора установленных компонентов (кроме xmap). Например, для j2.5 без сторонних компонентов, c чпу, подойдет примерно такой роботс:


Код
 User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /*option=com_*
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*lang=ru
Disallow: /*format=
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*user/
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss   
Host: http://qwerty.ru/
 
Sitemap: <a href=\"http://qwerty.ru/index.php?option=com_xmap&sitemap=1&view=xml\" target=\"_blank\">http://qwerty.ru/index.php?option=com_xmap&sitemap=1&view=xml</a>
В некоторых источниках указывают, что яша любит когда в роботсе указаны инструкци специально для него, т.е. user-agent: YandexЛично я на своих проектах такого не замечал.
после смены роботса придется подождать около месяца до окончательных результатов, т.е. несколько апов.
Цитата
Олег Евгеньевич пишет:
В некоторых источниках указывают, что яша любит когда в роботсе указаны инструкци специально для него, т.е. user-agent: YandexЛично я на своих проектах такого не замечал.
после смены роботса придется подождать около месяца до окончательных результатов, т.е. несколько апов.

Огромное спасибо за такой подробный ответ. Почитаю об этом подробнее, а то тяжело понять для начала ))
Цитата
Олег Евгеньевич пишет:
яша любит когда в роботсе указаны инструкци специально для него
Заходим в Вебмастер - Настройки Индексирования - Роботс - Проверить роботс. Смотрим как и что ему нравится или не нравится. 

Если все окей - Значит все окей. 

Да и как он может нравится или не нравится? 
Он либо закрывает страниц, либо не закрывает.
Может ругаться на роботс если в нем заперещены страницы замеченные в сайтмапе  ...smile:)
Цитата
JOK3R. пишет:
Цитата
Олег Евгеньевич пишет:
яша любит когда в роботсе указаны инструкци специально для него
Заходим в Вебмастер - Настройки Индексирования - Роботс - Проверить роботс. Смотрим как и что ему нравится или не нравится.

Если все окей - Значит все окей.

Да и как он может нравится или не нравится?
Он либо закрывает страниц, либо не закрывает.
этот вариант хороший ) спс так и сделаю
А может просто canonical поставить с указанием оригинала?
Консультации по СЕО: помогу сделать СДЛ, помогу избавиться от фильтра. Стучитесь в личку!

Шикарный VPN
Цитата
Анастасия Приходько пишет:
А может просто canonical поставить с указанием оригинала?

а можно поподробнее )
У меня похожая ситуация, странички в разделах цепляли хвосты к url, страница одна, а пс находит до 2-3 страниц. По началу это было не заметно, но по мере продвижения число страниц в вебмастере стало расти.
Но пессимизации пс я не заметил. Ошибку исправил, затем исправил системап, но в вебмастере яндекс они не исчезают вот уже третий месяц. Дело в том, что по всем урлам робот всё равно находит страничку. И ему всё равно, что эта страница уже есть. Как её убить сам гадаю наверно всё же искать способы через вебмастер.
С гуглом ещё интереснее, он находит в разы больше страниц. Как даже приблизительно не знаю, но как он сам объясняет "Это бывает когда на страничку можно зайти по разным урлам, система при этом показывает только один вариант, если вы хотите указать главный вариант запретите остальные через панель вебмастера" Но при этом он не говорит какие это урлы он находит предлагая вводить их на удачу.
В общем серьёзных проблем нет, но ели вы начнёте что то продавать через sape. Сапорбот может схватить только один вариант, причём не основной, а при последующих сканированиях урлы и там начнут множиться. С этого момента ваши страницы начнут отличатся наличием на них ссылок.
Цитата
Koza Moza пишет:
Цитата
Анастасия Приходько пишет:
А может просто canonical поставить с указанием оригинала?

а можно поподробнее )
Почитайте вот тут: http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=139394
К стате удалить через вебмастер не удалось, вот ответ:
Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex.
Хотя в  robots.txt  урл запрещён, похоже дело в том, что бот всё равно находит работающую страничку, а запретить я могу только сразу все версии.
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
06:34 Гугл пухнет от кеша, а нам - крошки. Разбор $114 млрд: Адсенс в минусе, Ютуб на подписках 
06:17 01.02. Апдейт 31.01 // Chrome готовит "чёрную метку" для ИИ? 
01:09 Yahoo Scout: Нейро-привет из склепа. Реальный шанс на траф или мимо? 
17:33 AntiBot Cloud - бесплатный скрипт и сервис защиты сайтов 
15:14 Апдейт Яндекса 7 февраля. Пока серп трясет, некоторые по ботам плачут 
15:10 Google Discover Core Update: Дискавер отделяют от поиска? 
11:30 ЕС душит ТикТок: прощай бесконечная лента и RPM? Что с монетизацией? 
10:22 Swapwatch.org — Мониторинг криптовалютных обменников 
10:19 SwapPix.io - быстрый и безопасный обменник криптовалют. 
15:12 CryptoGraph — Анонимный обмен криптовалют без KYC и AML 
12:38 Bankomat001 - Сервис обмена электронных валют 
10:42 Рассылки СМС/SMS, Вайбер/Viber, Ватсап/Whatsapp, Телеграм/Telegram любой тематики по всему миру 
09:36 Мониторинг обменников Сrypto-scout.io 
05:29 Продам обменник криптовалюты, а также новый обменник под ключ с обучением. Скидки на скрипты обменника 
07:51 Гильотина для классиков: Клод доедает физические книги 
06:04 Кулеры и БП станут золотыми? Медь по 13 штук, олово в космосе 
05:09 Точные прогнозы на футбол 
23:45 Ставки на супер тренды в спорте 
18:56 Moltbook: Соцсеть для ботов, где людям закрыли рот. Началось? 
22:31 [AI] Бот за $600к советовал есть сыр с крысами. Нью-Йорк его (наконец-то) снес 
13:38 Осталось 3-5 месяцев до блокировки YouTube в России, — заявил Клименко