Понадобилось мне собрать некоторую определенного рода инфу, нашел сайт, где она в максимально удобном виде (вебмастер там явный неадекват, ужас что творится в исходниках страниц, прям так и хочется бревном по башке дать, если бы не прямая мне выгода от его безграмотности). CMS битрикс. Инфа прям на полочках лежит, прям поля подписаны комментариями в исходнике, даже для тех полей, для которых значения для определенной страницы отсутствуют - есть комментарий, что оно там располагалось бы. Вообщем - находка для парсинга. Не стал бросаться в крайности с екселями и зенками, яжумамыпрограммист, решил не менять текущий темп работы и принялся руками на пхп ковырять всё это дело. Смотрим в анализаторы - в индексе около 20 тысяч страниц. Нормально! Мне это "за глаза"! Сайтмап отсутствует на нужном месте и не прописан в роботсе. Не беда, юзаем ксену, сами вытащим список страниц.
Ставим фильтр на технические страницы и картинки и поехали! Через час примерно Xenu радостно надыбала 128 тысяч страниц! Не больше не меньше. Как так? Разбираемся: превращаем сайтмап в список страниц, смотрим беглым взглядом - мусора много, шаблонного. Залезли какие-то непонятные генерируемые битриксой по фиг знает какой логике адреса, переход по которым вообще никуда не ведет, даже на 404 . Наблюдаем закономерности, фильтруем. Остается 35 тысяч страниц. Мне нужны страницы с данными, проверяю на дубли - страницы дублируются несколько раз под разными адресами. Блин... Замутил сравнивалку, отфильтровал одинаковое. 7000 страниц на выходе. Анализирую дальше - много страниц archive с убитыми ключевыми данными (адреса). Фильтруем - 5000 страниц на выходе. Но почему-то на некоторых страницах данные снова дублируются - смотрю, а это тупо подзапросная шелуха! Или в некоторых CMS так теги вылазят. Т.е. есть 10 объектов чего-нибудь, получаем из них: 10 нормальных полновесных страниц, страницу с их списком и ещё 20-30 страниц с этим же списком, но с измененным описанием и порядком сортировки объектов. И Всё это дело в индексе! Я в афиге, фильтрую эти списки для получения чистой выжимки и получаю... 2000 нормальных значимых страниц. 2000, Карл! При этом в индексе 20 000, а всего 120 000 без картинок и шелухи. Сайт отлично видим в поиске, имеет огромную (для меня) посещалку в такой тематике. Многое понял, моя жизнь теперь никогда не будет прежней...
Это было сочинение на тему "Как я провел одну летнюю ночь"
Ставим фильтр на технические страницы и картинки и поехали! Через час примерно Xenu радостно надыбала 128 тысяч страниц! Не больше не меньше. Как так? Разбираемся: превращаем сайтмап в список страниц, смотрим беглым взглядом - мусора много, шаблонного. Залезли какие-то непонятные генерируемые битриксой по фиг знает какой логике адреса, переход по которым вообще никуда не ведет, даже на 404 . Наблюдаем закономерности, фильтруем. Остается 35 тысяч страниц. Мне нужны страницы с данными, проверяю на дубли - страницы дублируются несколько раз под разными адресами. Блин... Замутил сравнивалку, отфильтровал одинаковое. 7000 страниц на выходе. Анализирую дальше - много страниц archive с убитыми ключевыми данными (адреса). Фильтруем - 5000 страниц на выходе. Но почему-то на некоторых страницах данные снова дублируются - смотрю, а это тупо подзапросная шелуха! Или в некоторых CMS так теги вылазят. Т.е. есть 10 объектов чего-нибудь, получаем из них: 10 нормальных полновесных страниц, страницу с их списком и ещё 20-30 страниц с этим же списком, но с измененным описанием и порядком сортировки объектов. И Всё это дело в индексе! Я в афиге, фильтрую эти списки для получения чистой выжимки и получаю... 2000 нормальных значимых страниц. 2000, Карл! При этом в индексе 20 000, а всего 120 000 без картинок и шелухи. Сайт отлично видим в поиске, имеет огромную (для меня) посещалку в такой тематике. Многое понял, моя жизнь теперь никогда не будет прежней...
Это было сочинение на тему "Как я провел одну летнюю ночь"
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.