Как я парсил информацию с известного тур. сайта
Страницы: 1
Как я парсил информацию с известного тур. сайта, и смех и грех
Понадобилось мне собрать некоторую определенного рода инфу, нашел сайт, где она в максимально удобном виде (вебмастер там явный неадекват, ужас что творится в исходниках страниц, прям так и хочется бревном по башке дать, если бы не прямая мне выгода от его безграмотности). CMS битрикс. Инфа прям на полочках лежит, прям поля подписаны комментариями в исходнике, даже для тех полей, для которых значения для определенной страницы отсутствуют - есть комментарий, что оно там располагалось бы. Вообщем - находка для парсинга. Не стал бросаться в крайности с екселями и зенками, яжумамыпрограммист, решил не менять текущий темп работы и принялся руками на пхп ковырять всё это дело. Смотрим в анализаторы - в индексе около 20 тысяч страниц. Нормально! Мне это "за глаза"! Сайтмап отсутствует на нужном месте и не прописан в роботсе. Не беда, юзаем ксену, сами вытащим список страниц.
Ставим фильтр на технические страницы и картинки и поехали! Через час примерно Xenu радостно надыбала 128 тысяч страниц! Не больше не меньше. Как так? Разбираемся: превращаем сайтмап в список страниц, смотрим беглым взглядом - мусора много, шаблонного. Залезли какие-то непонятные генерируемые битриксой по фиг знает какой логике адреса, переход по которым вообще никуда не ведет, даже на 404 smile:) . Наблюдаем закономерности, фильтруем. Остается 35 тысяч страниц. Мне нужны страницы с данными, проверяю на дубли - страницы дублируются несколько раз под разными адресами. Блин... Замутил сравнивалку, отфильтровал одинаковое. 7000 страниц на выходе. Анализирую дальше - много страниц archive с убитыми ключевыми данными (адреса). Фильтруем - 5000 страниц на выходе. Но почему-то на некоторых страницах данные снова дублируются - смотрю, а это тупо подзапросная шелуха! Или в некоторых CMS так теги вылазят. Т.е. есть 10 объектов чего-нибудь, получаем из них: 10 нормальных полновесных страниц, страницу с их списком и ещё 20-30 страниц с этим же списком, но с измененным описанием и порядком сортировки объектов. И Всё это дело в индексе! Я в афиге, фильтрую эти списки для получения чистой выжимки и получаю... 2000 нормальных значимых страниц. 2000, Карл! При этом в индексе 20 000, а всего 120 000 без картинок и шелухи. Сайт отлично видим в поиске, имеет огромную (для меня) посещалку в такой тематике. Многое понял, моя жизнь теперь никогда не будет прежней...


Это было сочинение на тему "Как я провел одну летнюю ночь" smile;)
Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.
Да, после такого невольно захочется махнуть коньяку и закусить чем-нибудь.
Битрикс у меня вызывает дрожь и пот.
Я давно понял что такое яндекс, когда создал 1 сайт и сделал три его клона на других доменах, затем смотрел, как посещалка то росла то падала то на одном то на другом) причем нехилая посещалка.
Да черт его знает. На последнем сайте Яндекс скушал 38000 страниц, в индексе было около 8000 стр., сейчас 5700 стр. И всего 3 стр. - 404 причем ссылки остались от предыдущего владельца домена - стоял другой движок и они имеют другой вид. Никак я их не прибью. И еще примерно 11 000 стр. я сам закрыл от индексации.
Изменено: sharkson - 7 Июля 2016 04:56
Цитата
Krol пишет:
Я давно понял что такое яндекс, когда создал 1 сайт и сделал три его клона на других доменах
smile:) Есть такое дело. Взяли на вооружение или забросили это дело?
У меня есть клиенты которые заплатили немеренные деньги своей бригаде сеошников и програмистов, чтобы они сделали качественный сайт, по всем правилам Яндекса.
Так вот самое забавное сателлит (откровенный ГС) который я им продал, чтобы он осуществлял функцию сателита для главного сайта.
Находится выше в выдаче, чем главный сайт, как утверждает клиент абсолютно по всем запросам.
Свой сайт отвечающий всем правилам яндекса выше второй страницы не подымался

Я давно в каждой теме о АПе яндекса твержу. Яндекс *амно у которого алгоритмы работают через одно место.

Не нужно бояться о дублях и прочей шолухе он это хавает на раз, два.

Такое ощущение, что яндекс считает, что самый лучший сайт это сайт сделанный некомпетентным вебмастером (этого некомпетентного вебмастера яндекс считает за любителя), якобы только любитель не будет продвигать сайт левыми методами (так как любитель и ничего не понимает в этом) поэтому и выставляет его на верхние позиции
Цитата
span4bob пишет:
Такое ощущение, что яндекс считает, что самый лучший сайт это сайт сделанный некомпетентным вебмастером (этого некомпетентного вебмастера яндекс считает за любителя), якобы только любитель не будет продвигать сайт левыми методами (так как любитель и ничего не понимает в этом) поэтому и выставляет его на верхние позиции
Не думаю) На яндекс работают десятки/сотни классных спецов - неужто они хуже других разбираются?

Думается, причина в том, что этих самых требований в действительности, не знает никто (кроме яндекса).
И когда делают сайт "по всем канонам", то влепляют туда столько искусственного и неправильного, что отдает "химией".

С другой стороны, если делается сайт, где все, что априори, на своем месте и без излишеств (футер внизу, заголовок вверху) и т.д.), то сайт естественнее, чем супер-пупер оптимизированный.

Второй вопрос - что дает реально сайт пользователю - классный ресурс, дорогой, на котором найти нужное в ворохе всего правильно сложно - кому нужен?

Плохо оформленный (не модно) сайт, дающий бОльше нужного - предпочтительней. И не важно, копипаст или еще что... Не?)
Цитата
Coder пишет:
И не важно, копипаст или еще что... Не?)
У меня один из сайтов - 70% копипаст, 30% рерайт и копирайт. В выдаче Я и Г по всем ключам, кроме одного он на 2-6 месте, по одному ключу уехал на 2 стр. Яндекса. Но, трафик уже год примерно выше 100 чел. в сутки не подмается, чтобы я не делал. И дело не в копипасте. Онлайн-кинотеатры с копипастным контентом имеют и 1000-2000 чел.\сутки и намного больше.
В чем дело понять не могу, 2 анализатора (человека) ничего не смогли подсказать, кроме как поправить примерно 20 ошибок верстки - о которых я и так знаю.
И что надо его наполнять уник. контентом. Но, новостник наполнять уником тяжело.
Цитата
span4bob пишет:
Я давно в каждой теме о АПе яндекса твержу. Яндекс *амно у которого алгоритмы работают через одно место.
поддерживаю
No pain, no gain
Цитата
sharkson пишет:
Цитата
Coder пишет:
И не важно, копипаст или еще что... Не?)
Но, трафик уже год примерно выше 100 чел. в сутки не подмается, чтобы я не делал. 
Такая же беда(((
Всегда удивлялся крикам из апдейтовых тем, мол 100500 страниц залетело. Вон оно чё!
Starik, многие тут просто  берут количеством копипастом синонимайзом и т.д в большинстве это те кто с комерчискими не работал гг
создание продвижение сайтов ! качество и доступная цена
serogo evgo, против ничего не имею. ) Если это сделано с умыслом, трафик оправдывает себя? Что если дубли проспамить или прогнать по соц.сетям - долго пробудут в выдаче с хорошими ПФ, проверяли?
Изменено: Starik - 8 Июля 2016 00:20
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
19:48 Стоит ли добавлять сайт в Rambler топ 100? 
17:53 Влияет ли кодировка на индексацию позиции в поиске? 
17:32 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 
14:51 Adtrafico - Правильная партнёрская сеть под бурж трафик 
14:03 Партнерская программа OWNR WALLET 
20:48 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 
11:59 2Index - быстрая индексация страниц сайта и обратных ссылок 
18:59 Сервис валидации e-mail баз 
18:37 Ural-obmen.ru — выгодный сервис обмена 
18:18 Obama.ru - безопасный обмен криптовалют и электронных денежных средств 
17:28 Мобильные и Резидентные Прокси Для Соц Сетей | 3 Гб Бесплатно 
11:00 SpeedyIndex - ускорение индексирования ссылок в Google. 100 ссылок в подарок. 
10:41 Coin Click.cc - Быстрый и надежный обмен электронных валют в два клика 
22:18 SwapPix.io - быстрый и безопасный обменник криптовалют. 
17:22 Точные прогнозы на футбол 
21:12 Каспкрски ОС 
22:58 У меня дикая просадка по РСЯ за последние 3 суток 
21:51 Linux - это максимальная свобода 
21:33 Ням-ням! - 8 деликатесов, которые когда-то ели только бедные люди 
14:38 Продажи российских компьютеров в РФ выросли вдвое 
12:29 Карпаты