Как я парсил информацию с известного тур. сайта

Как я парсил информацию с известного тур. сайта, и смех и грех

Сообщений: 22225 Регистрация: Май 2011

7 Июля 2016 04:20

Понадобилось мне собрать некоторую определенного рода инфу, нашел сайт, где она в максимально удобном виде (вебмастер там явный неадекват, ужас что творится в исходниках страниц, прям так и хочется бревном по башке дать, если бы не прямая мне выгода от его безграмотности). CMS битрикс. Инфа прям на полочках лежит, прям поля подписаны комментариями в исходнике, даже для тех полей, для которых значения для определенной страницы отсутствуют - есть комментарий, что оно там располагалось бы. Вообщем - находка для парсинга. Не стал бросаться в крайности с екселями и зенками, яжумамыпрограммист, решил не менять текущий темп работы и принялся руками на пхп ковырять всё это дело. Смотрим в анализаторы - в индексе около 20 тысяч страниц. Нормально! Мне это "за глаза"! Сайтмап отсутствует на нужном месте и не прописан в роботсе. Не беда, юзаем ксену, сами вытащим список страниц.
Ставим фильтр на технические страницы и картинки и поехали! Через час примерно Xenu радостно надыбала 128 тысяч страниц! Не больше не меньше. Как так? Разбираемся: превращаем сайтмап в список страниц, смотрим беглым взглядом - мусора много, шаблонного. Залезли какие-то непонятные генерируемые битриксой по фиг знает какой логике адреса, переход по которым вообще никуда не ведет, даже на 404 smile:)

. Наблюдаем закономерности, фильтруем. Остается 35 тысяч страниц. Мне нужны страницы с данными, проверяю на дубли - страницы дублируются несколько раз под разными адресами. Блин... Замутил сравнивалку, отфильтровал одинаковое. 7000 страниц на выходе. Анализирую дальше - много страниц archive с убитыми ключевыми данными (адреса). Фильтруем - 5000 страниц на выходе. Но почему-то на некоторых страницах данные снова дублируются - смотрю, а это тупо подзапросная шелуха! Или в некоторых CMS так теги вылазят. Т.е. есть 10 объектов чего-нибудь, получаем из них: 10 нормальных полновесных страниц, страницу с их списком и ещё 20-30 страниц с этим же списком, но с измененным описанием и порядком сортировки объектов. И Всё это дело в индексе! Я в афиге, фильтрую эти списки для получения чистой выжимки и получаю... 2000 нормальных значимых страниц. 2000, Карл! При этом в индексе 20 000, а всего 120 000 без картинок и шелухи. Сайт отлично видим в поиске, имеет огромную (для меня) посещалку в такой тематике. Многое понял, моя жизнь теперь никогда не будет прежней...

Это было сочинение на тему "Как я провел одну летнюю ночь" smile;)

Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.

sharkson

Сообщений: 5425 Регистрация: Янв 2014

7 Июля 2016 04:26

Да, после такого невольно захочется махнуть коньяку и закусить чем-нибудь.

НАДЕЖНЫЙ И НЕДОРОГОЙ ХОСТИНГ ТУТ
НЕДОРОГОЙ ХОСТИНГ
ПРОДАМ БЛОГ ЖЖ
СОЗДАНИЕ И НАСТРОЙКА MediaWiki и phpbb3

sharkson

Сообщений: 5425 Регистрация: Янв 2014

7 Июля 2016 04:26

Битрикс у меня вызывает дрожь и пот.

Krol

Сообщений: 9670 Регистрация: Сен 2012

7 Июля 2016 04:45

Я давно понял что такое яндекс, когда создал 1 сайт и сделал три его клона на других доменах, затем смотрел, как посещалка то росла то падала то на одном то на другом) причем нехилая посещалка.

Продвижение, Аудит, Оптимизация сайтов.

sharkson

Сообщений: 5425 Регистрация: Янв 2014

7 Июля 2016 04:55

Да черт его знает. На последнем сайте Яндекс скушал 38000 страниц, в индексе было около 8000 стр., сейчас 5700 стр. И всего 3 стр. - 404 причем ссылки остались от предыдущего владельца домена - стоял другой движок и они имеют другой вид. Никак я их не прибью. И еще примерно 11 000 стр. я сам закрыл от индексации.

Изменено: sharkson - 7 Июля 2016 04:56

Дивергент

Сообщений: 22225 Регистрация: Май 2011

7 Июля 2016 06:00

Цитата
Krol пишет: Я давно понял что такое яндекс, когда создал 1 сайт и сделал три его клона на других доменах

Есть такое дело. Взяли на вооружение или забросили это дело?

span4bob

Сообщений: 6461 Регистрация: Апр 2013

7 Июля 2016 10:36

У меня есть клиенты которые заплатили немеренные деньги своей бригаде сеошников и програмистов, чтобы они сделали качественный сайт, по всем правилам Яндекса.
Так вот самое забавное сателлит (откровенный ГС) который я им продал, чтобы он осуществлял функцию сателита для главного сайта.
Находится выше в выдаче, чем главный сайт, как утверждает клиент абсолютно по всем запросам.
Свой сайт отвечающий всем правилам яндекса выше второй страницы не подымался

Я давно в каждой теме о АПе яндекса твержу. Яндекс *амно у которого алгоритмы работают через одно место.

Не нужно бояться о дублях и прочей шолухе он это хавает на раз, два.

Такое ощущение, что яндекс считает, что самый лучший сайт это сайт сделанный некомпетентным вебмастером (этого некомпетентного вебмастера яндекс считает за любителя), якобы только любитель не будет продвигать сайт левыми методами (так как любитель и ничего не понимает в этом) поэтому и выставляет его на верхние позиции

Дай новую жизнь своим БЭКЛИНКАМ!!!
▼
► ◄
▲

Продвижение сателлитами ☻

Coder

Сообщений: 10605 Регистрация: Мар 2013

7 Июля 2016 10:57

Цитата

span4bob пишет:
Такое ощущение, что яндекс считает, что самый лучший сайт это сайт сделанный некомпетентным вебмастером (этого некомпетентного вебмастера яндекс считает за любителя), якобы только любитель не будет продвигать сайт левыми методами (так как любитель и ничего не понимает в этом) поэтому и выставляет его на верхние позиции

Не думаю) На яндекс работают десятки/сотни классных спецов - неужто они хуже других разбираются?

Думается, причина в том, что этих самых требований в действительности, не знает никто (кроме яндекса).
И когда делают сайт "по всем канонам", то влепляют туда столько искусственного и неправильного, что отдает "химией".

С другой стороны, если делается сайт, где все, что априори, на своем месте и без излишеств (футер внизу, заголовок вверху) и т.д.), то сайт естественнее, чем супер-пупер оптимизированный.

Второй вопрос - что дает реально сайт пользователю - классный ресурс, дорогой, на котором найти нужное в ворохе всего правильно сложно - кому нужен?

Плохо оформленный (не модно) сайт, дающий бОльше нужного - предпочтительней. И не важно, копипаст или еще что... Не?)

✓ Проверенные скрипты и полезности для сайта

✓ Курсы

✓ Сервис временных ссылок

sharkson

Сообщений: 5425 Регистрация: Янв 2014

7 Июля 2016 16:46

Цитата
Coder пишет: И не важно, копипаст или еще что... Не?)

У меня один из сайтов - 70% копипаст, 30% рерайт и копирайт. В выдаче Я и Г по всем ключам, кроме одного он на 2-6 месте, по одному ключу уехал на 2 стр. Яндекса. Но, трафик уже год примерно выше 100 чел. в сутки не подмается, чтобы я не делал. И дело не в копипасте. Онлайн-кинотеатры с копипастным контентом имеют и 1000-2000 чел.\сутки и намного больше.
В чем дело понять не могу, 2 анализатора (человека) ничего не смогли подсказать, кроме как поправить примерно 20 ошибок верстки - о которых я и так знаю.
И что надо его наполнять уник. контентом. Но, новостник наполнять уником тяжело.

Сашка

Сообщений: 474 Регистрация: Фев 2016

#10

7 Июля 2016 19:22

Цитата
span4bob пишет: Я давно в каждой теме о АПе яндекса твержу. Яндекс *амно у которого алгоритмы работают через одно место.

поддерживаю

No pain, no gain

Турист

Сообщений: 781 Регистрация: Апр 2016

#11

7 Июля 2016 22:47

Цитата

sharkson пишет:

Цитата
Coder пишет: И не важно, копипаст или еще что... Не?)

Но, трафик уже год примерно выше 100 чел. в сутки не подмается, чтобы я не делал.

Такая же беда(((

Starik

Сообщений: 3634 Регистрация: Дек 2011

#12

7 Июля 2016 23:03

Всегда удивлялся крикам из апдейтовых тем, мол 100500 страниц залетело. Вон оно чё!

serogo evgo

Сообщений: 408 Регистрация: Мар 2015

#13

7 Июля 2016 23:51

Starik, многие тут просто берут количеством копипастом синонимайзом и т.д в большинстве это те кто с комерчискими не работал гг

создание продвижение сайтов ! качество и доступная цена

Starik Сообщений: 3634 Регистрация: Дек 2011	#14 8 Июля 2016 00:19 serogo evgo, против ничего не имею. ) Если это сделано с умыслом, трафик оправдывает себя? Что если дубли проспамить или прогнать по соц.сетям - долго пробудут в выдаче с хорошими ПФ, проверяли? Изменено: Starik - 8 Июля 2016 00:20

Похожие темы:

03.03.2022 02:03	Роскомнадзор опроверг информацию о блокировке YouTube на территории России
20.10.2020 04:12	В России вводят серьезные штрафы за отказ удалять запрещенную информацию с сайтов
03.03.2018 20:38	Дайте информацию по Линкбилдиру
02.03.2018 11:12	Счастье - это когда находишь нужную информацию на своем сайте?
10.01.2017 22:52	СМИ: медики объявили информацию о вреде сидячего образа жизни преувеличенной

Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)

Новые темы	Объявления	Свободное общение
23:37 Стоит ли добавлять сайт в Rambler топ 100? 09:56 3snet - гемблинг, беттинг, форекс, бинарные опционы, майнинг 15:13 LOSPOLLOS.COM - Конвертим по рецепту Хайзенберга. Dating, Mainstream, Binary Options 12:59 2Index - быстрая индексация страниц сайта и обратных ссылок 10:13 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 14:32 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 23:00 Продвижение по ключам	00:18 Продажа горячих лидов под крипту / Crypto Leads for Sale 21:21 №1 Рассылка / Инвайтинг [TELEGRAM] \| Приватный метод 21:21 Trustpilot Reviews \| Подниму рейтинг вашей компании 21:21 Продвижение YouTube видео в топ поиска \| Любой тип контента \| Гарантия результата 21:20 Установка\|Настройка\|Доработка\|Наполнение сайтов\|Дизайн\|3D\|Видеомонтаж 20:03 BestX24 - быстрый и безопасный обменник криптовалют и электронных денежных средств 15:31 Создам под вашу нишу сетку сайтов-сателлитов для привлечения целевого трафика	11:38 Про мясо 13:28 Компьютерная мышь 22:55 Ну что, кто куда деваете свои сайты? 22:34 Используете беспроводные наушники? 22:26 Какой фильм посмотреть сегодня вечером? 17:13 Добро пожаловать в цифровой мир... 22:51 Список обновленных тем пуст...