Нужен совет по контенту закрывшегося сайта
Страницы: 1
Нужен совет по контенту закрывшегося сайта
Был сайт в зоне net. Не мой. Он закрылся давно, домен перехватил домейнер какой-то. Домейнер буржуйский. Сайт был на русском со статьями. Я бы хотел получить эти статьи. В вебархиве.орг показывает 0 страниц. В индексе ПС 0 страниц, в кэше - 0 страниц.

Есть еще какие-то варианты получить содержимое сайта?

И в догонку второй вопрос:

Есть блог в ЖЖ. Записи под замком. Не все, а только до 2014 года. Можно ли как-то выдернуть их содержание? Пробовал через вебархив, но дело в том, что показывает наличие 319 стр. в архиве, а выдергиваются только 19 страниц. Не может быть так мало с 2006 года по 2014. Я знаю, что там страниц 400-500 примерно.
Изменено: sharkson - 23 Июля 2015 16:10
Давно понятие растяжимое.... Сроки хоть примерно озвучьте (10 дней, месяц, год и т.д..).

Кроме вебархива и кеша поисковиков вариантов не так много.
Часть информации наверняка вытащить можно будет через RSS, например (если он добавлялся в сторонний сервис - часто бывает).

По ЖЖ. Вы как из вебархив дергаете? (ручками или софтиной)
«Превращаю день в ночь, сына в дочь, а ХЗ в ТЗ»
Python(Flask, Scrapy) - my way.
Цитата
Константин Нейтро пишет:

По ЖЖ. Вы как из вебархив дергаете? (ручками или софтиной)
Вот прямо сейчас вытаскиваю эти страницы руками. Пауком ртуловским вытянуло 19 стр. из 319.
Я руками за 2-3 часа вытянул около 100. Обнаружил дубли страниц в вебархиве отдельно треды, комменты на одну и ту же страницу. Их пропускаю.
Страницы выдергиваю с 2004 по 2014 годы. Автор не очень часто писал. Он человек занятой и вообще. Материал больно интересный, хочу почитать.

Цитата
Константин Нейтро пишет:
Сроки хоть примерно озвучьте (10 дней, месяц, год и т.д..).
тот что сайта на NET: домену лет 15, сайт открылся примерно в начале 2000-х, а когда сгинул не знаю. Наверно лет 5 назад.
Изменено: sharkson - 23 Июля 2015 19:10
Вы наверное не в курсе, что за такие тексты из вэбархива и т.п
Яша посылает сайты далеко и надолго smile;)
Цитата
Александр Осипов пишет:
Вы наверное не в курсе, что за такие тексты из вэбархива и т.п
Яша посылает сайты далеко и надолго smile;)
Ничего подобного. Я уже пробовал. Как-то. Выдернул 3 текста - получилось 3 страницы. Все 3 в топе 10 по запросу определенному. А по части запроса в первой 20-ке.
И не только я так делаю.

А ЖЖ материалы мне чисто для себя.
Цитата
sharkson пишет:
тот что сайта на NET: домену лет 15, сайт открылся примерно в начале 2000-х, а когда сгинул не знаю. Наверно лет 5 назад.
Задача: найти домены-зеркала и посмотреть их в вебархиве.
Ну что можно сделать - идете в whoishistory - изучаете вопрос (кто что/ когда).
Так же может помочь так же сервисы, которые "знали" про склейку доменов 5 лет назад....

По поводу ЖЖ:
Руками лучше получается - качественного паука для веб архива нет еще ( что бы вытащил все).
Цитата
Константин Нейтро пишет:
Ну что можно сделать - идете в whoishistory - изучаете вопрос (кто что/ когда).
Какой сервис лучше всего для этого подойдет не подскажите?

Насчет ЖЖ: я вчера руками вытащил все страницы за 4 часа, около 200 стр. К сожалению, некоторые фото вытащить не удалось - т. е. вместо них в вебархиве пустые квадраты.

Вобщем, вопрос решен. Паук вытащил только 19 стр.
Цитата
sharkson пишет:
Какой сервис лучше всего для этого подойдет не подскажите?
Лучше... сложно сказать) Там где найдется информация... Nic.ru и REG.RU предоставляют информацию по доменам, но есть ли там зеркала... Сложно сказать.
Я не пытался вытащить инфу 5-летней давности) Уникальности в ней обычно нет - а мороки будет достаточно много...
Цитата
Константин Нейтро пишет:
Nic.ru и REG.RU предоставляют информацию по доменам, но есть ли там зеркала
Я там такого не видел. Может зарубежный какой-то есть. Жалко конечно. На сайте была куча текста. А домен заграбастал домейнер и продает дорого.


Кстати, все статьи, что вытащил с ЖЖ (2004-2011 годы) уникальные. Но врядли я их использую.
Изменено: sharkson - 24 Июля 2015 14:48
Если хотите - можете домен в личку кинуть (подумаю, что можно сделать)
Цитата
Константин Нейтро пишет:
Если хотите - можете домен в личку кинуть (подумаю, что можно сделать)
Подумаете куда можно тексты скинуть? smile:D
Какой хитрый человек, да?
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
23:22 Рост эффективности моего интернет‑магазина 
23:12 Adsense личный опыт 
22:07 С чего сейчас проще начать? 
22:02 как оплатить claude и gpt-5 из рф в 2026 чтобы не забанили через три дня 
21:54 WB и Ozon - новые "русские поисковики"? Яндекс теряет коммерческую выдачу 
21:36 Трафик в минус, соцсети в топе - Завершено февральское обновление Google Discover 
21:32 Яндекс Нейро и выдача в 2026 - остались ли лазейки для маленьких сайтов? 
21:20 Русские народные сказки - оцените! 
21:08 Продам сотню хороших доменов по минимальным ценам 
20:43 JustProxy.Biz - Резидентные прокси без ограничения по трафику 
19:02 Mixmasters - Exchange without AML and KYC 
18:10 UltraXchina: Современный сервис обмена Alipay, USDT, Наличные 
16:58 Proxy SOCKS5/HTTP(S) : Резидентские-$1.5/GB | Мобильные-$2/GB | Datacenter-$1/GB | PREMIUM-$4 /GB 
11:45 AllCharge.online. Современный, быстрый и надёжный обменник 
22:55 С юмором по жизни! 
22:49 Список обновленных тем пуст... 
22:37 Чак Норрис ушел - 19 марта 2026, 86 лет, семья подтвердила 
22:19 8 марта: желаю аптайма 99.9% и e-e-a-t без локов 
21:16 Почему не обновляется счетчик ИКС (индекса качества сайта) 
19:57 молодильные яблоки и живая вода 
01:50 Точные прогнозы на футбол