Нужен совет по контенту закрывшегося сайта
Страницы: 1
Нужен совет по контенту закрывшегося сайта
Был сайт в зоне net. Не мой. Он закрылся давно, домен перехватил домейнер какой-то. Домейнер буржуйский. Сайт был на русском со статьями. Я бы хотел получить эти статьи. В вебархиве.орг показывает 0 страниц. В индексе ПС 0 страниц, в кэше - 0 страниц.

Есть еще какие-то варианты получить содержимое сайта?

И в догонку второй вопрос:

Есть блог в ЖЖ. Записи под замком. Не все, а только до 2014 года. Можно ли как-то выдернуть их содержание? Пробовал через вебархив, но дело в том, что показывает наличие 319 стр. в архиве, а выдергиваются только 19 страниц. Не может быть так мало с 2006 года по 2014. Я знаю, что там страниц 400-500 примерно.
Изменено: sharkson - 23 Июля 2015 16:10
Давно понятие растяжимое.... Сроки хоть примерно озвучьте (10 дней, месяц, год и т.д..).

Кроме вебархива и кеша поисковиков вариантов не так много.
Часть информации наверняка вытащить можно будет через RSS, например (если он добавлялся в сторонний сервис - часто бывает).

По ЖЖ. Вы как из вебархив дергаете? (ручками или софтиной)
«Превращаю день в ночь, сына в дочь, а ХЗ в ТЗ»
Python(Flask, Scrapy) - my way.
Цитата
Константин Нейтро пишет:

По ЖЖ. Вы как из вебархив дергаете? (ручками или софтиной)
Вот прямо сейчас вытаскиваю эти страницы руками. Пауком ртуловским вытянуло 19 стр. из 319.
Я руками за 2-3 часа вытянул около 100. Обнаружил дубли страниц в вебархиве отдельно треды, комменты на одну и ту же страницу. Их пропускаю.
Страницы выдергиваю с 2004 по 2014 годы. Автор не очень часто писал. Он человек занятой и вообще. Материал больно интересный, хочу почитать.

Цитата
Константин Нейтро пишет:
Сроки хоть примерно озвучьте (10 дней, месяц, год и т.д..).
тот что сайта на NET: домену лет 15, сайт открылся примерно в начале 2000-х, а когда сгинул не знаю. Наверно лет 5 назад.
Изменено: sharkson - 23 Июля 2015 19:10
Вы наверное не в курсе, что за такие тексты из вэбархива и т.п
Яша посылает сайты далеко и надолго smile;)
Цитата
Александр Осипов пишет:
Вы наверное не в курсе, что за такие тексты из вэбархива и т.п
Яша посылает сайты далеко и надолго smile;)
Ничего подобного. Я уже пробовал. Как-то. Выдернул 3 текста - получилось 3 страницы. Все 3 в топе 10 по запросу определенному. А по части запроса в первой 20-ке.
И не только я так делаю.

А ЖЖ материалы мне чисто для себя.
Цитата
sharkson пишет:
тот что сайта на NET: домену лет 15, сайт открылся примерно в начале 2000-х, а когда сгинул не знаю. Наверно лет 5 назад.
Задача: найти домены-зеркала и посмотреть их в вебархиве.
Ну что можно сделать - идете в whoishistory - изучаете вопрос (кто что/ когда).
Так же может помочь так же сервисы, которые "знали" про склейку доменов 5 лет назад....

По поводу ЖЖ:
Руками лучше получается - качественного паука для веб архива нет еще ( что бы вытащил все).
Цитата
Константин Нейтро пишет:
Ну что можно сделать - идете в whoishistory - изучаете вопрос (кто что/ когда).
Какой сервис лучше всего для этого подойдет не подскажите?

Насчет ЖЖ: я вчера руками вытащил все страницы за 4 часа, около 200 стр. К сожалению, некоторые фото вытащить не удалось - т. е. вместо них в вебархиве пустые квадраты.

Вобщем, вопрос решен. Паук вытащил только 19 стр.
Цитата
sharkson пишет:
Какой сервис лучше всего для этого подойдет не подскажите?
Лучше... сложно сказать) Там где найдется информация... Nic.ru и REG.RU предоставляют информацию по доменам, но есть ли там зеркала... Сложно сказать.
Я не пытался вытащить инфу 5-летней давности) Уникальности в ней обычно нет - а мороки будет достаточно много...
Цитата
Константин Нейтро пишет:
Nic.ru и REG.RU предоставляют информацию по доменам, но есть ли там зеркала
Я там такого не видел. Может зарубежный какой-то есть. Жалко конечно. На сайте была куча текста. А домен заграбастал домейнер и продает дорого.


Кстати, все статьи, что вытащил с ЖЖ (2004-2011 годы) уникальные. Но врядли я их использую.
Изменено: sharkson - 24 Июля 2015 14:48
Если хотите - можете домен в личку кинуть (подумаю, что можно сделать)
Цитата
Константин Нейтро пишет:
Если хотите - можете домен в личку кинуть (подумаю, что можно сделать)
Подумаете куда можно тексты скинуть? smile:D
Какой хитрый человек, да?
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
23:59 Нужна помощь советом! 
16:56 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 
10:20 SEO под нейро 
14:47 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 
14:23 SharkBoss - партнёрская программа для монетизации ЛЮБЫХ видов трафика (включая спам). 
09:44 SEO 2025 - контент, уже не главное. Главное - Конечная цель... 
06:06 Яндекс прекращает поддержку технологии Турбо 
22:34 BestX24 - быстрый и безопасный обменник криптовалют и электронных денежных средств 
09:43 Обменник криптовалюты OnlyCrypto 
04:03 Просто $0.04/IP 9PROXY.COM Резидентные прокси Неограниченная пропускная способность Уникальная политика замены Без чёрного списка 
21:08 A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc 
19:41 WebKazna. Обмены криптовалют. Доставка наличных. 
15:58 Продам аккаунты Gmail USA IP | Gmail MIX IP | Outlook Old 
14:41 SpaceSwap.cc - Быстрый и надежный обменник криптовалют 
21:46 Точные прогнозы на футбол 
10:54 Добро пожаловать в цифровой мир... 
22:39 Топ-5 способов использовать мобильные прокси для бизнеса: подробный обзор 
11:58 Куплю проигрышные букмекерские аккаунты 
00:12 Огородники 
10:59 Новости искусственного интеллекта 
04:26 Хром ругается на форум