Нужен совет по контенту закрывшегося сайта
Страницы: 1
Нужен совет по контенту закрывшегося сайта
Был сайт в зоне net. Не мой. Он закрылся давно, домен перехватил домейнер какой-то. Домейнер буржуйский. Сайт был на русском со статьями. Я бы хотел получить эти статьи. В вебархиве.орг показывает 0 страниц. В индексе ПС 0 страниц, в кэше - 0 страниц.

Есть еще какие-то варианты получить содержимое сайта?

И в догонку второй вопрос:

Есть блог в ЖЖ. Записи под замком. Не все, а только до 2014 года. Можно ли как-то выдернуть их содержание? Пробовал через вебархив, но дело в том, что показывает наличие 319 стр. в архиве, а выдергиваются только 19 страниц. Не может быть так мало с 2006 года по 2014. Я знаю, что там страниц 400-500 примерно.
Изменено: sharkson - 23 Июля 2015 16:10
Давно понятие растяжимое.... Сроки хоть примерно озвучьте (10 дней, месяц, год и т.д..).

Кроме вебархива и кеша поисковиков вариантов не так много.
Часть информации наверняка вытащить можно будет через RSS, например (если он добавлялся в сторонний сервис - часто бывает).

По ЖЖ. Вы как из вебархив дергаете? (ручками или софтиной)
«Превращаю день в ночь, сына в дочь, а ХЗ в ТЗ»
Python(Flask, Scrapy) - my way.
Цитата
Константин Нейтро пишет:

По ЖЖ. Вы как из вебархив дергаете? (ручками или софтиной)
Вот прямо сейчас вытаскиваю эти страницы руками. Пауком ртуловским вытянуло 19 стр. из 319.
Я руками за 2-3 часа вытянул около 100. Обнаружил дубли страниц в вебархиве отдельно треды, комменты на одну и ту же страницу. Их пропускаю.
Страницы выдергиваю с 2004 по 2014 годы. Автор не очень часто писал. Он человек занятой и вообще. Материал больно интересный, хочу почитать.

Цитата
Константин Нейтро пишет:
Сроки хоть примерно озвучьте (10 дней, месяц, год и т.д..).
тот что сайта на NET: домену лет 15, сайт открылся примерно в начале 2000-х, а когда сгинул не знаю. Наверно лет 5 назад.
Изменено: sharkson - 23 Июля 2015 19:10
Вы наверное не в курсе, что за такие тексты из вэбархива и т.п
Яша посылает сайты далеко и надолго smile;)
Цитата
Александр Осипов пишет:
Вы наверное не в курсе, что за такие тексты из вэбархива и т.п
Яша посылает сайты далеко и надолго smile;)
Ничего подобного. Я уже пробовал. Как-то. Выдернул 3 текста - получилось 3 страницы. Все 3 в топе 10 по запросу определенному. А по части запроса в первой 20-ке.
И не только я так делаю.

А ЖЖ материалы мне чисто для себя.
Цитата
sharkson пишет:
тот что сайта на NET: домену лет 15, сайт открылся примерно в начале 2000-х, а когда сгинул не знаю. Наверно лет 5 назад.
Задача: найти домены-зеркала и посмотреть их в вебархиве.
Ну что можно сделать - идете в whoishistory - изучаете вопрос (кто что/ когда).
Так же может помочь так же сервисы, которые "знали" про склейку доменов 5 лет назад....

По поводу ЖЖ:
Руками лучше получается - качественного паука для веб архива нет еще ( что бы вытащил все).
Цитата
Константин Нейтро пишет:
Ну что можно сделать - идете в whoishistory - изучаете вопрос (кто что/ когда).
Какой сервис лучше всего для этого подойдет не подскажите?

Насчет ЖЖ: я вчера руками вытащил все страницы за 4 часа, около 200 стр. К сожалению, некоторые фото вытащить не удалось - т. е. вместо них в вебархиве пустые квадраты.

Вобщем, вопрос решен. Паук вытащил только 19 стр.
Цитата
sharkson пишет:
Какой сервис лучше всего для этого подойдет не подскажите?
Лучше... сложно сказать) Там где найдется информация... Nic.ru и REG.RU предоставляют информацию по доменам, но есть ли там зеркала... Сложно сказать.
Я не пытался вытащить инфу 5-летней давности) Уникальности в ней обычно нет - а мороки будет достаточно много...
Цитата
Константин Нейтро пишет:
Nic.ru и REG.RU предоставляют информацию по доменам, но есть ли там зеркала
Я там такого не видел. Может зарубежный какой-то есть. Жалко конечно. На сайте была куча текста. А домен заграбастал домейнер и продает дорого.


Кстати, все статьи, что вытащил с ЖЖ (2004-2011 годы) уникальные. Но врядли я их использую.
Изменено: sharkson - 24 Июля 2015 14:48
Если хотите - можете домен в личку кинуть (подумаю, что можно сделать)
Цитата
Константин Нейтро пишет:
Если хотите - можете домен в личку кинуть (подумаю, что можно сделать)
Подумаете куда можно тексты скинуть? smile:D
Какой хитрый человек, да?
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
22:27 LOSPOLLOS.COM - Конвертим по рецепту Хайзенберга. Dating, Mainstream, Binary Options 
12:39 2Index - быстрая индексация страниц сайта и обратных ссылок 
06:17 3snet - гемблинг, беттинг, форекс, бинарные опционы, майнинг 
11:46 SharkBoss - партнёрская программа для монетизации ЛЮБЫХ видов трафика (включая спам). 
23:10 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 
21:20 Rotapost прикрыли! Чем пользоваться? 
00:23 Раскрутка форума 
13:38 BIGPROXY.SHOP - Резидентные Ротационные Backconnect Proxy USA EUROPA MIX [Безлимитный трафик] 
13:16 PonyBit.ru - обменный пункт PonyBit.ru (Понибит.ру) 
12:46 Мобильные и Резидентные Прокси Для Соц Сетей | 3 Гб Бесплатно 
12:12 CryptoGraph — Анонимный обмен криптовалют без KYC и AML 
10:46 Linken Sphere – браузер-антидетект нового поколения 
05:06 CoinCapital  
04:28 Просто $0.04/IP 9PROXY.COM Резидентные прокси Неограниченная пропускная способность Уникальная политика замены Без чёрного списка 
13:08 Бесплатный майнинг Tether (USDT) 
10:29 С юмором по жизни! 
16:49 monetizer.agency – рекламная сеть для взрослого и развлекательного трафика. 100$ новому вебмастеру 
20:43 Добро пожаловать в цифровой мир... 
15:59 Про мясо 
23:09 ПП от PMS remote.team - 200$ за команду 
13:28 Компьютерная мышь