Как найти уникальный контент в вебархиве?

Как найти уникальный контент в вебархиве?, Бесплатный гайд

Сообщений: 2740 Регистрация: Апр 2010

2 Ноября 2016 17:07

Адрес ВебАрхива

Цитата
http://archive.org/web/

Заходим сюда:

Цитата
https://www.nic.ru/auction/forbuyer/download_list.shtml#buying

Скачиваем то, что показано на скрине #1.

*скрин внизу страницы

--> Распаковываем и открываем этот файл через excel.
--> Нажимаем Ctrl + F (поиск), как на скрине #2, и ищем необходимое тематическое слово, которое по-логике должно встречаться в домене.

Копируем каждый понравившийся домен в блокнот или в форму на данный сайт (скрин #3):

Цитата
http://www.seogadget.ru/wa

Проверяем на наличие сайта в вебархиве, как на скрине #4.

Далее, собственными руками и глазами выискиваем страницы, похожие на те, на которых есть статья (скрин #5). Как пример, я взял "Отзыв о ВАЗ 2114 Люкс".

Проверяем уникальность в текст.ру или по адвего (скрин #6).

Рисунок

Надеюсь, получилось информативно.

Скрины:

Прикрепленные файлы

1.png (19.89 КБ) [ Скачать ]

2.png (50.04 КБ) [ Скачать ]

3.png (27.08 КБ) [ Скачать ]

4.png (25.92 КБ) [ Скачать ]

5.png (16.81 КБ) [ Скачать ]

Изменено: Местный Шерлок - 2 Ноября 2016 17:13

Coder

Сообщений: 10628 Регистрация: Мар 2013

2 Ноября 2016 17:14

Местный Шерлок, благодарствую)

✓ Проверенные скрипты и полезности для сайта

✓ Курсы

✓ Сервис временных ссылок

span4bob

Сообщений: 6461 Регистрация: Апр 2013

2 Ноября 2016 17:31

Все конечно написано правильно. Из минусов можно сказать только о том, что конкуренция в этой схеме

Дай новую жизнь своим БЭКЛИНКАМ!!!
▼
► ◄
▲

Продвижение сателлитами ☻

Eye

Сообщений: 22274 Регистрация: Май 2011

2 Ноября 2016 19:15

Пара интересных функций для работы с архивом:

Код

function check_in_wa($string)//проверить наличие домена в архиве, если есть - записыть переменные $data и $domain и вернуть true
{global $data,$domain;$data=file_get_contents('http://web.archive.org/web/*/'.$string);if(strpos($data,'Saved ')){$domain=$string;return true;}else return false;}

function check_kley($string)//проверить клей по Яше
{$data=file_get_contents('http://bar-navig.yandex.ru/u?ver=2&show=32&url=http://'.$string);
$data1=explode('url domain="',$data);$data2=explode('"',$data1[1]);
if(($data2[0]==$string)or($data2[0]=='www.'.$string)or('www.'.$data2[0]==$string))return false;else return true;}

function check_www($string)//добавить к домену www, если надено такое в странице
{global $domain;if(strpos($string,'www.'.$domain))$domain='www.'.$domain;}

function get_snaps_year($string)//получить все даты снэпов в году (в текущей странице)
{$result=array();$data2=explode('<li><a href="',$string);for($i=1;$i<count($data2);$i++) {$ttdata=explode('">',$data2[$i]);$mdata=explode('" title="1 snapshots" class="',$data2[$i]);$ddata=explode('">',$mdata[1]);$result[]=array($ttdata[0],$ddata[0]);}return $result;}

function get_years($string)//получить со страницы годы, в которых были снэпы
{global $startyear,$nowyear;$years=array();$r1=explode('src="/web/jsp/graph.jsp',$string);$r2=explode('">',$r1[1]);
 for($i=$startyear;$i<=$nowyear;$i++){$t1=explode('_'.$i.':',$r2[0]);if($i<$nowyear){$t2=explode('_',$t1[1]);$t3=$t2[0];}else $t3=$t1[1];$t4=explode(':',$t3);$t5=$t4[1];if($t5!='000000000000')$years[]=$i;}return $years;}

Может, кому будет пригодиться, натолкнёт на правильные мысли. Сам весь парсер не дам, дорог мне как память, долго работал над ним, и просто я жадный.

Изменено: Eye - 2 Ноября 2016 19:17

Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.

Eye

Сообщений: 22274 Регистрация: Май 2011

2 Ноября 2016 19:26

Ещё чутка для размышлений:

Код

function del_musor($string)//удаляем всё ненужное на странице
{$t1=explode('</html>',$string);//задний блок веб архива
$t1=$t1[0].'</html>';

$t1=del_sec($t1,'<!-- Yandex.Metrika counter -->','<!-- /Yandex.Metrika counter -->',true);
$t1=del_sec($t1,'<script type="text/javascript" src="/static/js/analytics.js"></script>','<link type="text/css" rel="stylesheet" href="/static/css/banner-styles.css"/>',false);
$t1=del_sec($t1,'<!-- BEGIN WAYBACK TOOLBAR INSERT -->','<!-- END WAYBACK TOOLBAR INSERT -->',false);
$t1=del_sec($t1,'<!--LiveInternet counter-->','<!--/LiveInternet-->',true);
$t1=del_sec($t1,'<!--LiveInternet logo-->','<!--/LiveInternet-->',true);
$t1=del_sec($t1,'<base','>',true);
return $t1;}

function del_musor_cssjs($string)//удаляем всё ненужное на странице
{$t1=del_sec($t1,'/*','*/',true);return $t1;}

function ins_base_utf()//добавить base и кодировку заменить, если не та
{global $data;$data=ins_after($data,'<head>','<base href="/" />',false);$data=mainswaps($data);}


function find_href()
{global $hfinded,$hrele,$data;
$hfinded='';
if(strpos($data,' src="')){$hfinded=' src="';$hrele='"';return true;}
if(strpos($data," src='")){$hfinded=" src='";$hrele="'";return true;}
if(strpos($data,' href="')){$hfinded=' href="';$hrele='"';return true;}
if(strpos($data," href='")){$hfinded=" href='";$hrele="'";return true;}
if(strpos($data,' action="')){$hfinded=' action="';$hrele='"';return true;}
if(strpos($data," action='")){$hfinded=" action='";$hrele="'";return true;}
if(strpos($data,'url("')){$hfinded=' action="';$hrele='")';return true;}
if(strpos($data,"url('")){$hfinded=' action="';$hrele="')";return true;}
if(strpos($data,'url(')){$hfinded=' action="';$hrele=')';return true;}
return false;}

function add_href($full,$loc)//если нет в карте ссылок, то добавляем
{global $hrefmap;
if($loc=='')$loc='/';
if(strpos($loc,'?')){$tloc=explode('?',$loc);$loc=$tloc[0];}
if(strpos($loc,'#')){$tloc=explode('#',$loc);$loc=$tloc[0];}
for($i=0;$i<count($hrefmap);$i++)if($hrefmap[$i][1]==$loc)return;$hrefmap[]=array('http://web.archive.org'.$full,$loc,0);}

function page_hrefs()//делаем ссылки из вебархивных нормальными (своими)
{global $hfinded,$hrele,$domain,$data,$prefix;
$swaps=array();
$insertcode=0;
while(find_href())
{
$data1=explode($hfinded,$data);
$data2=explode($hrele,all($data1,$hfinded));
$data=$data1[0].'XXINSERT'.$insertcode.'XX'.all($data2,$hrele);
$insertcode++;
$anastring=$data2[0];
if(strpos($anastring,'/http://'.$domain.'/'))//это внутренняя ссылка или ресурс, сохраненные (возможно) в архиве
 {$tu=explode('/http://'.$domain.'/',$anastring);
  add_href($anastring,$tu[1]);
  $swaps[]=$hfinded.$tu[1].$hrele;
 }else
if(strpos($anastring,'/https://'.$domain.'/'))//это https 2внутренняя ссылка или ресурс, сохраненные (возможно) в архиве
 {$tu=explode('/https://'.$domain.'/',$anastring);
  add_href($anastring,$tu[1]);
  $swaps[]=$hfinded.$tu[1].$hrele;
 }else//это локальная или внешняя ссылка
if(strpos($anastring,'http://'))//проверить наличие http или https и если есть - то это внешняя ссылка
 {$tu=explode('/http://',$anastring);
  $swaps[]=$hfinded.'http://'.$tu[1].$hrele;
 }else
if(strpos($anastring,'https://'))//проверить наличие http или https и если есть - то это внешняя ссылка
 {$tu=explode('/https://',$anastring);
  $swaps[]=$hfinded.'https://'.$tu[1].$hrele;
 }else
 {$swaps[]=$hfinded.$anastring.$hrele;
  add_href($prefix.$anastring,$anastring); //добавить локальные ссылки с префиксом
 }
}
for($i=0;$i<count($swaps);$i++)
{
$data=str_replace('XXINSERT'.$i.'XX', $swaps[$i], $data);
}
}

Dr. SEO

Сообщений: 334 Регистрация: Янв 2013

3 Ноября 2016 14:25

а в веб архив ставить ссылку страницы и он текст выдает?

НАСТРОЙКА ЯНДЕКС ДИРЕКТ и ГУГЛ ЭДВОРДС

Прогон по Твиттеру. 1500 аккаунтов. Результат

Dr. SEO

Сообщений: 334 Регистрация: Янв 2013

3 Ноября 2016 14:44

Я так понимаю, что этот мониторинг нужно делать когда домены уже освободятся? Ведь в списке только домены которые готовятся к освобождению.И честно говоря не понятна механика. Как текст, который уже размещен на сайте, может быть уникальным?

Prapovednik

Модератор

Сообщений: 65027 Регистрация: Мар 2010

3 Ноября 2016 14:46

Dr. SEO, что есть уникальность?

Продвигай сайты ЛЮБОЙ тематики! Вечные ссылки и статьи.
*
Тренды SEO 2026: Как продвигать сайт и сделать его магнитом для посетителей (и поисковиков в придачу)

Dr. SEO

Сообщений: 334 Регистрация: Янв 2013

3 Ноября 2016 14:47

Цитата
Prapovednik пишет: Dr. SEO, что есть уникальность?

Как я себе представляю. уникальность это отсутствие у текста страницы в интернете.

Вячеслав Шаров

Сообщений: 9908 Регистрация: Июн 2015

#10

3 Ноября 2016 14:47

О познавательно я честно говоря никогда и не работал с вебархивом)) Спс)

✔(НЕЙРОСЕТЬ) Качественные живые посетители на ваш сайт, блог, канал — Бесплатно!!!

♛ЛУЧШИЙ ПРОВЕРЕННЫЙ и САМЫЙ НЕДОРОГОЙ ХОСТИНГ: АКЦИИ!

masterrabot

Сообщений: 1752 Регистрация: Янв 2016

#11

3 Ноября 2016 14:50

Цитата
Dr. SEO пишет: Как текст, который уже размещен на сайте, может быть уникальным?

Магия!

Если серьезно, то освобождающиеся домены уже месяц как заблокированы за не уплату и из индекса выпали. НО! Это не озачает, что их тексты не находятся в кэше ПС smile:)

Так что думайте сами... В целом метод рабочий.

Dr. SEO

Сообщений: 334 Регистрация: Янв 2013

#12

3 Ноября 2016 14:55

masterrabot,

Цитата
masterrabot Магия! Если серьезно, то освобождающиеся домены уже месяц как заблокированы за не уплату и из индекса выпали. НО! Это не озачает, что их тексты не находятся в кэше ПС Так что думайте сами... В целом метод рабочий.

Теперь сообразил ) Забыл про то, что перед освобождением месяц в карантине. Но почему при проверке домена на страницы у меня вылетают ошибки? У автора их тоже много (на скрине) хотелось бы понять. что они означают.

masterrabot

Сообщений: 1752 Регистрация: Янв 2016

#13

3 Ноября 2016 15:06

Цитата
Dr. SEO пишет: что они означают.

Либо глюк сервиса, либо эти домены запрещены к показу в файле роботс и вебархив не отдает по ним информацию.

sharkson

Сообщений: 5425 Регистрация: Янв 2014

#14

3 Ноября 2016 17:18

Дело в том, что уник в вебархиве найти тяжело, конкретный текст по какой-то теме еще тяжелее. Перелопатить много дерьма придется в поисках жемчуга.

НАДЕЖНЫЙ И НЕДОРОГОЙ ХОСТИНГ ТУТ
НЕДОРОГОЙ ХОСТИНГ
ПРОДАМ БЛОГ ЖЖ
СОЗДАНИЕ И НАСТРОЙКА MediaWiki и phpbb3

masterrabot

Сообщений: 1752 Регистрация: Янв 2016

#15

3 Ноября 2016 17:26

Цитата
sharkson пишет: Перелопатить много дерьма придется в поисках жемчуга.

Что есть, то есть. Особенно если учесть причины, по которым сайты закрываются.

Похожие темы:

19.12.2016 07:46

Где брать уникальный контент для сайта

Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)

Новые темы	Объявления	Свободное общение
10:21 AntiBot Cloud - бесплатный скрипт и сервис защиты сайтов 09:29 Продвижение по ключам 09:23 Что такое Яндекс Икс / Как накрутить Яндекс ИКС 00:52 С наступающим Новым годом! АП Яндекс ИКС 23.12.2025 15:49 Новая поисковая система от OpenAI 14:42 2Index - быстрая индексация страниц сайта и обратных ссылок 09:30 Fraud.Hosting: надёжная защита от недобросовестных клиентов	10:16 HH.ru Работадателя вериф 10:14 AllCharge.online. Современный, быстрый и надёжный обменник 10:02 BestChange – обменивать электронную валюту можно быстро и выгодно 09:54 PonyBit.ru - обменный пункт PonyBit.ru (Понибит.ру) 09:40 Ссылочное продвижение ваших сайтов статьями, профилями и комментариями, качественно и по доступным ценам!!! 09:03 Affiliate Top - партнерская программа нового уровня 04:50 Просто $0.04/IP 9PROXY.COM Резидентные прокси Неограниченная пропускная способность Уникальная политика замены Без чёрного списка	21:22 С юмором по жизни! 22:59 Про мясо 15:07 Добро пожаловать в цифровой мир... 22:12 BYTIK.shop – сервис по продвижению в популярных социальных сетях 10:10 накрутка трафика в SimilarWeb 16:50 Компьютерная мышь 23:03 Точные прогнозы на футбол