preg php Ищу помощь

Сообщений: 66 Регистрация: Июн 2015

25 Марта 2016 11:15

Не могли бы помочь с регуляркой, весь нет обрыл уже, но даже намека на решение нету. Вроде бы легкая должна быть, но... нету. В общем
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);

А вот далее надо регуляркой получить строки русского текста, новости, материала. Разбить по формату explode('. ') - не подходит, куча мусора вылазит. Помогите кто чем сможет! Заранее спасибо

Александр

Сообщений: 136 Регистрация: Июл 2012

26 Марта 2016 21:58

если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.

Дивергент

Сообщений: 22172 Регистрация: Май 2011

26 Марта 2016 23:08

Цитата
Михаил Крисов пишет: Вроде бы легкая должна быть, но... нету.

Нету не потому, что подобная мысль искать по шаблону пришла только Вам, а потому, что тут нужен целостный алгоритм, а не регулярное выражение. Закажите у кого-нибудь, работа небольшая, на 1-2 дня, ИМХО.

Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.

Абырвалг

Сообщений: 1305 Регистрация: Июл 2012

27 Марта 2016 04:00

Цитата
Михаил Крисов пишет: А вот далее надо регуляркой получить строки русского текста, новости, материала.

Код

$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);
$result=preg_match_all($rez,FULL);
$result[0] - title 
$result[1] - H1  
$result[2] - статья

как-то так...

Евгений

Сообщений: 436 Регистрация: Окт 2010

27 Марта 2016 05:16

Конечно нет универсального решения.... люди специально для таких запросов целые парсеры пишут под конкретный сайт/тип сайтов... а не ОДНУ регулярку...

Дивергент

Сообщений: 22172 Регистрация: Май 2011

27 Марта 2016 05:39

Цитата
Абырвалг пишет: как-то так...

Да ну слишком толсто! smile:help:

Андрей XL

Сообщений: 72 Регистрация: Окт 2015

27 Марта 2016 08:55

Цитата
Александр пишет: если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.

Согласен с Александром, попробуйте _http://simplehtmldom.sourceforge.net/ сначала найти блок с текстом, затем explode('. ').

Михаил Крисов

Сообщений: 66 Регистрация: Июн 2015

27 Марта 2016 10:45

Максимум чего удалось добиться - это регулярка такого вида [A-Z][\w\d]*(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)*[.!?](?=\s|<|$)
да и то бывает захватывает то меню, то предложения не из текста... более четкого решения не удалось составить...

Михаил Крисов Сообщений: 66 Регистрация: Июн 2015	#9 27 Марта 2016 10:47 Блок с текстом может быть обвернут <p> div table etc. Так что такое решение сложней использовать!

Новые темы	Объявления	Свободное общение
19:29 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 17:29 Как продвигать сайт с неуникальным контентом 14:50 Индексация страниц 12:36 У кого новостник, дайте пару советов плиз 13:53 AviTool - мощный инструмент для автоматизации работы с Avito 17:01 Absence в Армении 23:19 Ребята подскажите какими сервисами и прогами вы пользуетесь для SEO продвижения?	15:04 JustProxy.Biz - Резидентные прокси без ограничения по трафику 12:41 Affiliate Top - партнерская программа нового уровня 11:38 Адалт сайты и сетки PBN на DLE 04:09 Просто $0.04/IP 9PROXY.COM Резидентные прокси Неограниченная пропускная способность Уникальная политика замены Без чёрного списка 00:25 Телеграмм продвижение 23:49 Обменник криптовалюты OnlyCrypto 22:50 Sphera \| круглосуточный обмен, наличные	19:30 Добро пожаловать в цифровой мир... 19:42 Топ-5 способов использовать мобильные прокси для бизнеса: подробный обзор 22:08 Накрутка поисковых подсказок 05:04 Точные прогнозы на футбол 14:01 Union Pharm - топовая фарма-партнерка для профессионалов! 10:59 Ням-ням! - 8 деликатесов, которые когда-то ели только бедные люди 12:23 150+ хакерских поисковых систем и инструментов

Новые темы

Объявления

Свободное общение

19:29 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика!
17:29 Как продвигать сайт с неуникальным контентом
14:50 Индексация страниц
12:36 У кого новостник, дайте пару советов плиз
13:53 AviTool - мощный инструмент для автоматизации работы с Avito
17:01 Absence в Армении
23:19 Ребята подскажите какими сервисами и прогами вы пользуетесь для SEO продвижения?

15:04 JustProxy.Biz - Резидентные прокси без ограничения по трафику
12:41 Affiliate Top - партнерская программа нового уровня
11:38 Адалт сайты и сетки PBN на DLE
04:09 Просто $0.04/IP 9PROXY.COM Резидентные прокси Неограниченная пропускная способность Уникальная политика замены Без чёрного списка
00:25 Телеграмм продвижение
23:49 Обменник криптовалюты OnlyCrypto
22:50 Sphera | круглосуточный обмен, наличные

19:30 Добро пожаловать в цифровой мир...
19:42 Топ-5 способов использовать мобильные прокси для бизнеса: подробный обзор
22:08 Накрутка поисковых подсказок
05:04 Точные прогнозы на футбол
14:01 Union Pharm - топовая фарма-партнерка для профессионалов!
10:59 Ням-ням! - 8 деликатесов, которые когда-то ели только бедные люди
12:23 150+ хакерских поисковых систем и инструментов

20.12.2019 09:09	Нужна помощь в реализации тарифного калькулятора
06.08.2018 16:05	Нужна помощь нужен скрипт вывода новостей из базы MySQL на одностроничный сайт php
27.03.2017 21:10	Нужна помощь - Как вывести табло на сайт
26.08.2016 15:01	Помощь по установке модуля REDIS
14.04.2016 14:14	Нужна помощь в настройке редиректа