preg php Ищу помощь
Страницы: 1
preg php Ищу помощь, preg_match_all Вытянуть предложения из html страницы
Не могли бы помочь с регуляркой, весь нет обрыл уже, но даже намека на решение нету. Вроде бы легкая должна быть, но... нету. В общем 
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);

А вот далее надо регуляркой получить строки русского текста, новости, материала. Разбить по формату explode('. ') - не подходит, куча мусора вылазит. Помогите кто чем сможет! Заранее спасибо

Прогон по твиттеру, постинг в 1500 аккунтов
Постинг в твиттер аккаунты, для ускорения индексации ваших сайтов, сателлитов, дорвеев.

если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.
Цитата
Михаил Крисов пишет:
Вроде бы легкая должна быть, но... нету.
Нету не потому, что подобная мысль искать по шаблону пришла только Вам, а потому, что тут нужен целостный алгоритм, а не регулярное выражение. Закажите у кого-нибудь, работа небольшая, на 1-2 дня, ИМХО.
Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.
Цитата
Михаил Крисов пишет:
А вот далее надо регуляркой получить строки русского текста, новости, материала.
Код
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);
$result=preg_match_all($rez,FULL);
$result[0] - title 
$result[1] - H1  
$result[2] - статья
как-то так...
Конечно нет универсального решения.... люди специально для таких запросов целые парсеры пишут под конкретный сайт/тип сайтов... а не ОДНУ регулярку...
Цитата
Абырвалг пишет:
как-то так...
Да ну слишком толсто! smile:help:
Цитата
Александр пишет:
если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.
Согласен с Александром, попробуйте _http://simplehtmldom.sourceforge.net/ сначала найти блок с текстом, затем explode('. ').
Максимум чего удалось добиться - это регулярка такого вида [A-Z][\w\d]*(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)*[.!?](?=\s|<|$)
да и то бывает захватывает то меню, то предложения не из текста... более четкого решения не удалось составить... 
Блок с текстом может быть обвернут <p> div table etc. Так что такое решение сложней использовать!
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
11:36 Kokos.click - народная тизерная сеть! 
09:55 Супер-партнерка PayV: избранные офферы в топовых нишах 
07:32 Сайт никак не двигается, нету даже в ТОПе100-200 
00:54 AviTool - мощный инструмент для автоматизации работы с Avito 
21:10 CPA-PRIVATE.BIZ - премиальная товарная программа. Только ТОП ставки! 
20:57 Нужен движок форума. 
20:52 Gambling Craft - гемблинг по белому 
10:15 [eBucks] Автоматический обмен криптовалют. BTC и любые альткоины. Киви, Банковские карты и др. электронные системы. 
07:40 ESSOMILLANNI.COM - SOLID INVESTMENTS 2X 
19:11 Oborot.net - обмен валют онлайн 
18:20 Продвижение YouTube, Insta, TikTok, Teleg, ВК, Твитер, ФБ, ОД 
17:53 Litex.pro обмен валюты с минимальной комиссией 
17:40 Letspay.me - Capitalist, BTC, ETH, USDT <=> Cash USD EUR UAH RUB, AUTO Visa MasterCard UAH RUB 
17:24 Coindrop.trade - обменник электронных валют 
11:31 Заблокировать посетителя через .htaccess 
08:49 37 противникам прививок от COVID грозят уголовные дела 
02:45 Вздремни со мной за деньги 
02:37 Двойные стандарты 
21:34 С юмором по жизни! 
21:07 Россияне рассказали, где собираются встретить Новый год 
20:57 Какой фильм вы любите посмотреть перед сном?