preg php Ищу помощь
Страницы: 1
preg php Ищу помощь, preg_match_all Вытянуть предложения из html страницы
Не могли бы помочь с регуляркой, весь нет обрыл уже, но даже намека на решение нету. Вроде бы легкая должна быть, но... нету. В общем 
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);

А вот далее надо регуляркой получить строки русского текста, новости, материала. Разбить по формату explode('. ') - не подходит, куча мусора вылазит. Помогите кто чем сможет! Заранее спасибо

Прогон по твиттеру, постинг в 1500 аккунтов
Постинг в твиттер аккаунты, для ускорения индексации ваших сайтов, сателлитов, дорвеев.

если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.
Цитата
Михаил Крисов пишет:
Вроде бы легкая должна быть, но... нету.
Нету не потому, что подобная мысль искать по шаблону пришла только Вам, а потому, что тут нужен целостный алгоритм, а не регулярное выражение. Закажите у кого-нибудь, работа небольшая, на 1-2 дня, ИМХО.
Минуту еще, мой ветер не стих, Мне нравится здесь в Королевстве Кривых...
Цитата
Михаил Крисов пишет:
А вот далее надо регуляркой получить строки русского текста, новости, материала.
Код
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);
$result=preg_match_all($rez,FULL);
$result[0] - title 
$result[1] - H1  
$result[2] - статья
как-то так...
Конечно нет универсального решения.... люди специально для таких запросов целые парсеры пишут под конкретный сайт/тип сайтов... а не ОДНУ регулярку...
Цитата
Абырвалг пишет:
как-то так...
Да ну слишком толсто! smile:help:
Цитата
Александр пишет:
если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.
Согласен с Александром, попробуйте _http://simplehtmldom.sourceforge.net/ сначала найти блок с текстом, затем explode('. ').
Максимум чего удалось добиться - это регулярка такого вида [A-Z][\w\d]*(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)*[.!?](?=\s|<|$)
да и то бывает захватывает то меню, то предложения не из текста... более четкого решения не удалось составить... 
Блок с текстом может быть обвернут <p> div table etc. Так что такое решение сложней использовать!
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
05:39 Наблюдаю за одним сайтом, что скажите? 
21:15 Berileads.ru - финансовая партнерская программа. 
13:09 Какие сайты любит google? 
12:02 Что продвигать в ТОП Яндекса с помощью накрутки ПФ? 
18:14 ИКС 24 сентября 2020 АПдейт | Яндекс ИКС 24.09.2020 
17:03 25 сентября 2020 Степень изменения выдачи: 11.4% | Яндекс выдача 
15:13 Adtrafico - Правильная партнёрская сеть под бурж трафик 
20:34 Самые актуальные и выгодные промокоды Яндекс Директ (Yandex Direct) по низким ценам! 
20:33 Магазин купонов и аккаунтов Google Adwords и яндекс директ 
13:26 Размещу ссылки/статьи на ваш сайт 
23:09 Мобильные скоростные прокси 4G 
21:37 Качественный современный дизайн сайтов, логотипов, печатной продукции. Верстка HTML5/CSS3/JS. 
15:21 Продвину сайт качественными ссылками. Рост посещаемости, позиций и ИКС. Крауд ссылки недорого + скидки. 
15:02 В Dieser_ads Только эффективная реклама! – И только целевая аудитория! 
18:06 Хотела сначала на Авито 
18:03 сейчас дороже, чем нефть и все сокровища мира 
11:48 7 летний мальчик за год заработал 12 миллионов рублей 
03:48 Leadgid — международная финансовая партнерская CPA сеть 
18:11 [b]Webvork [/b]- международная товарная СРА сеть с сертифицированными офферами на Европу. 
17:19 Улучшение ПФ 
17:19 Хочу обратиться к господам лохотронщикам