preg php Ищу помощь
Страницы: 1
preg php Ищу помощь, preg_match_all Вытянуть предложения из html страницы
Не могли бы помочь с регуляркой, весь нет обрыл уже, но даже намека на решение нету. Вроде бы легкая должна быть, но... нету. В общем 
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);

А вот далее надо регуляркой получить строки русского текста, новости, материала. Разбить по формату explode('. ') - не подходит, куча мусора вылазит. Помогите кто чем сможет! Заранее спасибо
если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.
Цитата
Михаил Крисов пишет:
Вроде бы легкая должна быть, но... нету.
Нету не потому, что подобная мысль искать по шаблону пришла только Вам, а потому, что тут нужен целостный алгоритм, а не регулярное выражение. Закажите у кого-нибудь, работа небольшая, на 1-2 дня, ИМХО.
Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.
Цитата
Михаил Крисов пишет:
А вот далее надо регуляркой получить строки русского текста, новости, материала.
Код
$rez=file_get_contents(Любая ссылка на html страницу статью, новость, контент);
$result=preg_match_all($rez,FULL);
$result[0] - title 
$result[1] - H1  
$result[2] - статья
как-то так...
Конечно нет универсального решения.... люди специально для таких запросов целые парсеры пишут под конкретный сайт/тип сайтов... а не ОДНУ регулярку...
Цитата
Абырвалг пишет:
как-то так...
Да ну слишком толсто! smile:help:
Цитата
Александр пишет:
если есть возможность выделить блоки в html верстке того, что парсится, то попробуйте Simple HTML DOM Parser.
Согласен с Александром, попробуйте _http://simplehtmldom.sourceforge.net/ сначала найти блок с текстом, затем explode('. ').
Максимум чего удалось добиться - это регулярка такого вида [A-Z][\w\d]*(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)(?:[\s,-]+[\w\d]+)*[.!?](?=\s|<|$)
да и то бывает захватывает то меню, то предложения не из текста... более четкого решения не удалось составить... 
Блок с текстом может быть обвернут <p> div table etc. Так что такое решение сложней использовать!
Страницы: 1
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
00:02 Как безопасно купить Гугл почту? 
23:28 че по ПФ щас реально работает?? (кроме старья) 
23:26 [AI] Qwen3-Max Thinking: Алибаба подвинула DeepSeek и Gemini? 
22:47 29.01. Апдейт: Шторм // Вчера отдали 3% с оборота? 
22:46 Продвижение-2022: Гугл все? Нет – Гугл не все! 
10:40 Дзен окончательно всё? Или у кого-то еще «стреляет» белый контент? 
07:58 Нашел скрины выплат с Сапы за 2010 год. Пошел плакать 
23:03 SOCKS5 приватные прокси на 30 дней для PayPal 
23:02 Google Voice аккаунты для бесплатных SMS и звонков 
23:02 PayPal аккаунты для любых целей 
16:44 CryptoMonitor.info - ваш надеждный обменник BTC USDT XMR (без KYC) 
14:38 CryptoGraph — Анонимный обмен криптовалют без KYC и AML 
13:32 Мониторинг обменников Сrypto-scout.io 
13:16 Скрипт обменника валют 
23:24 Осталось 3-5 месяцев до блокировки YouTube в России, — заявил Клименко 
22:57 Gartner обещал смерть SEO к 2026 году. Открываем метрику и проверяем 
06:57 блокировка youtube 2026: ркн начинает «выдавливание». кто уже пробовал вк видео? 
15:18 Win 10: Три месяца без обновлений. Как полёт? // Переезд на Win 11 или Linux 
16:25 Подтягиваем физкультурку 
08:18 Тренера "Сочи" обвинили, что он рулил через ChatGPT. Игрокам предложили не спать 28 часов 
08:09 Владельцы "китайцев" 3-леток, признавайтесь честно — сгнили или едут?