Стала задача разбить html строку (полученную после парсинга страницы) после любых закрывающих тегов, что бы почистить от пробелов, задать переносы строк и проставить где надо маркеры. Нашёл на просторах интернета рабочее решение: preg_match_all('#<([a-z]+)[^/>]*(?:/>|>(?:.+\1>))#Uis',$content,$array); foreach ($array[0] AS $val){ $text .= trim($val)."\n"; } Но есть минус - теги h1, h2 и подобные где, есть числовая составляющая, просто удаляются полостью. Может кто подскажет как регулярку поправить.
Нашёл на просторах интернета рабочее решение:
preg_match_all('#<([a-z]+)[^/>]*(?:/>|>(?:.+\1>))#Uis',$content,$array);
foreach ($array[0] AS $val){
$text .= trim($val)."\n";
}
Но есть минус - теги h1, h2 и подобные где, есть числовая составляющая, просто удаляются полостью.
Может кто подскажет как регулярку поправить.