Foros del Web » Programando para Internet » PHP »

Problema al parsear un texto

Estas en el tema de Problema al parsear un texto en el foro de PHP en Foros del Web. Hola, llevo ya varios días con este problema y es que soy incapaz de encontrarle solución, espero que alguien pueda ayudarme. Tengo una función que ...
  #1 (permalink)  
Antiguo 27/01/2009, 13:14
Avatar de Emirodgar  
Fecha de Ingreso: junio-2008
Mensajes: 1.255
Antigüedad: 15 años, 10 meses
Puntos: 121
Mensaje Problema al parsear un texto

Hola, llevo ya varios días con este problema y es que soy incapaz de encontrarle solución, espero que alguien pueda ayudarme.

Tengo una función que parsea un texto en busca de una palabra concreta y la sustituye en el texto, mediante una serie de expresiones regulares le indico que no quiero que coja la palabra si se encuentra en enlaces, etiquetas,...

Todo funciona bien hasta que el texto pasa de un número concreto de caracteres, en ese momento se olvida de las expresiones regulares.

Pongo el código:

Código:
<?php				
$find = '/wordpress/i';
$isFind = false;
$content='Nachdem Sylvermoon in einem <a href="http://blog.huebel-online.de/2009/01/11/blogintroduction-wordpress-widget-020-released/comment-page-1/#comment-25315">prueba</a> Kommentar hier im Blog ich darauf aufmerksam. Esto es otra prueba para comprobar hasta cuantos cararcteres funciona bien. Parece ser que el límite está en trescientos  ';
				
$matches = array();
preg_match_all($find, $content, $matches, PREG_OFFSET_CAPTURE);
$matchData = $matches[0];
				

$noChanges = array(
	'/<h[1-6][^>]*>[^<]*'.$link->text.'[^<]*<\/h[1-6]>/i',
	'/src=("|\')[^"\']*'.$link->text.'[^"\']*("|\')/i',
	'/alt=("|\')[^"\']*'.$link->text.'[^"\']*("|\')/i',
	'/title=("|\')[^"\']*'.$link->text.'[^"\']*("|\')/i',
	'/content=("|\')[^"\']*'.$link->text.'[^"\']*("|\')/i',
	'/<script[^>]*>[^<]*'.$link->text.'[^<]*<\/script>/i',
	'/<embed[^>]+>[^<]*'.$link->text.'[^<]*<\/embed>/i',
	'/wmode=("|\')[^"\']*'.$link->text.'[^"\']*("|\')/i',
	'/<a[^>]+>[^<]*'.$link->text.'[^<]*<\/a>/i',
	'/href=("|\')[^"\']+'.$link->text.'(.*)[^"\']+("|\')/i'
);

foreach($noChanges as $noChange){
	$results = array();
	preg_match_all($noChange, $content, $results, PREG_OFFSET_CAPTURE);
	$matches = $results[0];
						
}
					
if(!count($matches) == 0) {
	foreach($matches as $match){
		$start = $match[1];
		$end = $match[1] + strlen($match[0]);
		foreach($matchData as $index => $data){
			if($data[1] >= $start && $data[1] <= $end){
				$matchData[$index][2] = true;
			}
		}
	}
}		


foreach($matchData as $index => $match){
	if($match[2] != true) {
		$isFind = $match;
		break;
	}
}
					

if(is_array($isFind)){
			
        $replacement = '<a href="'.$link->url.'"';
	$replacement =	$replacement.'title="'.$link->anchortext.'" >'.$isFind[0].'</a>';

	$content = substr($content, 0, $isFind[1]) . $replacement. substr($content, $isFind[1] + strlen($isFind[0]));;
}

echo "Longitud: ".strlen($content)."<br>";
					
echo $content;
Por ejemplo, si lo ejecutamos tal cual, encontrará la palabra wordpress dentro de un href por lo que no la sustituirá, pero si a $content le añadimos algo más de texto (por ejemplo a mi con añadirle 3 puntos suspensivos me vale) falla y lo sustituye, como si por ser más texto ya no ejecutara bien las expresiones regulares.

¿Alguna idea? por que a mi se me han acabado todas...
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 04:57.