el $text lo que contiene es este codigo filtrado de la pagina que puse al inicio:
Código PHP:
<tr><td colspan="5" class="table_bg" height="20" >Malicious URLs on <b>bbssifu.cn</b> </td>
</tr><tr><td style="padding:10px;"><pre>/01.htm
/123.htm
/a.exe</pre></td></tr
con la primera ExRegular, lo que hice fue sacar los dominios (serian las palabras terminadas en punto (.) y de 1 a 4 palagras, por ejemplo xxxxxxx.xxx y con la segunda extraigo lo que se encuentra entre <pre> y </pre> y esta las toma por palabras que inician con el simbolo
/ no se si me entiendas esta parte ya que es confuso explicarlo, pero bueno el codigo el contenido de $text es el codigo html que esta al inicio, aparte uso filtros para limpiar el texto, pero bueno el codigo es este
Código PHP:
$url1 = @file_get_contents('http://........');
$text = ereg_replace("</b>", " ", $url1);
$text = ereg_replace("<b>", " ", $text);
$str = trim($text);
$str = preg_replace("/\s\s+/", ' ', $str);
$regExp1="/([^ ]+\.[a-zA-Z]{1,4}[$ ]*)/";
preg_match_all($regExp1, $str, $patron1);
$regExp2="/(\/[^ ]*)/";
preg_match_all($regExp2, $str, $patron2);
$count1 = count($patron2[1]);
for ($row1 = 0; $row1 < $count1 ; $row1++) {
$string = trim($patron1[1][0]).trim($patron2[1][$row1]);
$string = ereg_replace(" ", "", $string);
$h = trim("http://".$string);
echo $h."<br>";
}