Parseando XHTML con Expresiones regulares [Ayuda]

thepancher · #1 (**permalink**) 28/09/2009, 14:38

Hola que tal, miren... Ando buscando la forma de analizar archivos xhtml. Y quiero saber si alguien me puede ayudar...

Lo que necesito lograr es extraer los tags de uns archivo xhtml a un array de la siguiente forma... Por ej.

Si el xhtml fuese asi:

Código html:

Ver original<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <p class="neat">Lorem ipsum dolor sit amet... </p>
        </body>
</html>

yo necesitaria armar una array que me de la siguiente info. tomo como ejemplo el tag p

Código php:

Ver originalarray (
        [5] => array(
                [tag] => "p",
                [attributes] => " class=\"neat\"",
                [value] => "Lorem ipsum dolor sit amet... ",
                [depth] => "2"
        )
)

para hacer mas simple la explicacion... sme conformo solo con saber como extraer tal info.

estve usando una funcion en la cual utilizo la siguiente expresion regular:

Código php:

Ver original$pattern = '/\<([a-z0-9\-]+)([^\>]+)?\>((.*)\<\/\1\>)?/';

entonces en la function lo q hago es pasar el/los array(s) por referencia utilizando preg_match_all() algo asi:

Código php:

Ver originalfunction parse($xhtml, &$array, $depth = 0)
{
        preg_match_all($pattern, $xhtml, $matches);
        
        // con un loop ubico la info de $matches (array_push()) en el array... etc.
        for ($i = 0; $i < count($matches[0]; $i++)) {
                $array[$i]['tag'] = $matches[1][$i];
                $array[$i]['attributes'] = $matches[2][$i];
                $array[$i]['value'] = $matches[4][$i];
                $array[$i]['depth'] = $depth;
        }
        // y repito la funcion pasandole $xhtml = $matches[4][$i] que si se fijan
        // en la regexp. el subpatron 4 seria el valor del tag y depth sumandole uno
        // ya que marca la profundidad... ej el depth del tag html es 0, el de head
        // y el body es 1, ya que estan dentro del tag html, title y p serian 3, etc.
        parse($matches[4], $array, $depth + 1);
}

he aqui el problem:
supongamos q tenemos un xhtml donde usaron un trukito css para ponerle esquinas redondeadas a un div...

Código html:

Ver original<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1"></div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat">Lorem ipsum dolor sit amet... </p>
                </div>
        </body>
</html>

se llega a obtener muy buenos resultados, pero cuando queremos parsear el valor del <div id="container"> bienen los problemas...

ya que como valor del <div id="c1"> que tendria que ser nulo o sea "", me da este valor:

Código html:

Ver original</div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4">

ya que toma como cierre de la divison el de id="c4"... y si cambio el subpatron 4 del a reg exp. haciendo "ungreedy" como se dice jeje, que quedaria... "... (.*?) ..."

tra problemas al parsear el div id="container" y que como valor del container traeria lo siguiente:

Código html:

Ver original<div id="c1">

ya que me toma como cierre el primer div... y como los divs se usan muchos en los XHTML, uno dentro de otros, creo que seria imposible analizar uno...

probe haciendo un if dentro de la reg exp. pero cuando se solucion un problem, surge otro xD

a ver si alguien me puede ayudar?

Saludos!

PD: Por favor, si me van a contestar algo como "porque no usas DOM?" o algo asi, directamente no respondan xD ya se que exsite DOM y facilitaria las cosas, pero yo quiero encontrarle la vuelta si o si mas o menos de la forma que digo, con regexps. desde ya, gracias a todos

abimaelrc · #2 (**permalink**) 28/09/2009, 17:48

Creo que de esta forma es que funcionaría

Código PHP:

Ver original<?php
$s = '<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1"></div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat">Lorem ipsum dolor sit amet... </p>
                </div>
        </body>
</html>';
$pattern = '/\<([a-z0-9\-]+)([^\>]*)\>((.*)\<\/\1\>)?/';
preg_match_all($pattern, $s, $m);
print_r($m);

thepancher · #3 (**permalink**) 28/09/2009, 19:58

Si, eso funciona, pero si te encontras con dos tags o mas en una sola linea bienen los problemas, por eso es necesario parsearlo con los modificadores "i" y "s" o sea:

Código php:

Ver original$pattern = '/\<([a-z0-9\-]+)([^\>]*)\>((.*)\<\/\1\>)?/is';

la idea es parsear el xhtml sacandole las nuevas lineas "\n" y las tabulaciones "\t", o sea, todo en una sola linea...

si nos encontramos con esto:

Código html:

Ver original<div id="container"><div id="c1"></div><div id="c2"></div><div id="3"></div><div id="c4"></div></div><div id="otrodiv">Blablablah... </div>

el valor del container seria '<div id="c1"></div><div id="c2"></div><div id="3"></div><div id="c4"></div></div><div id="otrodiv">Blablablah... '

lo cual no es correcto...

abimaelrc · #4 (**permalink**) 28/09/2009, 22:11

Trata de esta forma

Código PHP:

Ver original<?php
$s = '<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1"></div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat">Lorem ipsum dolor sit amet... </p>
                </div>
        </body>
</html>';
$pattern = '/<[a-z0-9\-]+([^>]*)>([^<]+)<\/+[a-z0-9\-]+>|<([a-z0-9\-]+)([^>]*)>/is';
preg_match_all($pattern, $s, $m);
print_r($m);

thepancher · #5 (**permalink**) 29/09/2009, 01:21

Gracias por tu ayuda, pero nop... No me resulta.

Empiezo a pensar que es imposible hacerlo solo con una regexp xD

voy a ver alguna otra forma. si a alguien se le ocurre ayudarme bienvenido sea!

abimaelrc · #6 (**permalink**) 29/09/2009, 01:32

Pero en el ejemplo que me diste, segun lo que hice si salen todos. Trata el ejemplo que te di. Si tienes algun otro vamos modificandolo hasta que logre lo que quieres, pero ese ejemplo publica todos y ademas te trae la información como tu quieres.
Con este ejemplo

Código PHP:

Ver original<?php
$s = '<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1"></div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat">Lorem ipsum dolor sit amet... </p>
                </div>
        </body>
</html>';
$pattern = '/<([a-z0-9\-]+)([^>]*)>([^<]+)<\/+[a-z0-9\-]+>|<([a-z0-9\-]+)([^>]*)>/is';
preg_match_all($pattern, $s, $m);
print_r($m);

Fijate en el resultado

Código codigo:

Te dice todos las etiquetas pero en dos partes una se encuentra en el [1] => Array y la otra esta en el [4] => Array
Tambien te dice los id y class pero en dos array uno se encuentra en el [2] => Array y el otro esta en el [5] => Array
Si los quieres unir puedes usar la funcion array_merge()

Código PHP:

Ver original<?php
$s = '<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1"></div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat">Lorem ipsum dolor sit amet... </p>
                </div>
        </body>
</html>';
$pattern = '/<([a-z0-9\-]+)([^>]*)>([^<]+)<\/+[a-z0-9\-]+>|<([a-z0-9\-]+)([^>]*)>/is';
preg_match_all($pattern, $s, $m);
print_r($m);
$r = array_merge($m[1],$m[4]);
print_r($r);

thepancher · #7 (**permalink**) 29/09/2009, 21:51

si tenes razon, o sea, no me habia fijado en eso.... pero ahora probe otra cosa comun... con otro ejemplo:

Código html:

Ver original<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1">Lorem ipsum... </div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat"><strong>Lorem ipsum</strong> dolor sit amet... </p>
                        Lorem ipsum dolor sit amet... 
                </div>
        </body>
</html>

Fijate que si al html en el contenedir id se le agrega texto plano no lo toma, y si agregamos un <strong> a una frase del "p" se corta el texto... hasta antes del <strong> que es algo muy utilizado...

por eso creo q la idea seria poder tomar todo el valor de un tag sea texto plano o elementos, o los dos mezclados... y creo que mas que una expresion regular, se van a necestar varias y todo un proceso... me puse a pensar varias maneras pero todaia no se me ocurre nada concreto xD

lo que enrealidad quiero lograr es algo parecido al HTMLSQL (http://www.jonasjohn.de/lab/htmlsql.htm) pero como lo mire con toke la parte que extrae los tags, y tiene los errores q te mencione, al principio, que son errores que no quiero cometer...