Foros del Web - Ver Mensaje Individual

valdea · #1 (**permalink**) 19/09/2012, 01:43

Buenas,

tengo que interpretar un texto plano en formato HTML para extraer la información y guardarla en base de datos. Tengo que quedarme con el contenido de una clase concreta y dentro de ella repetir lo mismo para identificar el contenido de sus componenetes. Como ejemplo, necesitaría guardar en SQL una lista de productos con sus precios, extrayendo la información de una página HTML ya generada.

El problema lo tengo en identificar el final de la etiqueta. Os pongo un ejemplo:

<td class="Categoria1">
<img ..... lo que sea....>

<td class="Producto">
Descripcion del producto1
12
</td>

...
<td class="Producto">
Descripcion del producto2
52
</td>
<td class="Producto">
Descripcion del producto3
43
</td>
<td class="Producto">
Descripcion del producto
12
</td>

...


¿Cómo puedo identificar el bloque de texto correspondiente a la clase "Categoria1"?

Buscar el patrón entre "td class="Categoria1" y "</td> no me vale, pues pararía en el primer </td> que encontrara (en el ejemplo, el del primer producto)

¿Es esto posible? ¿Hay algún 'interprete' de HTML en PHP que identifique el final de las etiquetas?