Foros del Web » Programando para Internet » PHP »

Parsear HTML

Estas en el tema de Parsear HTML en el foro de PHP en Foros del Web. Hola phpadictos, Tengo que extraer datos de html, pero la manera que lo estoy haciendo no me acaba de gustar, pq las paginas son bastante ...
  #1 (permalink)  
Antiguo 21/09/2004, 00:21
 
Fecha de Ingreso: enero-2004
Mensajes: 235
Antigüedad: 20 años, 3 meses
Puntos: 0
Parsear HTML

Hola phpadictos,

Tengo que extraer datos de html, pero la manera que lo estoy haciendo no me acaba de gustar, pq las paginas son bastante estables. El problema viene a la hora de parsear html cuando el contenido es estructurado pero variable.

Cómo lo haceis para parsear html? Se puede usar Dom para parseralo cómo si fuera un html?

Yo lo hago, usando explode(' ',$html), pero es muy débil pq cualquier insercción de nuevas palabras hacen que los indices cambien.

Gracias.
  #2 (permalink)  
Antiguo 21/09/2004, 20:31
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
Tal vez te vendría mejor usar expresiones regulares y crear el patrón que más te adecue en lugar de acceder a un indice concreto que es donde en algún momento el dato está ahí.

Un saludo,
  #3 (permalink)  
Antiguo 21/09/2004, 23:45
 
Fecha de Ingreso: enero-2004
Mensajes: 235
Antigüedad: 20 años, 3 meses
Puntos: 0
Cluster, y hacerlo como si se tratara de xml con dom?
Cómo lo hace la gente normalmente?

Voy faltal de expressiones regulares. Tendria que capturar los datos de una tabla:
preg_match_all ('/<td>([^"]+)</td>/',$html,$img);

pero no me funciona.

Última edición por jmaribau; 22/09/2004 a las 00:40
  #4 (permalink)  
Antiguo 22/09/2004, 06:45
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
mm Hacerlo como si se tratase de un XML .. no creo que funcione correctamente, fijate que XML tiene su estructura dada con sus nodos y demás. Creo que por lo poco estricto que suele ser el HTML que se vé no sé como andaría el tema.

Sobre expresiones regulares no te puedo ayudar mucho por mi parte (no son mi fuerte) .. pero, ahí queda tu pregunta para ver si otro compañero te puede ayudar.

Un saludo,
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 00:18.