Foros del Web » Programando para Internet » PHP »

Script para analizar cualquier estructura html

Estas en el tema de Script para analizar cualquier estructura html en el foro de PHP en Foros del Web. Hola colegas veran estoy por hacer un programa y mi objetivo es poder analizar cualquier pagina html para guardar la informacion en una base de ...
  #1 (permalink)  
Antiguo 22/06/2013, 21:29
Avatar de Sergestux  
Fecha de Ingreso: agosto-2007
Ubicación: Tapachula
Mensajes: 1.218
Antigüedad: 16 años, 8 meses
Puntos: 20
Script para analizar cualquier estructura html

Hola colegas veran estoy por hacer un programa y mi objetivo es poder analizar cualquier pagina html para guardar la informacion en una base de datos.

Por ejemplo guardar lo que hay dentro de los parrafos <p></p> en un lugar, las imagenes <img></img> en otro lado y asi sucesivamente.

Mi idea es hacerlo con php pero no se si sea el mejor lenguaje para hacer este tipo de programa en caso de haber una libreria que me permita jugar con la estructura de un html, o si es mejor otro lenguaje como Perl.

Dudas, sugerencias o mentadas, estare agradecido de recibirlas
  #2 (permalink)  
Antiguo 22/06/2013, 22:04
Avatar de Italico76  
Fecha de Ingreso: abril-2007
Mensajes: 3.303
Antigüedad: 17 años
Puntos: 292
Respuesta: Script para analizar cualquier estructura html

Usa simpleXML pero cargalo como explican aqui o aca

Pues ten en cuenta el HTML es muy similar al XML con la diferencia de que tu puedes no tener los tags en pares, ejemplo: <img /> o <br/> o <p/>
__________________
Salu2!
  #3 (permalink)  
Antiguo 24/06/2013, 06:49
Avatar de Sergestux  
Fecha de Ingreso: agosto-2007
Ubicación: Tapachula
Mensajes: 1.218
Antigüedad: 16 años, 8 meses
Puntos: 20
Respuesta: Script para analizar cualquier estructura html

Gracias por la respuesta sabes apenas me estoy conectando y ya había resuelto mi problema utilizando precisamente DOMDocument() así como lo explican donde me dices y después usando el método de la misma clase getElementsByTagName y funciona bien.
Código PHP:
Ver original
  1. $html = file_get_contents('http://example.com/');
  2. $doc = new DOMDocument();
  3. $doc->loadHTML($html);
El problema es que el método loadHTML falla por completo cuando la estructura del HTML no es correcto, es decir que por ejemplo les hizo falta cerrar alguna etiqueta.

Al parecer los metodos de la clase DOMDocument son suficientes para lo que necesito ahora que no se como resolver la carga cuando hayan errores en la misma codificación HTML
  #4 (permalink)  
Antiguo 24/06/2013, 07:55
Avatar de Italico76  
Fecha de Ingreso: abril-2007
Mensajes: 3.303
Antigüedad: 17 años
Puntos: 292
Respuesta: Script para analizar cualquier estructura html

Prueba ANTES de hacer loadHTML() incluir esta linea:

Cita:
$doc->strictErrorChecking = FALSE;
__________________
Salu2!
  #5 (permalink)  
Antiguo 24/06/2013, 11:18
Avatar de Sergestux  
Fecha de Ingreso: agosto-2007
Ubicación: Tapachula
Mensajes: 1.218
Antigüedad: 16 años, 8 meses
Puntos: 20
Respuesta: Script para analizar cualquier estructura html

Gracias aun no lo he probado ya que mi script forma parte de un proyecto mas grande que estoy realizando el cual no lo tengo ahorita pero en la pagina que me pasaste vi que también sugieren este código para lo mismo:

Etiquetas: estructura, html
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 21:22.