Foros del Web » Programando para Internet » PHP »

HTML to XML parser

Estas en el tema de HTML to XML parser en el foro de PHP en Foros del Web. Buenas, Me interesa obtener información concreta de una pagina en HTML, algo como poder sacar el value de los inputs de la página, la información ...
  #1 (permalink)  
Antiguo 15/10/2007, 11:29
Avatar de Necros  
Fecha de Ingreso: enero-2002
Ubicación: Catalunya
Mensajes: 431
Antigüedad: 22 años, 3 meses
Puntos: 0
HTML to XML parser

Buenas,

Me interesa obtener información concreta de una pagina en HTML, algo como poder sacar el value de los inputs de la página, la información de un textarea ...

Mi primera idea es parsear un html a XML, y acceder a nivel de nodo, otra opción es un parser que me permita acceder a la página a niverl de arbol/array ... He estado estudiando la extensión tidy, pero si alguien conoce de algo que me pueda ayudar...

Gracias,
__________________
By NeCrOS
FrEe WoRlD is FrEe CoDE
http://www.NeCrOS.com
  #2 (permalink)  
Antiguo 15/10/2007, 21:28
 
Fecha de Ingreso: septiembre-2007
Mensajes: 52
Antigüedad: 16 años, 7 meses
Puntos: 2
Re: HTML to XML parser

Me parece que depende mucho de qué es exactamente lo que quieres hacer.

¿Qué tipo de información quieres extraer? Algo de esto explicas en tu mensaje (campos <input> y <textarea>), pero ¿cómo exactamente? ¿algunos atributos en particular en el caso de <input>? ¿O todo el nodo completo?

¿Los datos tienen una forma común que no varía? (por ejemplo si extraes datos desde una misma página) ¿O pueden venir de muchas fuentes y con distintas variaciones? (por ejemplo, si sabes que puedes recibir indistintamente <input name=hola>, <input name="hola"> o <input name='hola'> o cosas por ese estilo).

En muchos casos, recurrir a un parser para extraer ciertos trozos de texto de un HTML (o convertir el HTML a XML y luego usar un parser de XML) puede ser un poco exagerado, aunque perfectamente válido por supuesto. Algo así como lo que llaman "matar una mosca con un martillo". Si tienes un martillo a la mano, y una mosca de está molestando, ¿porqué no intentarlo? :).

Si tienes la posibilidad de usar Tidy seguro que no tendrás problemas. Alternativamente te sugeriría que, dependiendo de tus necesidades, consideres usar expresiones regulares o incluso funciones simples de comparación de cadenas para extraer los datos que quieres.

Si necesitas más ayuda, te pediría que nos cuentes un poco más del problema, y quizás nos des un ejemplo de HTML de entrada, y qué es lo que quieres extraer exactamente, así podríamos ayudarte un poco mejor.

Suerte.
  #3 (permalink)  
Antiguo 16/10/2007, 01:45
Avatar de Necros  
Fecha de Ingreso: enero-2002
Ubicación: Catalunya
Mensajes: 431
Antigüedad: 22 años, 3 meses
Puntos: 0
Re: HTML to XML parser

Me interesa extraer el value de los inputs, y claro el contenido de un textarea ... En resumen, me interesa extraer los datos almacenados en las variables de una página html ...

gracias,
__________________
By NeCrOS
FrEe WoRlD is FrEe CoDE
http://www.NeCrOS.com
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 21:43.