Foros del Web » Programando para Internet » PHP »

parsear HTML

Estas en el tema de parsear HTML en el foro de PHP en Foros del Web. hola a todos tengo el siguientes problema y es q kiero parsear cualquier pagina html pero solo obtener el texto q sea de mi interes ...
  #1 (permalink)  
Antiguo 11/02/2013, 10:40
 
Fecha de Ingreso: enero-2012
Mensajes: 10
Antigüedad: 12 años, 3 meses
Puntos: 0
parsear HTML

hola a todos tengo el siguientes problema y es q kiero parsear cualquier pagina html pero solo obtener el texto q sea de mi interes y la cuestion es q cada pagina web tiene una ocnfiguracion diferente y entonces no se como hacer eso porque no existe como tal un patron he pensado en un algoritmo por la busqueda de palabras claves pero se me hace muy engorroso si pudierna ayudarme por fa es mi tesis!!!
  #2 (permalink)  
Antiguo 11/02/2013, 11:03
Avatar de jonni09lo
Colaborador
 
Fecha de Ingreso: septiembre-2011
Ubicación: Estigia
Mensajes: 1.471
Antigüedad: 12 años, 7 meses
Puntos: 397
Respuesta: parsear HTML

Hola explica mejor esta parte

Cita:
Iniciado por mhinojosa Ver Mensaje
pero solo obtener el texto q sea de mi interes

Saludos
__________________
Haz preguntas inteligentes-Como ser Hacker
No hacer preguntas por mensaje privado. No sólo no es inteligente sino que es egoísta.
  #3 (permalink)  
Antiguo 11/02/2013, 11:32
 
Fecha de Ingreso: enero-2012
Mensajes: 10
Antigüedad: 12 años, 3 meses
Puntos: 0
Respuesta: parsear HTML

ssi mira cuando me refiereo al texto de mi interes es el texto q yo kiera por ejemplo cuando entras a una pagina de noticias y entras a una noticia la pagina web no es solo la noticia sino tiene tambien links q eso es texto tambien y abajo espacios para comentar no yo no quiero nada mas que el texto referente a la noticia q eso eta contenido dentro de alguna etiqueta pero no entodas las pag web es lo mismo me entiendes??
  #4 (permalink)  
Antiguo 11/02/2013, 11:47
Avatar de jonni09lo
Colaborador
 
Fecha de Ingreso: septiembre-2011
Ubicación: Estigia
Mensajes: 1.471
Antigüedad: 12 años, 7 meses
Puntos: 397
Respuesta: parsear HTML

pero no entodas las pag web es lo mismo ....

Ese si es un problema, porque si el contenido es de un solo sitio web o el contenido son etiquetas especificas (og tags, meta tags, etc.) no seria tan complejo, ya que con expresiones regulares se soluciona fácilmente eso.

El asunto es que deben haber parámetros fijos que TODAS las paginas deberían tener, parámetros que debes de definir en base a lo que quieres lograr, no se, etiquetas especificas, estructuras definidas etc.

Obtendrías el contenido del documento, y bajo esos parámetros y expresiones regulares obtendrías lo que deseas, esa seria la idea base

Saludos
__________________
Haz preguntas inteligentes-Como ser Hacker
No hacer preguntas por mensaje privado. No sólo no es inteligente sino que es egoísta.
  #5 (permalink)  
Antiguo 11/02/2013, 11:55
 
Fecha de Ingreso: enero-2012
Mensajes: 10
Antigüedad: 12 años, 3 meses
Puntos: 0
Respuesta: parsear HTML

que crees de usar un algoritmo que mediante la identificacion de palabras claves extraiga la parte que quiero del texto de auerdo a la coincidencia,conoces de alguno? o de alguna herramienta que haga esto..de veras lo necesito..muchas gracias por la respuesta anterior...saludos
  #6 (permalink)  
Antiguo 11/02/2013, 12:12
Avatar de jonni09lo
Colaborador
 
Fecha de Ingreso: septiembre-2011
Ubicación: Estigia
Mensajes: 1.471
Antigüedad: 12 años, 7 meses
Puntos: 397
Respuesta: parsear HTML

Pues en si esa es la idea, yo lo vería como una clase que se encargue de ello, herramientas para ello las desconozco pero como tal pueden haber

Saludos
__________________
Haz preguntas inteligentes-Como ser Hacker
No hacer preguntas por mensaje privado. No sólo no es inteligente sino que es egoísta.
  #7 (permalink)  
Antiguo 11/02/2013, 12:17
 
Fecha de Ingreso: enero-2012
Mensajes: 10
Antigüedad: 12 años, 3 meses
Puntos: 0
Respuesta: parsear HTML

y algoritmo tampoco sabes es que me he cansado de buscar q ya no se ni que buscar no aparece nada concreto como tal acerca de eso

Etiquetas: html, parsear
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 10:05.