Foros del Web » Programando para Internet » ASPX (.net) »

Capturar texto de otra web?

Estas en el tema de Capturar texto de otra web? en el foro de ASPX (.net) en Foros del Web. Hola buenas, tengo un problemilla, yo tengo este codigo, esto lo que me hace es me captura el texto de otra web. Código: WebRequest request ...
  #1 (permalink)  
Antiguo 08/05/2009, 14:04
Avatar de triqui  
Fecha de Ingreso: diciembre-2008
Ubicación: Zaragoza(España)
Mensajes: 624
Antigüedad: 15 años, 4 meses
Puntos: 31
Pregunta Capturar texto de otra web?

Hola buenas, tengo un problemilla, yo tengo este codigo, esto lo que me hace es me captura el texto de otra web.

Código:
WebRequest request = WebRequest.Create("elmundo.es");

                // Obtenengo la respuesta
                 WebResponse response = request.GetResponse();
             
                // Abrir el stream de la respuesta recibida.
                StreamReader reader = new StreamReader(response.GetResponseStream());

                //Capturo el texto de la web(incluido divs y todo el copon)
                TextoUserWeb = reader.ReadToEnd();
                //cierro el stream
                reader.Close();
Internamente me debe abrir la pagina con Internet Explorer, hay algun parametro donde se le pueda indicar el explorador donde lo quieres abrir, yo por ejemplo quiero abrirla con Firefox

Y otra pregunta, cuando me cojo el texto de la pagina, hay alguna forma de que ignore los divs,etc y coja solo la información de texto?


saludos !!
  #2 (permalink)  
Antiguo 08/05/2009, 15:21
Avatar de mdavila  
Fecha de Ingreso: julio-2007
Ubicación: Montevideo (Uruguay)
Mensajes: 919
Antigüedad: 16 años, 9 meses
Puntos: 13
Respuesta: Capturar texto de otra web?

Eso es del lado del cliente y me parece que no se puede hacer a menos que tengas un activeX.
__________________
Marcelo Davila.

:. En Ignorante te conviertes al no preguntar, el que pregunta se nutre... :.
  #3 (permalink)  
Antiguo 08/05/2009, 17:15
 
Fecha de Ingreso: junio-2008
Mensajes: 61
Antigüedad: 15 años, 10 meses
Puntos: 0
Respuesta: Capturar texto de otra web?

Si se puede realizar con cierto grado de alcance, de forma sesgada y no en su totalidad, ademas es algo complejo de usar ya que necesitas:

1.- Validar la URL, existe o no existente
2.- Usar el metodo HttpWebRequest para configurar el uso de la pagina, checa otros foros, sobre todo en ingles, hay mucho del manejo de esta clase, aqui tambien configuras el navegador
3.- Limpiar con Regex tus nodos, en el paso 5 te explicare para que es esto
4.- Usar XmlTextReader (aun cuando sea http, etc) y XmlNodeType para poder manejar la pagina, con esto ignoras las etiquetas que no vayas a usar
5.- Este es el paso mas importante, ya que se van a leer las etiquetas, busca las genericas que sean comunes como title, description, link, etc.

Evalua que tan necesario es el hecho de sacar la información de una pagina por que de entrada es muy extenso de limpiar, por no decir que es casi imposible debido a las diferencias de practicamente TODAS las paginas y que puedas evaluar algo asi. Si algo de lo que te comento te puede servir, utilizalo, ya que es un tema muy extenso y si necesitas acotar este requerimiento, seria mejor, saludos!
  #4 (permalink)  
Antiguo 09/05/2009, 07:23
Avatar de Peterpay
Colaborador
 
Fecha de Ingreso: septiembre-2007
Ubicación: San Francisco, United States
Mensajes: 3.858
Antigüedad: 16 años, 8 meses
Puntos: 87
Respuesta: Capturar texto de otra web?

dkain dijo algo muy cierto , puedes simular que lo abres con firefox solo modificando el useragent.
__________________
Curso WF4
http://cursos.gurudotnet.com/ DF
Aprende HTML5
  #5 (permalink)  
Antiguo 09/05/2009, 11:24
Avatar de triqui  
Fecha de Ingreso: diciembre-2008
Ubicación: Zaragoza(España)
Mensajes: 624
Antigüedad: 15 años, 4 meses
Puntos: 31
Respuesta: Capturar texto de otra web?

Si cierto, llegue a la conclusion de hacerlo con useragent

"user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705;)"

pasandole esto como parametros

gracias a todos.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 07:51.