Foros del Web » Programando para Internet » Python »

Beautiful Soup

Estas en el tema de Beautiful Soup en el foro de Python en Foros del Web. Hola a todos. Voy directo al problema. Tengo el siguiente código: @import url("http://static.forosdelweb.com/clientscript/vbulletin_css/geshi.css"); Código Python: Ver original >>> from bs4 import BeautifulSoup >>> >>> doc ...
  #1 (permalink)  
Antiguo 08/12/2012, 16:07
 
Fecha de Ingreso: enero-2012
Ubicación: Buenos Aires
Mensajes: 745
Antigüedad: 12 años, 3 meses
Puntos: 35
Beautiful Soup

Hola a todos. Voy directo al problema. Tengo el siguiente código:

Código Python:
Ver original
  1. >>> from bs4 import BeautifulSoup
  2. >>>
  3. >>> doc = "<html><p>Peter&# 39;s house</p></html>"
  4. >>> text = BeautifulSoup(doc).get_text()
  5. >>> text
  6. u"Peter's house"

Hay alguna manera de hacer eso mismo (remover el código html) sin que convierta el &# 39; (lo escribo separado para que se visualice) en el caracter correspondiente?
No he encontrado alguna solución en la documentación.

Gracias desde ya!

  #2 (permalink)  
Antiguo 08/12/2012, 17:54
Avatar de razpeitia
Moderador
 
Fecha de Ingreso: marzo-2005
Ubicación: Monterrey, México
Mensajes: 7.321
Antigüedad: 19 años, 1 mes
Puntos: 1360
Respuesta: Beautiful Soup

Parece no haber forma en bs4.
  #3 (permalink)  
Antiguo 09/12/2012, 10:42
 
Fecha de Ingreso: enero-2012
Ubicación: Buenos Aires
Mensajes: 745
Antigüedad: 12 años, 3 meses
Puntos: 35
Respuesta: Beautiful Soup

Gracias. Alguna otra alternativa o módulo?

  #4 (permalink)  
Antiguo 09/12/2012, 10:58
Avatar de razpeitia
Moderador
 
Fecha de Ingreso: marzo-2005
Ubicación: Monterrey, México
Mensajes: 7.321
Antigüedad: 19 años, 1 mes
Puntos: 1360
Respuesta: Beautiful Soup

Con BS3.

Código Python:
Ver original
  1. from BeautifulSoup import BeautifulSoup
  2. doc = "<html><p>Peter's house</p></html>"
  3. text = BeautifulSoup(doc).get_text()
  4. print text.getText()
  #5 (permalink)  
Antiguo 09/12/2012, 15:29
 
Fecha de Ingreso: enero-2012
Ubicación: Buenos Aires
Mensajes: 745
Antigüedad: 12 años, 3 meses
Puntos: 35
Respuesta: Beautiful Soup

Gracias!

Etiquetas: gui, import
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 20:43.