Ver Mensaje Individual
  #1 (permalink)  
Antiguo 01/09/2011, 06:50
exorton
 
Fecha de Ingreso: marzo-2009
Mensajes: 41
Antigüedad: 15 años, 2 meses
Puntos: 1
Etiquetas con expresiones regulares

Estoy leyendo una pagina con python con la intención que me obtenga los valores de una etiqueta href y su descripción. me explico:

tengo lo siguiente, de una lista de fechas de nacimiento, donde al hacer click al id lleva a mas datos de la persona.
Código HTML:
Ver original
  1. <a href="index.php?id=1111">23/08/1980&nbsp;</a>
  2. <a href="index.php?id=1111">CARLOS RIQUELME &nbsp;</a>
  3.  
  4. <a href="index.php?id=1112">20-04-1983</a>
  5. <a href="index.php?id=1112">Luis Sobarso</a>
  6.  
  7. <a href="index.php?id=1113">11/03</a>
  8. <a href="index.php?id=1113">
  9.                
  10.                     Ana López
  11.                
  12.            
  13. </a>

Si se fijan cada id tiene dos valores fecha y nombre, como tiene que ser la exprecion regular para que me encuentre todos??

tengo lo siguiente que encontré por ahí

Código Python:
Ver original
  1. import httplib2
  2. import re
  3.  
  4. h = httplib2.Http('.cache')
  5. response, content = h.request(url)
  6. link = re.compile(b'<a href=\"index.php\?id=([\d]+)\">(.*?)<\/a>')
  7. personas = link_of.findall(content)

obtengo un array de las personas, pero no esta Ana Lopez (seguro que por los \r\n\t no se como y donde ponerlos) y en Carlos Riquelme me deja el &nbsp;