Foros del Web - Ver Mensaje Individual

carlos3074 · #2 (**permalink**) 23/01/2005, 10:18

hola

Ocrum2004 alli te envió un código que encontré en la red es gratis lee las condiones de la licencia a lo mejor te sirva

adaptalo y por lo menos agradecer al author

#!/usr/bin/python
# vim: set expandtab tabstop=4 shiftwidth=4:
# +----------------------------------------------------------------------+
# | MailingListStat: |
# | Herramienta de analisis de listas de correo-e |
# | Modulo de descarga de archivos de listas |
# +----------------------------------------------------------------------+
# | http://barba.dat.escet.urjc.es:9080/grex/pfc/jcrespo |
# +----------------------------------------------------------------------+
# | Copyright (c) 2004 Javier Crespo Martin(Madrid, Spain) |
# +----------------------------------------------------------------------+
# | This program is free software. You can redistribute it and/or modify |
# | it under the terms of the GNU General Public License as published by |
# | the Free Software Foundation; either version 2 or later of the GPL. |
# +----------------------------------------------------------------------+
# | Authors: |
# | Javier Crespo Martin <[email protected]> |
# +----------------------------------------------------------------------+
#
'''Modulo de descarga de archivos de listas
@author: Javier Crespo Martin
@organization: Grupo de Sistemas y Comunicaciones, Universidad Rey Juan Carlos
@copyright: 2004 Javier Crespo Martin(Madrid, Spain))
@license: GNU GPL version 2 or any later version
@contact: [email protected]
'''

import sys, re, urllib, pydoc, os
from config import *

def ObtenArchivos(url = config_url):
'''
0. Funcion para parsear una pagina html y obtener y descargar
los archivos de listas de correo

1. Documentacion optimizada para epydocc

2. Versión 1.00

3. Descripcion: Se conecta a una url y parsea la pagina en busca de
archivos de listas de correos y los guarda en disco local.
@param url: Esta es la direcion a al que se conecta el programas
para descargarse los archivos de listas de correo.
@param dir: Ruta donde se van a guardar los archivos.
@type url: string variable
@type dir: string variable
@return: guarda los archivos en disco local, en la ruta especificada
'''

#informacion
print 'Pagina en la que se va a buscar\n' + url

#se obtine la pagina de la web
print 'Conectando a la pagina'
urllib.urlretrieve(url, filename = config_mainDirectory + 'pagina.htm')
#os.system('wget ' + url + ' -O ' + config_mainDirectory + 'pagina.htm')

#se crean los patrones de busqueda <td><A href="2003-July.txt">[ Texto 438 KB ]</a></td>
patron0 = re.compile('^(.*)A|a href="((.*)'+ config_tipos +')"(.*)')
patron1 = re.compile('(.*)/((.*)'+ config_tipos +')')
print 'se van a buscar los siguiente tipos de archivos\n' + config_tipos

#se abre el fichero
fichero = open (config_mainDirectory + 'pagina.htm')
list = []

#Buscando y guardando archivos
print '\nBuscando y guardando archivos'

# Crea el directorio si no existe
if not os.path.isdir(config_filesComprimidos):
os.mkdir(config_filesComprimidos)
while 1:
linea = fichero.readline()
if not linea:
break
resultado0 = patron0.match(linea)
if resultado0:
archivo = patron1.match(resultado0.group(2))
list.append(resultado0.group(2))
print 'Descargando fichero: ' + resultado0.group(2)
urllib.urlretrieve(url + '/' + resultado0.group(2), filename = config_filesComprimidos + resultado0.group(2))
continue

print 'Lista de archivos obtenidos'
print list