Foros del Web » Estrategias Digitales y Negocios Online » Negocios »

Todo el contenido de mi sitio en tu web:

Estas en el tema de Todo el contenido de mi sitio en tu web: en el foro de Negocios en Foros del Web. Esta idea nace a partir de un problema con mi servidor y para solucionarlo propongo el intercambio. Problema: en mi server no puedo hacer correr ...
  #1 (permalink)  
Antiguo 02/06/2004, 08:43
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
Todo el contenido de mi sitio en tu web:

Esta idea nace a partir de un problema con mi servidor y para solucionarlo propongo el intercambio.

Problema: en mi server no puedo hacer correr un script(php) por mas de 60 segundos(ver firma) por la política de seguridad que tienen implementada, el script en cuestión es él más importante, es el que se encarga de rastrear e indexar a la base de datos las distintas paginas de los sitios que son sugeridos.

Propuesta: lo que estoy buscando es poder correr este script en un servidor que no tenga limitaciones de tiempo o en un servidor dedicado, a cambio puedo ofrecer el directorio y la búsqueda de donBenito para implementar en un sitio web totalmente personalizado como si fuera contenido propio, y de hecho lo va a ser.

Que les parece?
  #2 (permalink)  
Antiguo 02/06/2004, 08:56
Ex Colaborador
 
Fecha de Ingreso: junio-2002
Mensajes: 9.091
Antigüedad: 21 años, 10 meses
Puntos: 16
Hola,

¿Por que no usas tu equipo local de spider y que haga la actualizacion de la BD remotamente? Si tienes conexion ADSL o cable, no tendrias muchos problemas.

Saludos.
__________________
Josemi

Aprendiz de mucho, maestro de poco.
  #3 (permalink)  
Antiguo 02/06/2004, 09:01
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
No me permiten la conexion remota por una cueston de seguridad dicen...

Y el intercambio tiene muchas cosas buenas, un problema puede ser una oportunidad.

Saludos.
  #4 (permalink)  
Antiguo 02/06/2004, 09:12
Ex Colaborador
 
Fecha de Ingreso: junio-2002
Mensajes: 9.091
Antigüedad: 21 años, 10 meses
Puntos: 16
La actualozacion remota no tiene por que ser con un conexion directa a la BD. Puedes poner en el servidor un script que reciba un fichero con las acutalizaciones y las realice.

Por supuesto, si consigues un dedicado mejor. De todas formas, lo mejor es que no uses el PHP del servidor web (CGI o modulo), sino que uses la version cli (como cualquier programa ejecutable). La version para servidor web siempre sera mas "tacaña" con los recursos.

Suerte.
__________________
Josemi

Aprendiz de mucho, maestro de poco.
  #5 (permalink)  
Antiguo 02/06/2004, 11:16
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
El problema es que el SPIDER hace un bucle con cada una de las url`s de una tabla DIRECTORIO, rastrea todas las paginas de cada sitio y las agrega en la tabla SEARCH. Por eso tiene que estar conectada, se que pueden haber otras soluciones tecnicas pero tengo que ponerme a modificar todo es codigo, por eso pienso que es mejor el intercambio. De todas formas lo pensaba hacer antes del problema.
Gracias Josemi!

La propuesta continua en pie...
  #6 (permalink)  
Antiguo 09/06/2004, 17:21
 
Fecha de Ingreso: junio-2004
Mensajes: 101
Antigüedad: 19 años, 10 meses
Puntos: 0
Hola:

Yo podria ayudarte en lo que pides, lo que nose es si te sirva de mucho pues tengo una web alojada en el servidor gratuito de webcindario.com y suele fallar cada dos por tres.

Pero si a un te interesa me puedes contactar para ver en detalle lo tu scripts

saludos
  #7 (permalink)  
Antiguo 10/06/2004, 09:41
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
Sig...: No se nada de webcindario.com pero no creo que tenga soporte para mi script, yo estoy en uno pago y no lo tiene...
Pero de todas formas mas tarde te mando un mp por si te interesa poner el contenido de mi web en la tuya, no hay problema por eso.

Saludos!
  #8 (permalink)  
Antiguo 24/07/2004, 12:19
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
A ver si puedo mejorar la propuesta...

10mb de espacio en un subdominito del tipo http://donbenito.tuweb.com con un banner en todas mis webs (menos la index), para poner lo que quieras

Tengas en cuenta que el contenido es indexado por google y un buscador tiene una gran catidad de palabras por las cuales puede ser encontrado.

Saludos!!!
  #9 (permalink)  
Antiguo 01/08/2004, 23:04
Avatar de tranceup  
Fecha de Ingreso: abril-2004
Ubicación: Buenos AIres
Mensajes: 290
Antigüedad: 20 años
Puntos: 0
yo te puedo ayudar agregame al msn tranceup @ gmail.com .

salu2
__________________
Diseño y desarrollo Web - Templates Wordpress - Posicionamiento SEO -
Programaciones en PHP, AJAX, MYSQL a medida -
Tranceup http://www.tranceup.net
  #10 (permalink)  
Antiguo 18/08/2004, 14:57
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
Primera parte de Spider

Código PHP:
<?php
require('../includes/config.inc.php');
ini_set(user_agent"$spiderhost");
$spiderday $spiderday 86400;
set_time_limit(0);
$starttime date("H:i m/d/y");
echo 
"##### The Spider has started at $starttime, Do Not Close This Console #####\n\n";

// Start the big loop
do {

    
// Open the database and start looking at URLs
    
$sql mysql_query("SELECT * FROM search WHERE flag='0' ORDER BY date");
    while(
$rslt mysql_fetch_array($sql)){
        
$url_id $rslt["url_id"];
        
$url $rslt["url"];
        
$crc $rslt["checksum"];
        
$date $rslt["date"];

        if(
$url === $ourl){
            echo 
"<br>WARNING: Repeditive URL got through: $ourl\n";
            continue;
        }

    
// Make an announcement
        
echo "<br>\nNow Processing: $url\n";

    
// Don't go there if you don't have to
        
if($flag == 1){
            echo 
"<br>This url is already up to date.";
            continue;
        }

    
// Open URL for parsing
        
$read = @file_get_contents($url);
        echo 
$read;
        if(!
$read || $read == ''){
            echo 
"<br>Killing off dead URL: $url\n";
            
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
            continue;
        }
    
// Check for binaries
        
$ckbin 14;
        while(
$ckbin <= 26){
            
$ck chr($ckbin);
            
$cbin substr_count($read$ck);
            if(
$cbin 0){
                echo 
"<br>Killing off binary file URL: $url\n";
                
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
                continue 
2;
            }
        ++
$ckbin;
        }


    
// Set date and checksum info
        
$checksum crc32($read);
        
$daycheck date(U) - $spiderday;

        
$date strtotime($date);
        if(
$date $daycheck && $crc == $checksum){
            echo 
"<br>This url is already up to date\n";
            continue;
        }

    
// Get rid of pages from idiot webmasters who's first line of code starts with "<script".
        
$firstcheck trim(strtolower(substr($read08)));
        if(
$firstcheck == "<script" || $firstcheck == "< script"){
            echo 
"<br>Killing off incompatible file at: $url\n";
            
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
            continue;        
        }

    
// Get meta tags
        
$meta = @get_meta_tags($url);
        
$robots $meta["robots"];
        
$keywords $meta["keywords"];
        
$keywords str_replace("'","`",$keywords);
        
$description $meta["description"];
        
$description str_replace("'","`",$description);
        if(
strlen($description) > 255){
            
$description substr($description0255);
        }

    
// Check robots meta tags
        
$metarobots "noindex";
        if(
checkmetarobots($metarobots)){
            echo 
"<br>Indexing disallowed by robots meta tag: $url\n";
            
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
            continue;
        }
        
$metarobots "none";
        if(
checkmetarobots($metarobots)){
            echo 
"<br>Indexing disallowed by robots meta tag: $url\n";
            
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
            continue;
        }

    
// Get the page title
        
$temp spliti("title>",$read,3);
        
$title substr($temp[1],0,-2);
        
$title str_replace("'","`",$title);
        if(
strlen($title) > 128){$title substr($title0128);}
        if(
$title == ""){$title "No Title";}

    
// Run the cleanup function to parse all the garbage and whitespace out of the code
        
if(!hardcleanup()){
            echo 
"<br>Clean up error on $link\n";
            continue;
        }

    
// Encode stuff and put ir in the search database\n";
        
echo "<br>Updating: $title\n$url\n";
        
$title html_entity_decode($title);
        
$description html_entity_decode($description);
        
$body html_entity_decode($body);
        
$renew = @mysql_unbuffered_query("UPDATE search SET url='$url', title='$title', metak='$keywords', metad='$description', checksum='$checksum', date=CURDATE(), flag=1, body='$body' WHERE url_id='$url_id'");
        if(!
$renew || $renew == ""){
            echo 
"<br>NOT UPDATED: $url\n";
            
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
            continue;        
        }

        else{
            
$renew = @mysql_unbuffered_query("UPDATE search SET flag=1 WHERE url_id='$url_id'");
            if(!
$renew || $renew == ""){
                echo 
"<br>NOT UPDATED: $url\n";
                
$kill mysql_unbuffered_query("DELETE FROM search WHERE url_id='$url_id'");
            }
        }

    
// Check robots meta tags
        
$metarobots "nofollow";
        if(
checkmetarobots($metarobots)){
            echo 
"<br>Following disallowed by robots meta tag: $url\n";
            continue;
        }
        
$metarobots "none";
        if(
checkmetarobots($metarobots)){
            echo 
"<br>Following disallowed by robots meta tag: $url\n";
            continue;
        }

    
// "Parse the main URL\n";
        
$top parse_url($url);
        
$tschm $top["scheme"];
        
$thost $top["host"];
        
$tpath $top["path"];
        
$tqury $top["query"];
        
$tfrag $top["fragment"];

        
$currentdomain $tschm "://" $thost;
        
$getbot $currentdomain "/robots.txt";
        
$robotay = @file($getbot);

    
// Parse all the links on the page
        
$rtemp stristr($read,"<");    
        
$temp stristr($rtemp,"a");
        while(
$rtemp){
        
//"Parse the href out of the string\n";
            
$rtemp stristr($temp,"href");
            
$rtemp stristr($rtemp'"');
            
$rtemp substr($rtemp1);
            
$lpos strpos($rtemp'"');
            
$link substr($rtemp0$lpos);
            
$temp stristr($rtemp,"<");
            
$link trim($link);

        
// Kill any trailing slashes
            
if(substr($link,(strlen($link)-1)) == "/"){
                
$link substr($link,0,(strlen($link)-1));
            }

        
// If it just won't fit.
            
if(strlen($link) > 255){
                continue;
            }

            if(
checkforgarbage()){
                continue;
            }

        
// Parse the current link
            
$bot = @parse_url($link);
            if(!
$bot || $bot == ""){
                continue;
            }

            
$bschm $bot["scheme"];
            
$bhost trim(urldecode($bot["host"]));
            
$bpath trim(urldecode($bot["path"]));
            
$bqury $bot["query"];
            
$bfrag $bot["fragment"];

        
// Get rid of outside links
            
if($bhost != "" && $bhost != $thost){
                continue;
            }

        
// Kill off any fragment based URLs
            
if(strlen($bfrag) > 0){
                continue;
            }

        
// Kill off any dot dots ../../ and dots ././
            
$ddotcheck substr_count($bpath,"../");
            if(
$ddotcheck != ""){
                
$bpath str_replace("/../""/"$bpath);
                
$bpath str_replace("../""/"$bpath);
            }
            
$dotcheck substr_count($bpath"./");
            if(
$dotcheck != ""){
                
$bpath str_replace("/./""/"$bpath);
                
$bpath str_replace("./""/"$bpath);
            }

        
// Comparitive analisys
            
if($bpath != "" && substr($bpath,0,1) != "/"){
                if(
strrpos($tpath,".") === false){
                    
$bpath $tpath "/" $bpath;
                }
                if(
strrpos($tpath,".")){
                    
$ttmp substr($tpath,0,(strrpos($tpath,"/")+1));
                    
$bpath $ttmp $bpath;
                    if(
substr($bpath,0,1) != "/"){
                        
$bpath "/" $bpath;
                    }
                }
            }

        
// Kill any trailing slashes
            
$link trim($link);
            if(
substr($link,(strlen($link)-1)) == "/"){
                
$link substr($link,0,(strlen($link)-1));
            }

        
// Check to see if the scheme and domain are in the url
            
if($bhost == ""){
                
$link $thost $bpath;
                
$link str_replace(" """$link);
                
$link str_replace("//""/"$link);
                
$link $tschm "://" $link;
            }

            
$link urldecode($link);

        
// Kill off any remaining query strings
            
$kilqu strpos($link"?");
            if(
$kilqu || $kilqu != ""){
                
$link substr($link0$kilqu);
                
$link trim(str_replace("?"""$link));
            }

        
// Format the link for inclusion and to avoid stupid looping
            
$link trim(strtolower($link));

        
// Kill any trailing slashes
            
if(substr($link,(strlen($link)-1)) == "/"){
                
$link substr($link,0,(strlen($link)-1));
            }

        
// Don't be overly recursive
            
if($link == $currentdomain){
                continue;
            }

        
// If it's a usless link, kill it
            
if($link == ""){
                continue;
            }

        
// Execute robots exclusion standard via robots.txt
            
if(checkrobotstxt()){
                echo 
"\nDisallowed by robots.txt: $link\n\n";
                continue;
            }

        
// Finish it off and prep for the next loop
            
if(!checkandupdatetoindexer()){
                continue;
            }
        }

        
// Take the new URLs and put them in the search database, or finish if there are no more
        
$movem mysql_query("SELECT url FROM indexer");
        while(
$mvrslt mysql_fetch_array($movem)){
            
$murl $mvrslt["url"];
            
$putem mysql_unbuffered_query("INSERT INTO search SET url='$murl'");
            
$kill mysql_unbuffered_query("DELETE FROM indexer");
        }
        
$ourl $url;
    }
    
$preloop mysql_fetch_row(mysql_unbuffered_query("SELECT COUNT(checksum) AS count FROM search WHERE checksum='0'"));
    
$loopcount $preloop[0];
} while(
$loopcount 0);

$done mysql_unbuffered_query("UPDATE search SET flag='0' WHERE flag='1'");

echo 
"\n\nOptimizing Database...";
$cleans mysql_query("OPTIMIZE TABLE search");
$cleani mysql_query("OPTIMIZE TABLE indexer");
echo 
" Done.\n\n";

$endtime date("H:i m/d/y");
echo 
"\n\n##### Spider started at $starttime, finished at $endtime. #####\n##### You Can Now Close This Console #####\n";
  #11 (permalink)  
Antiguo 18/08/2004, 14:59
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
Código PHP:
//////  Spider Functions   //////

function checkandupdatetoindexer(){
    global 
$link;
    
// "Put the new URL in the search database\n";
        
$link trim($link);
        if(
substr($link,(strlen($link)-1)) == "/"){
            
$link substr($link,0,(strlen($link)-1));
        }

        
$chk = @mysql_unbuffered_query("SELECT * FROM search");
        while(
$curec mysql_fetch_array($chk)){
            
$curid $curec["url_id"];
            
$curchk urldecode($curec["url"]);
            if(
trim($curchk) == trim($link)){
                return 
FALSE;
            }
        }

        
$chk = @mysql_unbuffered_query("SELECT * FROM indexer");
        while(
$curec mysql_fetch_array($chk)){
            
$curid $curec["url_id"];
            
$curchk $curec["url"];
            if(
trim($curchk) == trim($link)){
                return 
FALSE;
            }
        }

        
$chk = @mysql_unbuffered_query("SELECT * FROM directory");
        while(
$curec mysql_fetch_array($chk)){
            
$curid $curec["link_id"];
            
$curchk $curec["link"];
            
$tlink strlen($curchk);
            
$glink substr($link0$tlink);
            if(
$glink == $curchk){
                echo 
"<br><b>Adding: $link \n</b>";
                
$putup mysql_unbuffered_query("INSERT INTO indexer SET url='$link'");
                return 
TRUE;
            }
        }

    return 
FALSE;
}

function 
checkforgarbage(){
        global 
$link;
        
// "Get rid of any garbage and most binary files in the link\n";
        
if(substr_count(strtolower($link),"&?") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),"@") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),"javascript") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),"mailto") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".jpg") != 0){
            return 
TRUE;
        }
        
        if(
substr_count(strtolower($link),".gif") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".pdf") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".pnf") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".png") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".mpg") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".mov") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".mpeg") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".avi") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".mp3") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".wav") != 0){
            return 
TRUE;
        }
        
        if(
substr_count(strtolower($link),".zip") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".tar") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".gz") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".tgz") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".exe") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".css") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".rm") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".bin") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".iso") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".xls") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".doc") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".dbf") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".iso") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".dll") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".sys") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".au") != 0){
            return 
TRUE;
        }

        if(
substr_count(strtolower($link),".c") != 0){
            return 
TRUE;
        }
        return 
FALSE;
}

function 
checkmetarobots(){
    global 
$robots$metarobots;
    if(
substr_count($robots,$metarobots) > 0){
        return 
TRUE;
    }
    return 
FALSE;
}

function 
checkrobotstxt(){
    global 
$currentdomain$link$robotay$spiderhost;

    if(!
$robotay || $robotay == ""){
        return 
FALSE;
    }

    
$robotaycount count($robotay);
    
$roop 0;
    while(
$roop <= $robotaycount){
        
$curele $robotay[$roop];
        if(!
$curele || $curele == ""){
            Return 
FALSE;
        }
        
$thecolon strpos($curele,":");
        if(
substr($curele,0,($thecolon+1)) == "User-agent:"){
            
$robgent trim(substr($curele,$thecolon+1));
            if(
$robgent == "*" || $robgent == $spiderhost){
                
$dospider 1;
            }
            else{
                return 
FALSE;
            }
        }
        if(
substr($curele,0,($thecolon+1)) == "Disallow:"){
            
$st strpos($curele"/");
            
$robdis substr($curele$st);
            
$ed strrpos(trim($robdis), "/");
            
$robdis trim(substr($robdis0));
            if(!
$robdis || $robdis == ""){
                return 
FALSE;
            }
            
$fnd substr_count($link$robdis);
            if(
$fnd){
                return 
TRUE;
            }
        }
        ++
$roop;
    }
    return 
FALSE;
}

function 
hardcleanup(){
    global 
$body$read$title$url;
// Set the script and style tags to lowercase so these routines can work
    
$tolower "SCRIPT>";
    while(
substr_count($read$tolower)){
        
$islower strtolower($tolower);
        
$read str_replace($tolower$islower$read);
        
$tolower "Script>";
    }
    
$tolower "STYLE>";
    while(
substr_count($read$tolower)){
        
$islower strtolower($tolower);
        
$read str_replace($tolower$islower$read);
        
$tolower "Style>";
    }

// Kill any style tags
    
$kstyle substr_count($read"/style>");
    if(
$kstyle 0){
        
$a 1;
        while(
$a <= $kstyle){
            
$bstyl strpos($read"/style>");
            
$read substr($read, ($bstyl+7));
            ++
$a;
        }
    }

// Kill any scripts
    
$kscript substr_count($read"/script>");
    if(
$kscript 0){
        
$a 1;
        while(
$a <= $kscript){
            
$bscrpt strpos($read"/script>");
            
$readsubstr($read, ($bscrpt+8));
            ++
$a;
        }
    }

// Get the page body
    
$body trim(strip_tags($read));
    
$body str_replace("'","`",$body);

// Make sure there's something left to work with
    
if(trim($body) == ""){
        echo 
"Killing off empty file.";
        
$kill mysql_unbuffered_query("DELETE FROM search WHERE url='$url'");
        return 
FALSE;
    }

return 
TRUE;
}
?> 
  #12 (permalink)  
Antiguo 23/08/2004, 12:04
 
Fecha de Ingreso: agosto-2003
Mensajes: 102
Antigüedad: 20 años, 8 meses
Puntos: 0
Podríamos cederte un espacio para correr este script, incluso con base de datos...

pero quisieramos hacerte unas preguntas, hemos revisado por encima tu script sin entrar en mucha profundidad, y tenemos un par de dudas:

- la página de indexación de nuevos sitios la cargas tu manualmente o utilizas alguna utilidad como cron para la ejecución automática del script?

- no crees que seria mas optimo siendo php, hacer controles de tiempo, por ejemplo cada X tiempo, parar, cerrar la conexión con el servidor y volver cargar el script continuando desde el punto anterior hasta que no haya mas sites a indexar?

- mas o menos cada cuanto sugieren una web? (es para hacer un calculo aproximado de la sobrecarga)

- una vez has indexado un titulo, cada cuanto vuelves a comprobar el sitio por si se ha actualizado?

Hemos estado revisando la idea, y a pesar que coincidimos con josemi que no es ni de lejos el mejor sistema el php para hacer un spider, me gustaría ponerme en contacto contigo para hablar de que contraprestaciones ofreces y SOBRETODO que intenciones tienes con este proyecto. Podríamos apadrinar tu proyecto, ya hemos apadrinado algunos, y podemos cederte por ejemplo 30 megas de BD y 100 Mb de hosting, con la configuración php que precises (con un poco de supervisión, como comprenderás, pero con el safe mode desactivado, y con el time out que precises...). Incluso puede ser negociable la contratación de un dominio .com, .net o .org...

Por eso nos gustaría que contactaras con nosotros en el correo que te envió en el mp explicándonos tu proyecto (idea, intenciones, experiencia, ...).

Esperamos pronto tu respuesta.
  #13 (permalink)  
Antiguo 27/08/2004, 16:31
Avatar de lisandro Arg  
Fecha de Ingreso: octubre-2003
Ubicación: Cordoba, Argentina
Mensajes: 945
Antigüedad: 20 años, 6 meses
Puntos: 24
Cita:
- la página de indexación de nuevos sitios la cargas tu manualmente o utilizas alguna utilidad como cron para la ejecución automática del script?
- Lo hago manualmente.
Cita:
- no crees que seria mas optimo siendo php, hacer controles de tiempo, por ejemplo cada X tiempo, parar, cerrar la conexión con el servidor y volver cargar el script continuando desde el punto anterior hasta que no haya mas sites a indexar?
- Seria una solución para salvar el max_execution_time con safe mode, pero si tengo un server sin esas limitaciones no veo la necesidad.
Cita:
- mas o menos cada cuanto sugieren una web? (es para hacer un calculo aproximado de la sobrecarga)
- Eso es muy variable, cuando me pongo en campaña pueden hacerlo todos los días unos cinco o seis sitios, pero como no estoy ocupándome de la promoción pueden pasar días sin que sugieran una web. Ya estoy en la etapa final así que en poco tiempo voy a buscar mas enlaces, ingresar contenido para mejorar el PageRank.
Cita:
- una vez has indexado un titulo, cada cuanto vuelves a comprobar el sitio por si se ha actualizado?
Hora no lo estoy haciendo pero con una vez a la semana creo que estaria bien

Griacias por su interes, lo demas va por mail, saludos.
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 14:19.