Foros del Web » Programando para Internet » PHP »

Haciendo un Buscador: Indexar solo paginas en castellano ¿como?

Estas en el tema de Haciendo un Buscador: Indexar solo paginas en castellano ¿como? en el foro de PHP en Foros del Web. Hola, bueno, estoy recopilando informacion, haciendo scripts, etc.. para hacer un buscador (para uso didactico) Ahjora mismo, lo que estoy pensando, aunque no se bien ...
  #1 (permalink)  
Antiguo 02/12/2005, 09:22
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 18 años, 5 meses
Puntos: 1
Haciendo un Buscador: Indexar solo paginas en castellano ¿como?

Hola, bueno, estoy recopilando informacion, haciendo scripts, etc.. para hacer un buscador (para uso didactico)

Ahjora mismo, lo que estoy pensando, aunque no se bien como se podria hacer, es como poder indexar solo paginas en castellano, ya que como el espacio de la base de datos tampoco se puede expandir demasiado, pues prefiero cojer solo paginas en este idioma.

Ya se que todas las paginas deberian tener la etiqueta metatag con el lenguaje en el que esta escrita la pagina, pero como esto no sucede...¿como se podria distinguir una pagina en casellano del resto?

que ideas teneis o como sabeis que hacen algunos buscadores?
  #2 (permalink)  
Antiguo 02/12/2005, 17:34
 
Fecha de Ingreso: mayo-2005
Mensajes: 55
Antigüedad: 18 años, 10 meses
Puntos: 0
Me parece que esto de crear un "buscador" es algo diferente a lo que tú crees.
  #3 (permalink)  
Antiguo 03/12/2005, 18:12
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 18 años, 5 meses
Puntos: 1
que? no se porque dices que es algo diferente a lo que yo creo... (aparte que tu no sabes lo que yo se o dejo de saber)

bueno, sigo preguntando lo mismo a la gnete que no le importe aportar alguna idea
  #4 (permalink)  
Antiguo 04/12/2005, 10:02
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 22 años, 3 meses
Puntos: 129
Que yo sepa (hago la puntualización por qué tampoco tengo tantos antecedentes como para afirmarlo si o si), el lenguaje en el que se diseña la página se debe definir en las cabeceras HTTP que ya conoces (lanzadas con PHP con "<META ....>"

Por otro lado .. por el "pais" que proviene la IP del host que alberga esa página podrías "asumir" cierto idioma .. pero, ten presente que si bien los paises tienen "idiomas oficiales" .. puede darse el caso perfectamente que tengas una persona que le guste o su lengua nativa sea otra a la que defina el pais.

No creo que sea eficiente realizar un buscador que tome una página (en el caso que la página no tenga la definición del lenguaje), y haga una muestra de palabras que aparezcan en la página y empiece a buscarlas en diccionarios de diferentes idiomas (ingles, castellano .. etc). Creo que el rendimiento de un sistema así bajaría enormente .. además que "imagina" que en ese muestreo toma algunos términos en dos idiomas (lo típico de contenido técnico que si bien su fondo es en castellano por ejemplo .. se mencionan términos en ingles .. ).

En forosdelweb.com tienes un foro de Posicionamiento SEO ( en el de Ayuda general) .. prueba a preguntar ahí como funcionan los buscadores mas reconocidos en esos casos. Cuando sepas como lo hacen .. si quieres te pasas por el foro de PHP para ver como obtener el dato que necesites desde PHP.

Un saludo,
  #5 (permalink)  
Antiguo 04/12/2005, 14:23
 
Fecha de Ingreso: octubre-2005
Mensajes: 18
Antigüedad: 18 años, 5 meses
Puntos: 1
vale cluster, muchas gracias.

voy a preguntarlo ahi.

Es que claro, lo de ver la palabras que contiene una web, como dices tu, en cuanto se mezclen lenguajes ... pues ya es meterse en demasiado lio pa lo que quiero hacer


Es que queria hacerlo mas que nada para facilitar otras tareas, como eliminar las STOP WORDS y cosas asi, ya que si cojo pagians en ingles, ya habria que poner STOP WORDS en ingles tambien , etc...
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 00:14.