Foros del Web » Programando para Internet » PHP »

Buscador rapido en + de 10 gb de data

Estas en el tema de Buscador rapido en + de 10 gb de data en el foro de PHP en Foros del Web. Saludos. Me gustaria saber que recursos o como puedo hacer un buscador que realice busquedas en Mysql donde hay mas de 10Gb de data y ...
  #1 (permalink)  
Antiguo 21/10/2005, 16:14
 
Fecha de Ingreso: junio-2003
Mensajes: 74
Antigüedad: 14 años, 5 meses
Puntos: 1
Buscador rapido en + de 10 gb de data

Saludos.

Me gustaria saber que recursos o como puedo hacer un buscador que realice busquedas en Mysql donde hay mas de 10Gb de data y mas de 35 millones de registros.

El que tengo actualmente tarda aproximadamente uno 0.03 seg a 20 seg depende de la cantidad de palabras a buscar.

Esta instalado ese buscador en un server dedicado de dual xeon de 2.8 Ghz con 1 Ghz de ram.

Me gustaria poder aumentarle la velocidad no se a cuanto pueda aumentar el memory_size del php y del mysql y si eso me ayudara con la velocidad.

Todo el buscador esta hecho con php y mysql.

Agradesco sus comentarios.
__________________
Roberto
www.tukeke.com
  #2 (permalink)  
Antiguo 24/10/2005, 06:14
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Además de aumentar los recursos de tu hardware o de limites de PHP/Mysql (los cuales no tienes problemas pues siempre se ejecutan tus consultas) .. Deberíamos ver que tipo de consultas SQL haces .. no mencionas para en base a que modelo de datos y estructura de tus tablas haces esas consultas .. no sabemos si indexas tus campos? .. alguna busqueda tipo fulll text search? ... en fin .. por ahí se podría optimizar algo tambien el tema.

Un saludo,
  #3 (permalink)  
Antiguo 24/10/2005, 07:58
 
Fecha de Ingreso: junio-2003
Mensajes: 74
Antigüedad: 14 años, 5 meses
Puntos: 1
Gracias Cluster

Bueno trabajo las busquedas en 4 campos,

Title, url, Fulltext, y descripcion.

Este buscador toma los datos de un spider propio que indexa todos los link y url (tipo google), De verdad las busquedas son bastante rapidas tomando en cuenta el tamaño de la base de datos, pero (como hace google que tiene 1.000 veces mas data que yo y es 1.000 veces mas rapido.

Puedes ver y probar en www.busk-lo.com, cuando busca una sola palabra va excelente pero ya mas de una tarda un poquito mas.

¿ Te parece que en hardware estoy bien ?

Gracias cluster. y a los demas que den sus opiniones
__________________
Roberto
www.tukeke.com
  #4 (permalink)  
Antiguo 24/10/2005, 08:18
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Del hardware no me atrevo a opinar .. no manejo tanta información .. Eso sí, a nivel de servidores (tienes acceso a la configuración de los mismos? ..) podrías revisar la configuración de Mysql .. a lo mejor algo más puedes sacarle con algún ajuste más fino.

Un saludo,
  #5 (permalink)  
Antiguo 10/11/2005, 10:04
Avatar de tyo100  
Fecha de Ingreso: febrero-2005
Ubicación: Monterrey, NL
Mensajes: 475
Antigüedad: 12 años, 10 meses
Puntos: 1
Es interesante, mas que nada por las prestaciones del equipo digamos no son pobres, que disco(s) duro(s) tiene??? tienen arreglo raid????? sobre que plataforma lo estas corriendo??? que tipo de sistemas de archivo usas???, yo he querido hacer pruebas con PHP, MySQL y grandes cantidades de informacion pero nunca he sabido de donde sacar tanta informacion para poder hacer las pruebas, digo lo mas que he tenido de informacion son unos 200mbs y pues en mi maquina jalaba decentemente.


La verdad el buscador varia dependiendo de la palabra a buscar y la hora.

corres en el mismo servidor, apache & mysql ???
__________________
Desde la tierra de los nopales, las tortillas de maiz, y en cuya ciudad se encuenta el cerro de la silla.
NalgAss Web
SpiderMex - La Historia del Hombre Araña en MEXICO
  #6 (permalink)  
Antiguo 10/11/2005, 11:39
O_O
 
Fecha de Ingreso: enero-2002
Ubicación: Santiago - Chile
Mensajes: 34.417
Antigüedad: 15 años, 11 meses
Puntos: 126
Cita:
Iniciado por tyo100
Es interesante, mas que nada por las prestaciones del equipo digamos no son pobres, que disco(s) duro(s) tiene??? tienen arreglo raid????? sobre que plataforma lo estas corriendo??? que tipo de sistemas de archivo usas???, yo he querido hacer pruebas con PHP, MySQL y grandes cantidades de informacion pero nunca he sabido de donde sacar tanta informacion para poder hacer las pruebas, digo lo mas que he tenido de informacion son unos 200mbs y pues en mi maquina jalaba decentemente.


La verdad el buscador varia dependiendo de la palabra a buscar y la hora.

corres en el mismo servidor, apache & mysql ???
mm Bueno .. si no tienes la información: Generala

Hazte un bucle y genera registros con datos aleatorios (siempre respetando tus relaciones de tu modelo de datos como corresponda) .. y listo .. ya podrás ir trabajando con tanto datos (registros) como generes.

Un saludo,
  #7 (permalink)  
Antiguo 10/11/2005, 15:31
Avatar de tyo100  
Fecha de Ingreso: febrero-2005
Ubicación: Monterrey, NL
Mensajes: 475
Antigüedad: 12 años, 10 meses
Puntos: 1
Cita:
Iniciado por Cluster
mm Bueno .. si no tienes la información: Generala

Hazte un bucle y genera registros con datos aleatorios (siempre respetando tus relaciones de tu modelo de datos como corresponda) .. y listo .. ya podrás ir trabajando con tanto datos (registros) como generes.

Un saludo,

Bueno la verdad no se me ocurre nada por el momento, tenia una lista de ciudades y las fui insertando en otra tabla con estados hasta juntar 10 millones de registros, empece hacer querys y variaban entre 3 segs y 20segs con 1 JOIN, toda consulta me regresaba entre 2 y 6millones de resultados, me puse a moverle a la config de MySQL con MySQL Administrator, me fui a System variables => Memory => Caches => cambie
query_cache_limit=64MB (se me hace mucho)
query_cache_size=256MB (la mitad de lo que tiene esta PC)

sigo con los querys hago unos 20 distintos ahora mejoro un poco pero siguen tardando, mi sorpresa fue al volver hacer uno de los primeros kueris, tiempo 0.01 Segs 5millones de registros, hago otro de los que ya habia hecho 0.025 Segs, entonces todos los querys se quedan cacheados.

Debe haber alguna otra forma para sacar mas provecho, seguire investigando.

El equipo:
Pues no es nada del otro mundo
P4 2.8Ghz 1MB Cache con HT
512 DDR 2700
HD Maxtor 80GB 7200RPM
Windows XP
MySQL 4.0.24
__________________
Desde la tierra de los nopales, las tortillas de maiz, y en cuya ciudad se encuenta el cerro de la silla.
NalgAss Web
SpiderMex - La Historia del Hombre Araña en MEXICO
  #8 (permalink)  
Antiguo 10/11/2005, 21:17
Avatar de santidc  
Fecha de Ingreso: enero-2005
Mensajes: 88
Antigüedad: 12 años, 11 meses
Puntos: 1
Perdon que meta un comentario boludo pero rstory tu sitio la verdad que es mas que buena y tu trabajo es muy importante pero mi querido amigo a google no le va a hacer ni sombra ya que la plata que tiene y el cluster de su Base de Datos debe de ser monstruoso, seria muy copado agarrar tres maquinas, dos buenas y una tranqui de nodo 0 para ponerlas en como cluster y montar un sistema de MySQL y ver como reacciono pero ya para mi es medio mucho, yo con suerte manejo bien MySQL en una sola maquina, pero bue, amigo rstory te felicito por tu trabajo es muy groso mover 10gb de info, saludos

SantiDC
__________________
SantiDC
-------------------------------------
www.pedilo.com
un mundo de publicaciones gratis
  #9 (permalink)  
Antiguo 10/11/2005, 21:29
Avatar de tyo100  
Fecha de Ingreso: febrero-2005
Ubicación: Monterrey, NL
Mensajes: 475
Antigüedad: 12 años, 10 meses
Puntos: 1
Cita:
Iniciado por santidc
Perdon que meta un comentario boludo pero rstory tu sitio la verdad que es mas que buena y tu trabajo es muy importante pero mi querido amigo a google no le va a hacer ni sombra ya que la plata que tiene y el cluster de su Base de Datos debe de ser monstruoso, seria muy copado agarrar tres maquinas, dos buenas y una tranqui de nodo 0 para ponerlas en como cluster y montar un sistema de MySQL y ver como reacciono pero ya para mi es medio mucho, yo con suerte manejo bien MySQL en una sola maquina, pero bue, amigo rstory te felicito por tu trabajo es muy groso mover 10gb de info, saludos

SantiDC
En eso tienes toda la razon probablemente el cluster de DB que tienen es al tamaño de mi humilde hogar pues tan solo ponle buscar la letra a y salen mas resultados que toda la base de datos de rstory en tan solo 0.07segs, tambien la conexion que han de tener en tre los clusters de perdido a de ser gigabit o gigabit y haciendo bonding, pero igual y nunca va manejar tanta info y si lo hace pues poco a poco se ira escalando, aqui el asunto es hacer con lo que tiene tener mayor rendimiento, ahorita no tengo DVDs para respaldar mi PC y hacer pruebas en Linux, seria interesante ir afinando poco a poco la config de MySQL hasta que quede al mayor rendimiento posible.

Saludos

PD, espero que pronto aparezca rstory
__________________
Desde la tierra de los nopales, las tortillas de maiz, y en cuya ciudad se encuenta el cerro de la silla.
NalgAss Web
SpiderMex - La Historia del Hombre Araña en MEXICO
  #10 (permalink)  
Antiguo 11/11/2005, 06:48
 
Fecha de Ingreso: junio-2003
Mensajes: 74
Antigüedad: 14 años, 5 meses
Puntos: 1
Saludos y gracias por sus comentarios.

Bueno. les comento que ahorita ya tenemos 15Gb de data y continuara creciendo pero algo es cierto no llegare a tener la data de google porque solo se indexaran pagina venezolana. Es posible y como vaya creciendo el buscador cree los distintos portales para el resto del habla Hispana.

Les agradesco sus comentario y me han ayudado a mejorar las busquedas. El de hoy subire al portal el nuevo modulo que es de busqeudas en noticia en tiempo real y al momento de que se genera dicha noticia.

Bueno estoy a la orden para ayudar al que quiera intentar un portal como el mio. Eso si tiene que poder estar muchas noches sin dormir y tener las ganas de arriesgarse economicamente ya que el servidor no es nada economico Bueno mi email es [email protected] y el portal es www.buk-lo.com

gracias
__________________
Roberto
www.tukeke.com
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 08:04.