Foros del Web » Programando para Internet » PHP »

Leer líneas específicas de un archivo

Estas en el tema de Leer líneas específicas de un archivo en el foro de PHP en Foros del Web. Hola a todos. No se mucho de php y estoy tratando de obtener los enlaces de un archivo html mediante php. Es decir que lea ...
  #1 (permalink)  
Antiguo 28/12/2010, 08:56
 
Fecha de Ingreso: diciembre-2010
Mensajes: 7
Antigüedad: 13 años, 4 meses
Puntos: 1
Mensaje Leer líneas específicas de un archivo

Hola a todos.

No se mucho de php y estoy tratando de obtener los enlaces de un archivo html mediante php. Es decir que lea un html y busque las líneas que contengan <a href=...>. Lo que he podido conseguir hasta el momento es esto:

Código PHP:
<?php
$html 
file_get_contents('archivo.html');
$dom = new DOMDocument(); // creamos un nuevo documento
@$dom->loadHTML($html); // cargamos el código html
// obtenemos todo de la pagina
$xpath = new DOMXPath($dom);
$hrefs $xpath->evaluate("/html/body//a");
for (
$i 0$i <$hrefs->length$i++) {
       
$href $hrefs->item($i);
       
$url $href->getAttribute('href'); // finalmente obtenemos la url
       
echo $url.'<br />'// la desplegamos en pantalla
}
 
?>
Pero necesito que sea modificado de la siguiente manera:

*Reconocer enlaces de imágenes. Ej.:

Código HTML:
<a href="images/1.jpg"><img src="thumbs/1.jpg></a> 
Necesito que reconozca la secuencia .jpg y guarde el enlace (lo que está entre comillas después del href), ignorar si contiene algo distinto de .jpg.

*Cada enlace encontrado guardarlo en un arreglo

*Mediante alguna función random obtener sólamente un elemento del arreglo y devolverlo con echo.

La idea es la siguiente:

Supongamos que existe un sitio que es una galería de imágenes con la siguiente estructura

www.nombre.com/galería
www.nombre.com/galería/index.html
www.nombre.com/galería/thumbnails/
www.nombre.com/galería/images

El archivo php recibiría como parámetro www.nombre.com/galería/index.html, leería el index en busca de los enlaces (apuntan a imágenes en la carpeta images) y devuelva uno de ellos de la forma <img scr="enlace encontrado" width="170" height="220">. La idea es obtener una vista previa de la galería con cualquiera de las imágenes :)

Pero puede sugir otro problema, que la url del enlace sea absoluta (directorio/recurso), que es lo más probable, suponiendo que el archivo php devolvió como resultado images/1.jpg entonces lo trataría de buscar en un directorio donde se aloja el mismo archivo php produciendo que no se encuentre la imágen. Necesitaría que me devuelva la url completa, es decir www.nombre.com/galería/images/1.jpg


Si url no tiene http:// entonces anteponer lo que va antes del index a url.

Tengo las ideas pero no sé como implementar todo esto, les agradeceré su ayuda

Última edición por Tyuske; 28/12/2010 a las 10:54
  #2 (permalink)  
Antiguo 29/12/2010, 18:45
Avatar de mayid
Colaborador
 
Fecha de Ingreso: marzo-2009
Ubicación: BsAs
Mensajes: 4.014
Antigüedad: 15 años, 1 mes
Puntos: 101
Respuesta: Leer líneas específicas de un archivo

Puf! Busca un poco sobre expresiones regulares para encontrar enlaces.

Yo tengo por ejemplo esto (que puede optimizarse pero aún no me puse a buscar como):

Código PHP:
Ver original
  1. function reconocer_links($texto)
  2. {
  3.     // TODO: acortar el texto de enlace. Que no pase de la primera barra /
  4.     $nuevo_texto = ' ' . $texto;
  5.     $nuevo_texto = preg_replace("#([\t\r\n ])([a-z0-9]+?){1}://([\w\-]+\.([\w\-]+\.)*[\w]+(:[0-9]+)?(/[^ \"\n\r\t<]*)?)#i", '\1<a href="\2://\3" target="_blank">\2://\3</a>', $nuevo_texto);
  6.     $nuevo_texto = preg_replace("#([\t\r\n ])(www|ftp)\.(([\w\-]+\.)*[\w]+(:[0-9]+)?(/[^ \"\n\r\t<]*)?)#i", '\1<a href="http://\2.\3" target="_blank">\2.\3</a>', $nuevo_texto);
  7.     $nuevo_texto = preg_replace("#([\n ])([a-z0-9\-_.]+?)@([\w\-]+\.([\w\-\.]+\.)*[\w]+)#i", "\\1<a href=\"mailto:\\2@\\3\">\\2@\\3</a>", $nuevo_texto);
  8.     $nuevo_texto = substr($nuevo_texto, 1);
  9.  
  10.     return $nuevo_texto;
  11. }

La funcion reemplaza links. Pero quizas las mismas expresiones regulares te sirvan para tu script.

Etiquetas: enlace, html
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 22:07.