Ver Mensaje Individual
  #5 (permalink)  
Antiguo 23/06/2013, 10:04
Avatar de jhg
jhg
 
Fecha de Ingreso: marzo-2012
Mensajes: 96
Antigüedad: 12 años, 1 mes
Puntos: 1
Respuesta: Problemas con caracteres acentuados y UTF-8 en scraping

Cita:
Iniciado por GatorV Ver Mensaje
No necesariamente tiene que ser UTF8, debes de siempre hacerlo con el encoding que tengas, si la web ya esta en ISO, no tienes porque cambiar el encoding a UTF8, simplemente guarda los archivos PHP en ISO y no debes de tener problemas.
UTF-8 se creo precisamente para solucionar problemas, en especial de internacionalización, que no podia resolver ISO, por lo tanto todo deberia usar UTF-8 u otro unicode, practicamente todos los sistemas modernos se han modernizando pasando a codificación UTF-8 y es la recomendada por todos desde las organizaciones de estandares hasta cualquier desarrollador con dos dedos de frente. El problema no esta en mi web, sino en las web a las que hago scraping, unas son modernas y estan en UTF-8 y otras son las tipicas que hace el primo del sobrino del enchufado de turno que en ocasiones incluso estan en HTML estatico con HTML viejo anterior incluso al 4, y que ni sabe que los estandares web han evolucionado mucho desde 1995 hasta hoy en día.

De todos modos ya encontre como solucionarlo, como pasar las cadenas ISO a UTF-8 no me daba buen resultado hice la inversa, para trabajar sobre cadenas ISO paso la cadena UTF-8 a ISO, opero de esa forma y luego vuelvo a pasar a UTF-8 el resultado y así si funciona.
__________________
JHG