abr 2007
Expresiones regulares para interpretar URLs
Estoy desarrollando un pequeño script que sirva de araña para recoger pequeños conjuntos de recursos que sirvan para hacer algunos análisis. Entre los procesos que hay que realizar, es necesario desarrollar una sencilla araña que me permita gestionar las URLs según lo que esté escaneando.
Sé que existen varias herramientas de arañas, y bastantes de ellas libres, pero la cuestión es poder tratar la información según como venga para ya tener los datos procesados en el momento de finalizar el crawling.
A lo que iba: entre las fases de proceso de una URL, está una parte que toca un poco la moral: Absolutizar los enlaces. Esto significa normalizar la estructura del enlace para que quede siempre como:
protocolo://dominio/uri?parametros#ancla
Para conseguir esta tarea, he desarrollado una pequeña función basada en expresiones regulares y programada en PHP. No es infalible, pero para quien le pueda servir...
Fuentes RSS
Etiquetas
Aleatoriedad apis-mashups Buscadores Clustering del.icio.us Desarrollo web estadísticas estándares Expresiones regulares Flash Fractales fuentes de información Gestión documental Google grafos Gráficos estadísticos Innovación Java lenguajes documentales Lingüística Linux Lógica borrosa modelización Muestreo estadístico Navegadores off-topic open source PHP PLN Productividad Profesionales Publicidad Recuperación información relevancia reseñas SEO spam Tagging Usabilidad utilidades veracidad visualizacion Web social yahoo pipes