RSS
-
Entradas recientes
Categorías
Etiquetas
apis-mashups Buscadores Clustering datos abiertos desarrollo elecciones estándares Flash fuentes de información Gestión documental Google grafos Gráficos estadísticos html5 Innovación internet Java javascript lenguajes documentales Lingüística Linux Lógica borrosa modelización Muestreo estadístico off-topic open source PHP PLN Productividad Profesionales Publicidad Recuperación información relevancia reseñas SEO spam tag 1 tag 2 Tagging testeo Usabilidad utilidades veracidad visualizacion Web socialComentarios recientes
- Mario en Análisis web com Piwik y GNU R (I)
- Wilderson Medina en Modelos lineales (regresión lineal) – 2
- Javascript | Pearltrees en El ecosistema Javascript (Rhino)
- erik araneda en Análisis web com Piwik y GNU R (I)
- Responsabilidad y voto « Reset Mental en Sobre las Elecciones Europeas y la decisión de voto
Archivos
- septiembre 2011
- junio 2011
- mayo 2011
- abril 2011
- marzo 2011
- enero 2010
- octubre 2009
- junio 2009
- mayo 2009
- abril 2009
- marzo 2009
- febrero 2009
- enero 2009
- septiembre 2008
- mayo 2008
- abril 2008
- marzo 2008
- febrero 2008
- enero 2008
- diciembre 2007
- octubre 2007
- septiembre 2007
- agosto 2007
- julio 2007
- junio 2007
- mayo 2007
- abril 2007
Tag Archives: Expresiones regulares
Expresiones regulares para interpretar URLs
Estoy desarrollando un pequeño script que sirva de araña para recoger pequeños conjuntos de recursos que sirvan para hacer algunos análisis. Entre los procesos que hay que realizar, es necesario desarrollar una sencilla araña que me permita gestionar las URLs según lo que esté escaneando.
Sé que existen varias herramientas de arañas, y bastantes de ellas libres, pero la cuestión es poder tratar la información según como venga para ya tener los datos procesados en el momento de finalizar el crawling.
A lo que iba: entre las fases de proceso de una URL, está una parte que toca un poco la moral: Absolutizar los enlaces. Esto significa normalizar la estructura del enlace para que quede siempre como:
protocolo://dominio/uri?parametros#ancla
Para conseguir esta tarea, he desarrollado una pequeña función basada en expresiones regulares y programada en PHP. No es infalible, pero para quien le pueda servir…
Comentarios desactivados