may 2007
Analizando del.icio.us y sus tags
Después de desarrollar la pequeña araña mediante una clase PHP, he desarrollado una pequeña adaptación para rastrear del.icio.us sin tener que utilizar la API (que por lo demás, parece resultar inútil si quieres rastrear a otros usuarios o enlaces).
La idea es sencilla: utilizar el rastreo empezando por una pàgina cualquiera (en mi caso he empezado por la nube principal de tags) y detectar cómo iban afluyendo los usuarios, las URL y, desde luego, los tags.
Dado que el sistema aún precisa de retoques y otras historias, sólo puedo entrar a valorar con un poco de criterio los datos relacionados con los tags...
Metodología
El procedimiento de rastreo se ha iniciado, como comentaba, rastreando la nube de tags principal. Rastrear esta página significa varias cosas:
- Recuperar el contenido devuelto por la URL.
- Determinar los tags de enlaces con referencias (tags HTML "a" que tengan el atributo href con una URL correcta) que existen en esa pàgina.
- Analizar esos enlaces para determinar si se trata de enlaces a páginas de usuarios, a páginas de tags, pàginas de URLs o a enlaces externos a del.icio.us.
- Una vez determinado el tipo de URL, se incluye en la cola de URLs a rastrear y se inserta en una base de datos el nuevo dato recopilado del análisis anterior (se inserta un tag, login de usuario o URL en la BD).
- El proceso finaliza en un número de iteraciones (rastreo, recopilación de enlaces, tipificación, registro en BD).
Para el caso que nos ocupa, he hecho 40 fases de 10 iteraciones, lo que implica que he rastreado 400 pàginas en total (una miseria, según como lo miremos, pero ya tendré tiempo para entrar más a fondo).
Datos generales del rastreo
Del resultado del proceso anterior, saltan los siguientes datos descriptivos, que dan una idea del volumen de datos que genera este tipo de operaciones:
- 26.618 referencias (URL) recopiladas en la cola. Las primeras 400 han sido las utilizadas para el análisis actual.
- 2.951 etiquetas únicas.
- 990 usuarios.
- Del proceso de las 400 pàginas se han recopilado 4411 URLs externas (pàginas introducidas por los usuarios en del.icio.us que teóricamente apuntan hacia fuera).
A partir del proceso de los datos anteriores, se han extraído los siguientes datos adicionales:
- Se han añadido una media de 62 etiquetas por fase de rastreo, aunque las fases más activas han sido hasta el rastreo de la pàgina 150 aproximadamente. Esto se debe a que los primeros rastreos se han realizado sobre las pàginas iniciales de tags que aparecen en la nube (son tags muy utilizados que probablemente se relacionan con otros tags).
- El 60% de los tags son utilizados una sola vez (y por lo tanto, por una sola persona). Este porcentaje se va acercando cada vez más al 50% a medida que aumenta el número de páginas rastreadas.
- Con un ritmo pràcticamente idéntico, la cola de la distribución se va alargando, exponiendo los tags más utilizados (que en la muestra 400 supera las 350 ocasiones para el tag design).
- El top ten de los tags más repetidos en la muestra son (entre paréntesis la frecuencia):
- design (361).
- programming (264)
- web (248)
- ajax (235)
- advertising (219)
- business (213)
- blog (209)
- development (201)
- software (186)
- tools (172)
En base a lo comentado, un par de gráficos, que siempre pueden alegrar un poco el post (esto del grafismo lo tengo ciertamente olvidado, vale decirlo...).
Incorporación de nuevos tags
En el siguiente gráfico se puede ver el número de tags nuevos que se van incorporando para cada nueva fase de muestreo.
Como se puede apreciar, el cambio sustancial se encuentra en la iteración 150. Por lo demás, los picos que existen más adelante se deben casi siempre a lo mismo: dentro de las 10 pàginas a rastrear, existen algunas que son referidas a tags (ni usuarios ni nada por el estilo). Parece ser que en esos casos, aumenta el número de tags nuevos.
En cualquiera de los dos gráficos, sacar concluciones es algo muy preliminar, simplemente se debe coger la información como datos descriptivos.
La segunda figura ya es un poco más esotérica pero creo que tampoco costará mucho de descifrar. Se trata del diagrama del grado de repetición de los tags según la muestra tomada:
Como se puede ver, a medida que se va hacia la parte mas profunda del gráfico, aumenta el tamaño de la muestra tomada. Es decir, hay más tags, más URLs, etc. Sin embargo, a partir de la muestra 100 aproximadamente, la forma del gráfico se estabiliza bastante.
En lo referente a la forma, cabe comentar que el valor del "0" que yo he marcado como 0 es algo muy relativo.
En el fondo, no es observable la frecuencia de "tag que aparece 0 veces". Pero... ¿no es observable porque sucede infinitas veces, o porque no sucede ninguna? En fin, no he entrado en dilemas conceptuales porque aún no es el momento, pero probablemente me inclinaría por tags "nunca utilizados", que implicarían un número "infinito" de etiquetas utilizadas 0 veces. Esto llevaría el gráfico a una forma parecida a una distribución exponencial, o bien a una Poisson. Lo dicho: ya llegará el momento de los contrastes.
Pues de momento eso es todo: creo que con estos dos gráficos ya se puede abrir boca, y dentro de nada habrá algunas comparativas entre tags. En relación al post de tagging y lógica borrosa, haré un pequeño algoritmo que calcule la distancia de lehvenstein (el grado de parecido del orden de teclas) entre tags, puro divertimento.
Posteriormente habrá comparativas URLs-usuarios-tags, aunque será necesario recopilar mucha más información.
Fuentes RSS
Etiquetas
apis-mashups Buscadores Clustering del.icio.us Desarrollo web estadísticas estándares Expresiones regulares Flash Fractales fuentes de información Gestión documental Google grafos Gráficos estadísticos Innovación Java lenguajes documentales Lingüística Linux Lógica borrosa modelización Muestreo estadístico Navegadores off-topic open source PHP PLN Productividad Profesionales Publicidad Recuperación información relevancia reseñas SEO spam Tagging Usabilidad utilidades veracidad Web social yahoo pipes