Páginas 1 2 3
21
may 2007

Sitios sociales y Spam: buscando referencias

En referencia al artículo sobre los sitios sociales y el spam, he estado buscando también información. Sobretodo referencias que puedan relacionar herramientas como los Antispam, y los algoritmos de cálculo de la relevancia en la recuperación de la información. Sirva lo siguiente como pequeña recopilación de recursos...

 

30
abr 2007

Sitios sociales atacados por el spam... o la caquita del perro del vecino

Connotea parece estar siendo atacada por el spam, y por lo que me envían al correo de mi cuenta, creen que yo soy uno de los causantes. Desde luego se trata de un error, pero de momento se han cargado todos mis enlaces.

Más allá de esto, creo que los sitios de enlaces van a tener que cambiar de política para evitar el spam que deben de estar sufriendo. Creo que no les será difícil determinar que no es tan importante cargarse cuentas de usuarios, como lo podría ser identificar fuentes de contenidos (dominios, por ejemplo) poco fiables.

 

26
abr 2007

Categorías

  • Informática
  • Etiquetas

  • Expresiones regulares
  • Expresiones regulares para interpretar URLs

    Estoy desarrollando un pequeño script que sirva de araña para recoger pequeños conjuntos de recursos que sirvan para hacer algunos análisis. Entre los procesos que hay que realizar, es necesario desarrollar una sencilla araña que me permita gestionar las URLs según lo que esté escaneando.

    Sé que existen varias herramientas de arañas, y bastantes de ellas libres, pero la cuestión es poder tratar la información según como venga para ya tener los datos procesados en el momento de finalizar el crawling.

    A lo que iba: entre las fases de proceso de una URL, está una parte que toca un poco la moral: Absolutizar los enlaces. Esto significa normalizar la estructura del enlace para que quede siempre como:

    protocolo://dominio/uri?parametros#ancla

    Para conseguir esta tarea, he desarrollado una pequeña función basada en expresiones regulares y programada en PHP. No es infalible, pero para quien le pueda servir...

     

    16
    abr 2007

    Categorías

  • Informática
  • Economía
  • Etiquetas

  • Google
  • Google hasta en la sopa

    No es un juego de palabras, es que Google parece serlo... TODO. Incluso víctima de demandas antimonopolio.

    Google ha hecho un papelazo como intermediario de la información. He leído en bastantes artículos aquello de que "el trabajo de documentalista se acabará con Google".

    Eso a mí no me parece especialmente probable: simplemente me parece que ha cambiado el rol del profesional de la información. Igual que lo cambia el código abierto en el negocio de la informática.

    A pesar de ello, ¿hacia dónde va Google? Una humilde opinión la mía, desde luego...

    04
    abr 2007

    Una partida de Ajedrez entre Windows y Linux

    Leyendo las noticias, me topo con un post el en blog de Mercè Molist sobre su metamorfosis linuxera (vía menéame). Me he acordado de una ocasión en la que presencié una buena lección de ajedrez: ¿y si cambias el color de las piezas...?

     

    02
    abr 2007

    Un primer post

    Escoger una fecha fácil no era algo intencionado, pero siempre es mejor poder recordarla. Así que doy por inaugurado el blog sopadebits.com en un 1 de Abril de 2007 ;-).

    Aunque quizá sería bueno empezar a desglosar los contenidos de esta sopa de bits que día a día trato de digerir. Por fin me atrevo a empezar a cocinar!

    Páginas 1 2 3