may 2007
Buscando en el escritorio con Linux
De vez en cuando uno descubre nuevas herramientas en Linux que le ayudan a hacer más fácil las tareas de búsqueda y recuperación de datos cuando no sabe por dónde empezar. Es así como me encontré com Beagle y Recoll, dos herramientas de búsqueda de escritorio disponibles en Linux. Cada herramienta utiliza su tecnología...
La principal diferencia, como digo, es la tecnología. Mientras que Beagle utiliza la biblioteca Mono (el .NET para Linux), Recoll utiliza Xapian, una herramienta que probablemente más adelante comentaré por su posibilidad de ser utilizada desde PHP y otros lenguajes.
La gran fortaleza de Kerry es su facilidad de configuración y su integración con las herramientas de escritorio: En dos minutos estaba indexando documentos, correos electrónicos, posts del agregador de RSS, documentos PDF, Word, ODT,... una maravilla. A falta de darle un uso intensivo, un artículo comenta la posible sobrecarga de Beagle por el uso de .NET, que desde KDE se utiliza con el frontal Kerry.
Después de testear un poco (simple pero eficiente), instalé Recoll para compararlo.
Tuve dos pequeños contratiempos: Debian no tiene el paquete de Recoll en la rama testing, con lo que tuve que descargar el paquete desde la página de los desarrolladores. Aparte de eso, tuve que instalar la biblioteca del motor de búsqueda Xapian (libxapian13), del cual probablemente ya comentaré algo más en otro momento.
Aparte de esto, Recoll debe ser configurado a mano, entrando en el directorio creado en el path del usuario, y editando el archivo recoll.conf según explican en la web de los desarrolladores. No es que sea complicado, pero hay quien tiene miedo a la edición de archivos de configuración.
Una vez iniciado esto, el proceso de rastreo e indexación son equivalentes en uno y en otro. El tiempo de espera no es significativo. Después de indexar los aproximadamente 6000 documentos (en ambos casos se indexan múltiples formatos de documentos: desde HTML hasta PDF pasando por Word y OpenOffice), realicé unas cuantas búsquedas con un número de resultados más o menos amplios.
No lo cronometré pero los resultados sean bastante parecidos.
A escoger entre los dos motores, lo cierto es que me quedaría con Xapian, pero no por cuestiones tecnológicas, sino porque también hay disponible una extensión para PHP que utiliza la API de Xapian (aunque en la documentación de PHP la extensión se llama Muscat, por cuestiones de propiedad de la marca que no vienen al caso). Para el caso de Debian, existen los paquetes php4-xapian y php5-xapian.
Fuentes RSS
Etiquetas
apis-mashups Buscadores Clustering del.icio.us Desarrollo web estadísticas estándares Expresiones regulares Flash Fractales fuentes de información Gestión documental Google grafos Gráficos estadísticos Innovación Java lenguajes documentales Lingüística Linux Lógica borrosa modelización Muestreo estadístico Navegadores off-topic open source PHP PLN Productividad Profesionales Publicidad Recuperación información relevancia reseñas SEO spam Tagging Usabilidad utilidades veracidad Web social yahoo pipes