A blog about data, information and IT, by Mario Alberich

Sep 26
2013

España en llamas: la dificultad de obtener la información

El proyecto España en llamas se promocionó desde la fundación Civio para recopilar la información sobre los incendios forestales en España a lo largo de los años. Posteriormente obtuvo la financiación necesaria vía goteo.org, y echó a andar.

Este proyecto es un caso especialmente representativo del "trabajo embarrado" que supone crear estadísticas económicas y sociales donde no estaban planteadas. Ante la búsqueda de datos sobre una estadística económica y social "estándar", un ciudadano puede empezar a realizar su búsqueda en el INE, Eurostat o simliares.

Pero ¿Qué sucede cuando los datos en sí se encuentran recopilados en fuentes dispersas y no están sistematizadas? La operativa empieza a topar con obstáculos debidos a una burocracia que no tiene ese objetivo. Esa complejidad que sólo se centra en recopilar los datos pasa por:

  • Identificar las instituciones responsables.
  • Solicitar y/o obtener los datos (este proceso puede implicar transcripciones, fotocopias, personas que buscan y extraen informaciones de contenidos textuales, etc.).
  • Intentar organizar de forma sistemática toda esa información, tratando de coordinar los datos en base a elementos comunes (por lo general, fechas y ubicaciones).


Tratar de entender lo pesado que puede ser extraer y sistematizar toda esta información sólo se puede conseguir de una manera: probándolo. No es por contar batallitas, En mis años mozos tuve mis días y semanas de recopilar datos para trabajos universitarios, a menudo en base a fotocopias y posterior transcripción a hoja de cálculo. No es la tarea más agradecida. Un bravo por ese trabajo, y espero que sigan adelante.

El resultado es el que se puede ver en su mapa interactivo de incendios, que muestra datos de incendios hasta el 2011.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.