A blog about data, information and Tech by Mario Alberich

        

abr. 24
2018

El proyecto GDELT

En el proceso para encontrar fuentes de datos, es habitual encontrar proyectos que tengan alguna característica excepcional en alguno de sus aspectos: el contenido, la tecnología o la metodología de análisis.

Read more »

abr. 14
2018

Luigi, a posteriori

Durante los dos últimos años mi actividad se ha ido centrando progresivamente en tareas relacionadas con el tratamiento de datos, y más especialmente con tareas de data engineering. Este cambio también ha supuesto un cambio en mi lenguaje de programación, que ahora es Python la mayor parte del tiempo.

Read more »

sept. 10
2016

Volver, con cambios y sin prisa

Casi dos años han pasado desde el último artículo, pero incluso antes que se publicara, la vida ya me estaba cambiando rápidamente. Vuelvo ahora con algunos cambios, y también consciente que mi tiempo es mucho menor que hace dos años. ¿Por qué este silencio? En una palabra: paternidad. 18 meses tiene la principal responsable de mi falta de tiempo, pero también otros varios cambios que prefería priorizar. Al fin y al cabo mi intención con el blog es disfrutar explicando, y dejar anotadas cosas que de otra manera se me olvidarían.

Read more »

oct. 12
2014

Enlaces de interés 2014-41

oct. 5
2014

Enlaces de interés 2014-40

Read more »

sept. 21
2014

Enlaces de interés 2014-38

Read more »

sept. 7
2014

Enlaces de interés 2014-36

sept. 4
2014

Big data y machine learning, del batch al procesado por eventos

Que MapReduce no es lo último en algoritmos de procesado de datos, es algo conocido por todos. Pero cuando la empresa que inventó MapReduce confirmara que no lo usa desde hace tiempo, siempre es una señal que algo sucede.

Probablemente ha sido una estrategia para levantar un poco de revuelo por el lanzamiento de un nuevo producto. En el auge de las soluciones comerciales basadas en Hadoop, Google ha lanzado el servicio Cloud Dataflow, que viene a ser la competencia del servicio de cloud de Amazon, pero que en su caso se orienta aún más hacia el análisis de datos.

¿Quiere decir eso que Hadoop se va a la cuneta? Probablemente no, pero hay una serie de operaciones de alto valor añadido que no encajan en el proceso por lotes. Ahí es donde entran Spark y Cloud Dataflow.

Machine learning, la máquina que tira del tren


Si hay ahora mismo un área que esté empujando en esa dirección, se trata del Machine Learning (véase también Deep Learning).  El conjunto de algoritmos y métodos, mezcla de estadística e inteligencia artificial, se está introduciendo cada vez con más fuerza en áreas como la detección de fraude, mecanismos de personalización y gran cantidad de operaciones que requieren un tiempo de respuesta menor. En otras palabras, para las que no sirve el proceso batch no iterativo.

Aunque el Machine Learning no es por sí mismo un marco operativo que requiera de interacción ni procesado por eventos, sus aplicaciones comerciales sí lo están siendo. Y por su propia naturaleza, encaja mucho mejor en entornos que requieren de algoritmos adaptables a multitud de variables... y a multitud de perfiles de usuarios. En resumen, el machine learning es ideal para arañar más porcentaje de conversión en el embudo de venta.

Pero al margen del Machine Learning, muy probablemente convivan en el campo del análisis de datos ambos enfoques (procesado por lotes y versiones interactivas), junto con muchas más propuestas, como por ejemplo BigQuery y similares.  Es desde luego un momento de cierta locura por las nuevas siglas y conceptos que, a través de cierto grado de especialización, intentan sustituir al ya erosionado término "Big Data". Iremos viendo.

Read more »

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.