Sopa de bits

A blog about data, information and Tech by Mario Alberich

Sopa de bits

A blog about data, information and Tech by Mario Alberich

abr. 24
2018

El proyecto GDELT

En el proceso para encontrar fuentes de datos, es habitual encontrar proyectos que tengan alguna característica excepcional en alguno de sus aspectos: el contenido, la tecnología o la metodología de análisis.

abr. 14
2018

Luigi, a posteriori

Durante los dos últimos años mi actividad se ha ido centrando progresivamente en tareas relacionadas con el tratamiento de datos, y más especialmente con tareas de data engineering. Este cambio también ha supuesto un cambio en mi lenguaje de programación, que ahora es Python la mayor parte del tiempo.

sept. 10
2016

Volver, con cambios y sin prisa

Casi dos años han pasado desde el último artículo, pero incluso antes que se publicara, la vida ya me estaba cambiando rápidamente. Vuelvo ahora con algunos cambios, y también consciente que mi tiempo es mucho menor que hace dos años. ¿Por qué este silencio? En una palabra: paternidad. 18 meses tiene la principal responsable de mi falta de tiempo, pero también otros varios cambios que prefería priorizar. Al fin y al cabo mi intención con el blog es disfrutar explicando, y dejar anotadas cosas que de otra manera se me olvidarían.

oct. 12
2014

Enlaces de interés 2014-41

¿Ganas de quedarte hipnotizado por un rato? Mira unos minutos esta visualización sobre cómo funciona una transformada de Fourier.

Las preguntas que puedes (o te pueden) hacer en una entrevista de trabajo para programar en Javascript.

Una lista de HTML5Sec sobre fallos de seguridad en los navegadores web, y alternativas para evitarlos.

Escribir código cada día, un cambio de hábitos que John Resig explica en su blog.

¿Escalar aplicaciones NodeJS con cluster o con Nginx?

Relato, Un proyecto (beta) para analizar las métricas de proyectos open source.

Porque, según parece, los políticos (casi no) nos hacen caso.

Quién busca influencia de quién (en el congreso de Estados Unidos).

</p>

oct. 5
2014

Enlaces de interés 2014-40

Una guía de la startup para científicos de datos.
Una visión alternativa sobre lo que las startups deberían compartir o mantener en privado.
Un par de artículos en Safari Books sobre AngularJS, escribir tests y modularizar las aplicaciones.
Depurar aplicaciones javascript asíncronas con Chrome Dev Tools.
Una lista de bibliotecas javascript. Son las más populares, por lo que es un buen punto de partida.
AngularHotkeys (repositorio en GitHub), un módulo de AngularJS para definir una configuración de atajos de teclado en aplicaciones Angular.
Tabula, una herramienta para extraer datos tabulados desde un documento PDF.
¿Has jugado ya al 2048? ¿No? Pues sigue este tutorial y así podrás jugar con tu propia versión.
Y cuando acabes con el anterior... celébralo con una partidita al Hextris.

sept. 28
2014

Enlaces de interés 2014-39

¿Cómo gestionó el MIT todo lo relacionado con la detención de Aaron Schwartz?
Una simulación y visualización de datos con D3, sobre el rendimiento de algoritmos de two-arm bandits (lo que traducido significa máquinas tragaperras con dos palancas).
El uso y ascenso del lenguaje R como lenguaje estándar de facto para la estadística y lo que ello implica para el open source. ¿Implica eso que aparecerán mejores herramientas de control de versiones para los datos?
El uso de la Web Audio API para crear osciladores.
Un libro rojo de IBM divulgativo sobre principios y prácticas del gobierno de datos.

sept. 21
2014

Enlaces de interés 2014-38

Sobre cómo se construyó CodeCombat.
De las estadísticas predictivas a las políticas preventivas (o algo así).
Gitignore.io, una herramienta para generar tu .gitignore a medida.
Si vas a ofrecer tus datos personales libremente y sucumbir a la fiebre del oro por los datos, ¿por qué no donarlos a cambio de una buena causa?
Tres modelos de negocio basados en los datos abiertos de las ciudades.
¿Estás montando una startup y te faltan horas de sueño? échate una cabezadita.

sept. 14
2014

Enlaces de interés 2014-37

Dos artículos en Politikon: Desigualdad, crecimiento y el FMI, Futbol, estadísticas y visualización de datos.
El modelo de gestión de ramas en Git.
Una de cal y otra de arena con las Single Page Applications desarrolladas (por ejemplo) con Angular.
El problema con el periodismo de datos. Al fin y al cabo, tiene cierta relación con la interdisciplinariedad.
Apple e iTunes, ahora con AngularJS.
El rol de la visualización de datos en la ciberinteligencia.
El problema de la comparación de igualdades en Javascript (y sí, realmente es un problema).
Los seis tipos de conversaciones de twitter, vía GovLab.

sept. 7
2014

Enlaces de interés 2014-36

jsdb.io, un enorme listado de bibliotecas javascript.

Procesando los formularios con AngularJS.

Crear una sencilla aplicación de gestión de tareas con indexedDB y/o WebSQL, en Smashing Magazine.

La organización del código fuente en aplicaciones Angular es uno de esos temas con tantas opciones abiertas.

Un pedagógico e interesante artículo para aprender AngularJS. O si lo prefieres, un ejemplo de optimización de aplicaciones AngularJS.

No dispares eventos del DOM con jQuery, lo comenta David Walsh.

</p>

Offline strategies for HTML5 web applications - ConFoo13 from Stephan Hochdörfer

sept. 4
2014

Big data y machine learning, del batch al procesado por eventos

Que MapReduce no es lo último en algoritmos de procesado de datos, es algo conocido por todos. Pero cuando la empresa que inventó MapReduce confirmara que no lo usa desde hace tiempo, siempre es una señal que algo sucede.

Probablemente ha sido una estrategia para levantar un poco de revuelo por el lanzamiento de un nuevo producto. En el auge de las soluciones comerciales basadas en Hadoop, Google ha lanzado el servicio Cloud Dataflow, que viene a ser la competencia del servicio de cloud de Amazon, pero que en su caso se orienta aún más hacia el análisis de datos.

¿Quiere decir eso que Hadoop se va a la cuneta? Probablemente no, pero hay una serie de operaciones de alto valor añadido que no encajan en el proceso por lotes. Ahí es donde entran Spark y Cloud Dataflow.

Machine learning, la máquina que tira del tren

Si hay ahora mismo un área que esté empujando en esa dirección, se trata del Machine Learning (véase también Deep Learning). El conjunto de algoritmos y métodos, mezcla de estadística e inteligencia artificial, se está introduciendo cada vez con más fuerza en áreas como la detección de fraude, mecanismos de personalización y gran cantidad de operaciones que requieren un tiempo de respuesta menor. En otras palabras, para las que no sirve el proceso batch no iterativo.

Aunque el Machine Learning no es por sí mismo un marco operativo que requiera de interacción ni procesado por eventos, sus aplicaciones comerciales sí lo están siendo. Y por su propia naturaleza, encaja mucho mejor en entornos que requieren de algoritmos adaptables a multitud de variables... y a multitud de perfiles de usuarios. En resumen, el machine learning es ideal para arañar más porcentaje de conversión en el embudo de venta.

Pero al margen del Machine Learning, muy probablemente convivan en el campo del análisis de datos ambos enfoques (procesado por lotes y versiones interactivas), junto con muchas más propuestas, como por ejemplo BigQuery y similares. Es desde luego un momento de cierta locura por las nuevas siglas y conceptos que, a través de cierto grado de especialización, intentan sustituir al ya erosionado término "Big Data". Iremos viendo.

Sopa de bits

Categories

Machine learning, la máquina que tira del tren