<?xml version="1.0"?>
<rss version="2.0"><channel><title><![CDATA[sopadebits.com]]></title><link>http://sopadebits.com/extranet/site/feed/site/feed.xml</link><description><![CDATA[RSS Sopa de bits]]></description><item><title><![CDATA[Visualizando: Estad&iacute;sticas de navegadores (III)]]></title><description><![CDATA[<p>En esta &uacute;ltima parte comparo las dos versiones de gr&aacute;ficos y comento las ventajas e inconvenientes de la representaci&oacute;n:</p><br />
<p><a href="http://www.axiis.org/examples/BrowserMarketShare.html" target="_blank"><img style="float: left;" title="Esquema original: Michael Van Daniker - Axiis" src="../../../extranet/gallery/download/4516/" alt="Esquema original: Michael Van Daniker - Axiis" width="250" height="241" /></a><a href="../../gallery/download/4514/" target="_blank"><img style="float: right;" title="Versi&oacute;n Sopadebits.com" src="../../../extranet/gallery/download/4517/" alt="Versi&oacute;n Sopadebits.com" width="250" height="241" /></a></p><br />
<p>&nbsp;</p> <h2>Comparando los gr&aacute;ficos</h2><br />
<p>Dejando a un lado los criterios est&eacute;ticos (ajustando todos los anillos para cerrar la circunferencia, por ejemplo), hay algunos cambios significativos entre el original y la nueva versi&oacute;n:</p><br />
<ul><br />
<li>Algunos navegadores (sus versiones) se han unificado. En concreto, las versiones de Opera. Se podr&iacute;a haber hecho lo mismo con Netscape 3 y 4 (NS3 / NS4), pero la similitud de colores lo hace innecesario.</li><br />
<li>Ahora sabemos que el tiempo transcurrido entre los l&iacute;mites de dos anillos son dos meses.</li><br />
<li>Los navegadores se han ordenado con un criterio espec&iacute;fico que trata de transmitir un mensaje.</li><br />
</ul><br />
<h2>Mensaje 1: Guerra y evoluci&oacute;n de los navegadores</h2><br />
<p>Aunque el gr&aacute;fico empieza en el 2002, es posible ver la agon&iacute;a de Netscape, y su disgregaci&oacute;n (Mozilla, AOL y versiones varias de NS).&nbsp; Por ejemplo, vemos el navegador AOL (peque&ntilde;a franja naranja claro que se extingue en noviembre-diciembre de 2002) y comprobamos que casi "enlaza" con IE5.&nbsp; Por lo pronto, eso quiere decir que los navegadores situados "a su derecha" no aprovechan su extinci&oacute;n.&nbsp; Tampoco lo hace IE5.&nbsp; Pero si revisamos los porcentajes de IE6, vemos que pr&aacute;cticamente asume toda su cuota.<br /><br />&iquest;Casualidad? Seg&uacute;n la <a title="Wikipedia: AOL Explorer" href="http://en.wikipedia.org/wiki/AOL_Explorer">Wikipedia</a>, en 2003 AOL firma un contrato para para utilizar el layout Engine de Internet Explorer. Si esto tiene una relaci&oacute;n directa con la desaparici&oacute;n "de facto" de este navegador (o al menos de su <a title="Wikipedia: User Agent String" href="http://en.wikipedia.org/wiki/User_agent_string">firma identificativa</a>), ya es algo a contrastar.<br /><br />Pero sigamos con Netscape. Precisamente AOL (propietaria de Netscape) dej&oacute; de acompa&ntilde;ar a Mozilla Organization en Julio de 2003 (&iquest;habr&aacute; relaci&oacute;n entre esto y el acuerdo con Internet Explorer?). En esos momentos se cre&oacute; la <em>Mozilla Foundation</em>, que ya llevaba trabajando en una versi&oacute;n preliminar de su navegador Mozilla (primero Phoenix, luego Firebird, y desde enero de 2004, Firefox). Es interesante ver que, a partir de ese momento, la franja marr&oacute;n empieza a crecer, para ser finalmente absorbida por la franja naranja.&nbsp; Mientras Netscape da coletazos ag&oacute;nicos (que acaban en <a title="Wikipedia: AOL's Netscape end of development support" href="http://en.wikipedia.org/wiki/Netscape_Communications_Corporation#End_of_development_and_support ">Marzo de 2008</a>), y la versi&oacute;n 6 de Internet Explorer es l&iacute;der indiscutible de la parte derecha del gr&aacute;fico, algo va creciendo por el flanco izquierdo.<br /><br />Y mientras eso sucede, Internet Explorer 7 intenta cerrar el espacio a Internet Explorer 6, incluso cuando ha llegado la versi&oacute;n 8 (que ya no sale en el gr&aacute;fico).&nbsp; Quiz&aacute; en este esfuerzo exista una clave del por qu&eacute; del crecimiento de navegadores alternativos.</p><br />
<h2>Mensaje 2: Los navegadores estables</h2><br />
<p>Es el caso de Opera.&nbsp; La guerra de los navegadores no parece que vaya con &eacute;l.&nbsp; Mantiene su cuota de mercado o crece lentamente, sin angustias.&nbsp; Vale decir que la visi&oacute;n de Opera va m&aacute;s all&aacute; de los PCs, ya que se encuentra muy extendido en m&oacute;viles, consolas (como a Wii) y otros dispositivos similares.<br /><br />Lo mismo sucede con Safari.&nbsp; Es ligero y &aacute;gil, su ecosistema es muy concreto (MacOS, aunque ahora exista versi&oacute;n para Windows) y dispone de un p&uacute;blico fiel. Ambos van a su ritmo, sin altibajos.</p><br />
<h2>Mensaje 3: los nuevos participantes</h2><br />
<p>Chrome aparece s&oacute;lo en los &uacute;ltimos anillos del gr&aacute;fico (parte superior, color verde) pero entra con fuerza.&nbsp; La marca que lo abraza y el destino que le est&aacute;n preparando facilitan la entrada al mercado.<br /><br />El gr&aacute;fico en este sentido es ambiguo.&nbsp; Observando el anillo externo, parece que Firefox gana terreno, pero vemos que es porque Chrome le <em>muerde</em> un trozo de la tarta.&nbsp; Si se puede decir que alguien est&aacute; avanzando en cuota de mercado, no es estrictamente Firefox, sino los navegadores alternativos. a Internet Explorer &nbsp; Habr&aacute; que ver a lo largo del pr&oacute;ximo a&ntilde;o si Internet Explorer recupera terreno. De momento parece que lo pierde, y r&aacute;pido.</p><br />
<h2>Diagn&oacute;stico del gr&aacute;fico</h2><br />
<p>Comentar&eacute; brevemente los puntos a favor y en contra que le veo al gr&aacute;fico.<br /><br />A favor:</p><br />
<ul><br />
<li>La superposici&oacute;n de informaci&oacute;n ayuda a explicar una historia, representar un ritmo (crecimiento de usuarios) y a transmitir un mensaje.</li><br />
<li>El gr&aacute;fico es est&aacute;tico pero la informaci&oacute;n que muestra es muy din&aacute;mica.&nbsp; Es f&aacute;cil entretenerse siguiendo las franjas de color y comprobar las evoluciones.</li><br />
<li>Al reorganizar los navegadores siguiendo criterios objetivos (motor DOM o javascript, empresa responsable, variaci&oacute;n de la cuota de mercado, etc.) podemos establecer itinerarios que apoyen un argumento.</li><br />
<li>El uso de Axiis ha sido una experiencia muy gratificante, aunque los retoques han sido muy limitados. Ofrece garant&iacute;as para a&ntilde;adir interactividad y otras combinaciones de gr&aacute;ficos en el futuro.&nbsp; Es un proyecto a seguir de cerca, como su proyecto base: [Degrafa].</li><br />
</ul><br />
<p>En contra:</p><br />
<ul><br />
<li>Los porcentajes de cada navegador son globales, pero los anillos son proporcionales.&nbsp; Es decir, que los arcos de cada anillo reflejan el estado actual. Al a&ntilde;adir un anillo tras de otro, la sensaci&oacute;n de dominio puede ser err&oacute;nea.&nbsp; Eso es lo que pasa con Internet Explorer (6 y 7): el azul predomina, pero su cuota de mercado es menos c&oacute;moda de lo que parece. Eso s&iacute;, nos da perspectiva de su gran dominio, igual que nos da perspectiva en la evoluci&oacute;n de los navegadores Netscape/Mozilla. Esto se podr&iacute;a corregir tratando los datos de proporciones de acuerdo con los datos hist&oacute;ricos (priorizando el &aacute;rea total en detrimento del &aacute;rea de cada anillo), pero entonces ya hablar&iacute;amos de otro gr&aacute;fico.</li><br />
<li>Los datos no son 100% fiables, y parten de fuentes distintas con objetivos diversos.&nbsp; No voy a insistir m&aacute;s en esto.</li><br />
<li>Aunque no sea realmente cr&iacute;tico, se han "retocado" los porcentajes de cada anillo para cerrar el c&iacute;rculo.&nbsp; En la l&iacute;nea de lo anterior, es una licencia que me tomo con fines puramente est&eacute;ticos, aunque facilita la lectura del gr&aacute;fico.</li><br />
<li>Al mezclar dos tipos de datos tan diferentes (navegadores y crecimiento de usuarios) es importante no llegar a conclusiones del tipo "los nuevos usuarios de Internet prefieren cada vez m&aacute;s Firefox". Probablemente eso sea falso. Es m&aacute;s, los nuevos usuarios acostumbran a escoger el navegador por defecto, y son los m&aacute;s experimentados quienes prueban alternativas. Quiz&aacute; lo que est&eacute; pasando es que el cambio de navegador cada vez tarda menos (la velocidad de cambio) pero nada m&aacute;s.</li><br />
<li>El gr&aacute;fico s&oacute;lo contempla una evoluci&oacute;n "creciente".&nbsp; Si en alg&uacute;n momento Internet sufriera un descenso de usuarios, este gr&aacute;fico ser&iacute;a in&uacute;til: tendr&iacute;amos que dibujar anillos superpuestos.&nbsp; Aunque se puede abordar (con texturas), su interacci&oacute;n se ver&iacute;a perjudicada.</li><br />
</ul><br />
<h2>Aplicaciones y conclusiones</h2><br />
<p>En general, el &uacute;nico condicionante real es el pen&uacute;ltimo punto en contra (el decrecimiento). El resto son criterios de representaci&oacute;n y fuentes de informaci&oacute;n.&nbsp; Por lo tanto, es posible aplicar este gr&aacute;fico en contextos de evoluci&oacute;n o crecimiento. Los escenarios que contemplen decrecimiento precisar&aacute;n una adaptaci&oacute;n.<br /><br />Un posible uso del gr&aacute;fico puede ser el seguimiento de un servicio de atenci&oacute;n al cliente, o simplemente de trazabilidad de un servicio en general.&nbsp; Por ejemplo, en entornos de desarrollo puede ser interesante mostrar los tipos de actuaciones seg&uacute;n su tipo. Aparecer&iacute;an acciones como programar nuevas funcionalidades de una aplicaci&oacute;n, mejorar las existentes, correcci&oacute;n de errores, reuniones con el cliente...</p><br />
<p>Cada anillo puede representar una entrega o versi&oacute;n de la aplicaci&oacute;n con su fecha correspondiente (o el n&uacute;mero de horas dedicado). Y probablemente con este sistema se detectar&iacute;an esos l&iacute;mites de crecimiento de las aplicaciones que requieren de un par&oacute;n y refactorizaci&oacute;n.<br /><br />Sobre el gr&aacute;fico en s&iacute; extraigo una conclusi&oacute;n.&nbsp; <strong>Al centrarnos en un mensaje visual, nos vemos obligados a obviar una serie de datos o caracter&iacute;sticas que describen mejor el conjunto</strong>.&nbsp; En este caso, hay que optar entre una lectura radial (como en los cl&aacute;sicos gr&aacute;ficos de sectores) o una de conjunto, y siempre tener en cuenta esta decisi&oacute;n en el momento de interpretar el gr&aacute;fico. Si vamos a presentar este gr&aacute;fico a alguien que desconoce su origen, vale la pena matizar su explicaci&oacute;n con texto o bien con otro gr&agrave;fico complementario.<br /><br />S&oacute;lo me queda felicitar a Michael Van Daniker por su excelente trabajo, tanto por ejemplo de este gr&aacute;fico como por la propia biblioteca Axiis.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26831/visualizando:-estadisticas-navegadores-(iii)</link><pubDate>Tue, 12 Jan 10 00:00:00 +0100</pubDate></item><item><title><![CDATA[Visualizando: Estad&iacute;sticas de navegadores (II)]]></title><description><![CDATA[<p>En el <a href="../../../extranet/content/view/visualizando:-estadisticas-navegadores-(i)">anterior art&iacute;culo de la serie</a> comentaba los pasos para la obtenci&oacute;n de los datos, la unificaci&oacute;n de las fuentes, y finalmente el c&aacute;lculo de los par&aacute;metros del gr&aacute;fico.&nbsp; Para dar el siguiente paso hay que modificar el c&oacute;digo del ejemplo.&nbsp; En concreto, hay que modificar s&oacute;lo dos archivos:</p><br />
<ul><br />
<li>browser_stats.xml, es el archivo que contiene los datos.</li><br />
<li>BrowserMarketShare.mxml, que es el que contiene el c&oacute;digo ActionScript de Flash y MXML de Flex para modificar los datos.</li><br />
</ul> <p>La primera parte es relativamente sencilla, teniendo el archivo XML generado en la hoja de c&aacute;lculo.&nbsp; S&oacute;lo hay que tener en cuenta de no olvidarse de los tags ... que engloban todo el contenido.&nbsp; Pasamos al segundo paso.</p><br />
<h2>Modificaci&oacute;n del c&oacute;digo</h2><br />
<p>Para adaptar los anillos hay que ir a las l&iacute;neas 148-149, donde se definen las variables <em>innerRadius</em> y <em>outerRadius</em>.&nbsp; Aqu&iacute; se define el valor del l&iacute;mite interno y externo de cada anillo.</p><br />
<p>En la versi&oacute;n original estos radios son constantes.&nbsp; Pero ahora lo que hay que hacer es utilizar los atributos innerRadius y outerRadius generados en el archivo XML.&nbsp; Los valores aqu&iacute; ya tienen que ser absolutos, por lo que hemos de multiplicar los radios normalizados a 1 por el radio total del gr&aacute;fico. Las l&iacute;neas deben contener lo siguiente:</p><br />
<p><em>innerRadius="{radialLayout.currentDatum.innerRadius*radialLayout.height/2}"</em><br /><em>outerRadius="{radialLayout.currentDatum.outerRadius*radialLayout.height/2}"</em><br /><br />Describo brevemente los par&aacute;metros de las f&oacute;rmulas:</p><br />
<ul><br />
<li>Estamos recogiendo el valor de innerRadius (u outerRadius en la segunda) y los estamos multiplicando por la mitad de la altura de la caja donde se mostrar&aacute; el gr&aacute;fico.&nbsp; <strong>Dado que el gr&aacute;fico est&aacute; centrado, dividimos la altura entre dos para conseguir el mayor radio posible</strong>. La altura total es el di&aacute;metro, por lo que su mitad es el radio.</li><br />
<li>Luego, dado que innerRadius y outerRadius en el XML son valores entre 0 y 1 (el innerRadius del anillo m&aacute;s interior es 0 y el outerRadius del anillo m&aacute;s exterior es 1) y son contiguos, <strong>los anillos toman su m&aacute;xima medida posible para la caja del gr&aacute;fico (radialLayout)</strong>.</li><br />
</ul><br />
<p><!-- comentario -->Aparte de estos cambios, he comentado las l&iacute;neas 178-180 (etiqueta "January 2002" que aparec&iacute;a en la parte central) y las l&iacute;neas 121 a 123 (la etiqueta "August 2009", que aparec&iacute;a en la parte exterior). Hay que tener en cuenta que el modo de comentario es XML, no ActionScript.</p><br />
<h2>Compilaci&oacute;n</h2><br />
<p>Ya s&oacute;lo queda generar el archivo SWF. Para ello es necesario que descargar Flex SDK (gratuito, precisa Java), instalarlo (se descomprime en un directorio, sin m&aacute;s) y compilar.&nbsp; Abriendo una consola y situ&aacute;ndote en el directorio "src" del ejemplo, pues compilar (en Linux) as&iacute;:<br /><br /><em>/ruta/hasta/flex/bin/mxmlc BrowserMarketShare.mxml -include-libraries ../libs/DegrafaLibrary.swc ../libs/AxiisLibrary.swc</em><br /><br />Compilando en <strong>Windows</strong>, el programa es <strong>mxmlc.exe</strong>, y las rutas a los directorios se indican con contrabarra ().<br /><br />Aparecer&aacute;n algunos avisos pero todo funciona correctamente.&nbsp; La &uacute;ltima l&iacute;nea del proceso ser&aacute; algo as&iacute; como:<br /><br /><em>/home/_usuario_/..../axiis examples/src/BrowserMarketShare.swf (568757 bytes)</em><br /><br />Puedes abrir el archivo SWF en tu navegador y ver&aacute;s algo parecido a la siguiente imagen:<br /><br /><a title="Browser Statistics con anillos proporcionales (Flash)" href="../../gallery/download/4514/" target="_blank"><img title="Axiis Browser Statistics: Anillos proporcionales al crecimiento" src="../../gallery/download/4515/" alt="Axiis Browser Statistics: Anillos proporcionales al crecimiento" width="550" height="332" /></a><br /><br />&iquest;Todo bien? &iquest;Algo no ha funcionado? Si dejas alg&uacute;n comentario quiz&aacute; lo aclaremos.&nbsp; Clicando con el bot&oacute;n derecho en la versi&oacute;n de pantalla completa puedes ver el c&oacute;digo del archivo MXML.<br /><br />Queda un &uacute;ltimo apartado para comentar los resultados del gr&aacute;fico, compararlo con el original, analizar qu&eacute; podemos extraer de &eacute;l, y valorar las ventajas e inconvenientes por los criterios que he seguido.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26830/visualizando:-estadisticas-navegadores-(ii)</link><pubDate>Mon, 11 Jan 10 00:00:00 +0100</pubDate></item><item><title><![CDATA[Visualizando: Estad&iacute;sticas de navegadores (I)]]></title><description><![CDATA[<p>Llevaba tiempo buscando un rato para acabar un peque&ntilde;o experimento sobre la visualizaci&oacute;n de la informaci&oacute;n, la biblioteca Axiis y unos cuantos c&aacute;lculos matem&aacute;ticos.&nbsp; Por fin ha llegado el momento.</p> <h2>El origen: Browser Market Share</h2><br />
<p><a title="Michael Van Daniker" href="http://michaelvandaniker.com/blog/">Michael Van Daniker</a> publicaba en su blog <a title="Visualizing historic browser statistics with Axiis" href="http://michaelvandaniker.com/blog/2009/10/31/visualizing-historic-browser-statistics-with-axiis/">un gr&aacute;fico sobre las estad&iacute;sticas de navegadores</a> como <a title="Axiis: Browser Market Share" href="http://www.axiis.org/examples/BrowserMarketShare.html">ejemplo de utilizaci&oacute;n de Axiis</a>.&nbsp; El gr&aacute;fico me despert&oacute; el inter&eacute;s por su enfoque novedoso y por su combinaci&oacute;n entre los conceptos de proporciones y serie temporal.<br /><br />Observando el gr&aacute;fico, se puede encontrar una analog&iacute;a con los anillos de un tronco de &aacute;rbol.&nbsp; Los datos que muestra se refieren a las estad&iacute;sticas de navegadores de <a href="http://www.w3schools.com/">w3schools.com (W3S)</a> desde Enero de 2002 hasta finales del 2009. Empezando desde el centro, cada anillo representa el porcentaje de un intervalo de tiempo determinado.&nbsp; Navegando por la versi&oacute;n Flash se puede ver el mes/a&ntilde;o, el navegador de cada arco y su porcentaje de penetraci&oacute;n.<br /><br />Sin embargo, hay una serie de cuestiones que me interesaron en aras a mejorar el resultado final:</p><br />
<ul><br />
<li>El gr&aacute;fico se muestra "abierto", ya que las estad&iacute;sticas de W3S no suman el 100% (los navegadores con un uso por debajo del 0,5% quedan fuera).</li><br />
<li>Los periodos de cada anillo no son r&iacute;tmicos: En el 2002 pueden ser trimestrales o semestrales, mientras que en el 2009 los datos son mensuales.</li><br />
<li>Los anillos tienen un tama&ntilde;o id&eacute;ntico, lo cual no representa de forma fidedigna el crecimiento de los usuarios de Internet.</li><br />
</ul><br />
<p>A partir de estas observaciones, he definido una serie de criterios:</p><br />
<ul><br />
<li><strong>"Cerrar" el c&iacute;rculo</strong>, aunque sean recalculando los porcentajes existentes.</li><br />
<li>Aplicar tama&ntilde;os de cada anillo <strong>proporcionales al crecimiento de usuarios de internet a lo largo de ese periodo</strong>.</li><br />
<li>Establecer un <strong>ritmo fijo en los intervalos de tiempo</strong>, estimando el crecimiento de usuarios si faltan datos. De este modo, cada l&iacute;nea se refiere a un ciclo de tiempo fijo, y su anchura representa el incremento de usuarios.</li><br />
</ul><br />
<h2>Las fuentes de datos</h2><br />
<p>Antes de entrar en los detalles sobre los datos, tengo que decir que mi objetivo principal <strong>no ha sido encontrar la serie m&aacute;s fiable</strong> desde 2002 hasta la actualidad.&nbsp; Actualmente es posible encontrar algunas fuentes con datos mensuales bastante fiables, pero muchas no se extienden hasta ocho a&ntilde;os atr&aacute;s.</p><br />
<p>Los datos de W3S no incluyen el volumen (ni real ni estimado) de usuarios conectados a Internet.&nbsp; Por lo tanto, hay que buscar fuentes complementarias.&nbsp; Sin entrar en criterios estrictos de veracidad ni fiabilidad, he seleccionado la fuente <a title="Internet World Stats: Internet Growth Statistics" href="http://www.internetworldstats.com/emarketing.htm">Internet Growth Statistics</a> del <a title="Internet World Stats" href="http://www.internetworldstats.com/">Internet World Stats</a>.&nbsp; Para el objetivo que me ocupa, es suficiente.<br /><br />Como se puede comprobar en el enlace, <strong>los datos distan de ser concretos</strong>.&nbsp; Para acabar de arreglarlo, <strong>las series de datos no concuerdan con las del W3S</strong>.&nbsp; En este punto tenemos dos opciones: seguir buscando, o echar mano de la hoja de c&aacute;lculo y algunas f&oacute;rmulas matem&aacute;ticas. Opto por la segunda.</p><br />
<h2>Unificaci&oacute;n de las series de datos</h2><br />
<p>Esta fase es quiz&aacute; la m&aacute;s larga (y seguro que la m&aacute;s ardua) de todo el proceso.&nbsp; Importar los datos, eliminar el formato, convertir el texto en informaci&oacute;n tratable... Todo lo que no est&eacute; en una fuente estructurada requiere ese peaje.<br /><br />Una vez organizados los datos, queda unificar las series. &iquest;C&oacute;mo podemos llevarlo a cabo? Por <a title="Wikipedia: Interpolaci&oacute;n" href="http://es.wikipedia.org/wiki/Interpolaci%C3%B3n ">interpolaci&oacute;n</a>. La ventaja es que es un proceso relativamente sencillo, y el inconveniente es que sacrificamos algunos datos (pocos) de la serie.<br /><br />En este caso he escogido la interpolaci&oacute;n lineal.&nbsp; Muy probablemente no sea la mejor (&iquest;lo ser&aacute; la <a title="Wikipedia (en) Interpolaci&oacute;n c&uacute;bica" href="http://en.wikipedia.org/wiki/Spline_interpolation#Cubic_spline_interpolation">c&uacute;bica</a>?): en este caso es &uacute;til y suficiente.<br /><br />Para realizar interpolaci&oacute;n entre fechas, &eacute;stas se convierten en valores num&eacute;ricos (por ejemplo, d&iacute;as transcurridos desde el <a title="Wikipedia: Unix Time" href="http://en.wikipedia.org/wiki/Unix_time">1/1/1970</a>). Otros dos detalles que considero son:</p><br />
<ul><br />
<li>Asumo que las estad&iacute;sticas de "Marzo de 2005" se refieren a los datos "hasta el 31/5/2005". Es lo habitual pero no se especifica en la fuente.</li><br />
<li>Decido que la serie sea <strong>bimensual</strong>.&nbsp; Podr&iacute;a ser trimestral o semestral, pero lo hago para aprovechar m&aacute;s los datos (y no echar de menos los sacrificados).</li><br />
</ul><br />
<p>Dado que la interpolaci&oacute;n requiere una fecha anterior y otra posterior a la&nbsp; intermedia que queremos calcular, <strong>pierdo al menos dos datos de la serie: el primero y el &uacute;ltimo</strong>. La alternativa a esto es empezar justo en la misma fecha que empieza la serie.&nbsp; Obteniendo la distancia entre los dos puntos puedo calcular la parte proporcional (suponiendo incremento constante = lineal) del crecimiento de usuarios.&nbsp; Por lo tanto, <strong>para cada fecha concreta de mi serie unificada, tengo el n&uacute;mero estimado de crecimiento de usuarios</strong>.</p><br />
<p>Para obtener esta diferencia, sacrifico otro dato del inicio de la serie. (ya van tres)&nbsp; Al precisar la <em>diferencia respecto al anterior</em>, el primero (que se supone que no tiene anterior) se cae de la lista.</p><br />
<p>Podr&iacute;a solucionar este detalle utilizando la cifra absoluta (el n&uacute;mero de usuarios al iniciar ese periodo) para dibujar el c&iacute;rculo m&aacute;s interior del gr&aacute;fico,. Sin embargo, lo descarto porque eso <strong>supone perder un espacio considerable</strong>. Se puede comprobar que el primer c&iacute;rculo ser&iacute;a proporcional a unos 500 millones de usuarios, mientras que el resto de anillos tienen un crecimiento mucho inferior (una d&eacute;cima parte en los mejores casos).</p><br />
<h2>C&aacute;lculo del tama&ntilde;o de los anillos</h2><br />
<p>El siguiente paso es decidir qu&eacute; proporci&oacute;n sigue el radio del anillo.&nbsp; Exist&iacute;an dos opciones:</p><br />
<ul><br />
<li><strong>Radio proporcional al crecimiento</strong>: El radio se calcula de forma directamente propocional al crecimiento de usuarios (un usuario aumenta el mismo radio tanto en los anillos interiores como en los m&aacute;s exteriores). El radio total del gr&aacute;fico es equivalente al total de usuarios, y&nbsp; el radio de cada anillo se corresponde con la proporci&oacute;n de nuevos usuarios de cada periodo.</li><br />
<li><strong>&Aacute;rea proporcional a crecimiento</strong>: el radio se calcula teniendo en cuenta que el incremento de usuarios es <strong>proporcional al &aacute;rea del anillo</strong>.</li><br />
</ul><br />
<p>&iquest;Qu&eacute; diferencia hay?&nbsp; Visualmente, mucha. Bas&aacute;ndonos s&oacute;lo en el radio, tenemos un gr&aacute;fico bastante representativo si miramos por evoluci&oacute;n (centro-&gt;exterior), pero sesgado como conjunto (visi&oacute;n del <em>tronco</em>).&nbsp; 10 p&iacute;xeles de radio en el segundo anillo inferior ocupan mucha menos &aacute;rea que 10 p&iacute;xeles en el anillo m&aacute;s externo.&nbsp; Por lo tanto, el color del primer anillo ocupa mucho m&aacute;s espacio visual del que su volumen de usuarios representa.</p><br />
<p>Hay otra raz&oacute;n para escoger el criterio de la proporci&oacute;n por &aacute;rea: representar el crecimiento actual en relaci&oacute;n al pasado.&nbsp; Esto es algo interesante porque el grueso del tronco nos muestra la <strong>velocidad</strong> de crecimiento. Si este mismo gr&aacute;fico se realizara con barras o columnas relativas (ocupando una misma altura, ajustando la anchura al crecimiento de usuarios, y repartiendo el &aacute;rea proporcionalmente), <strong>el efecto visual de las columnas "anchas" ser&iacute;a mucho m&aacute;s acusado</strong>.<br /><br />En cambio, al repartirse por un &aacute;rea conc&eacute;ntrica que aumenta de radio, <strong>lo visualmente constante</strong> (anillos de un mismo grueso) es el crecimiento respecto al anillo anterior, que no el crecimiento en s&iacute;.&nbsp; Por ejemplo, revisando los datos se puede comprobar que los anillos interiores crecen a un ritmo de 15-20 millones de usuarios, a pesar que se ven gruesos. En cambio, los anillos m&aacute;s exteriores, que parecen <em>normalitos</em> est&aacute;n creciendo a un ritmo de 40 millones de usuarios. Esto quiere decir que <strong>requiere m&aacute;s esfuerzo aumentar el radio en cada anillo m&aacute;s exterior</strong>. Es un comportamiento habitual, por ejemplo, al analizar las tasas de crecimiento de las empresas. Y es algo directamente relacionado con la <em>viralidad</em> de este medio (el <a title="Wikipedia: Ley de Metcalfe" href="http://es.wikipedia.org/wiki/Ley_de_Metcalfe">efecto red</a> una teor&iacute;a a<a title="Bob Briscoe: Metcalfe's law is wrong" href="http://spectrum.ieee.org/print/4109">lgo criticada</a>).</p><br />
<p>La pregunta es: &iquest;Se est&aacute; enga&ntilde;ando? No: se est&aacute; centrando el mensaje en la tasa de crecimiento.&nbsp; Volviendo a la analog&iacute;a de los anillos del &aacute;rbol, podemos suponer que el tronco parezca mantener un crecimiento gradual.&nbsp; Pero <strong>lo que est&aacute; sucediendo es que el tronco crece proporcionalmente un poco m&aacute;s r&aacute;pido... ocupando el m&iacute;nimo espacio posible</strong>.&nbsp; En el gr&aacute;fico sucede lo mismo: si utiliz&aacute;ramos barras, el espacio de representaci&oacute;n ser&iacute;a mucho mayor y quitar&iacute;a importancia a los primeros datos de la serie.</p><br />
<p>Como efecto derivado, en este gr&aacute;fico podemos ver el efecto de la "viralidad" de los navegadores. Siguiendo la analog&iacute;a del tronco, el gr&aacute;fico muestra el cambio de <em>nutrientes del substrato</em> que es el mercado de los navegadores.</p><br />
<h2>El c&aacute;lculo</h2><br />
<p>Para acabar esta primera parte, comento las ideas esenciales para el c&aacute;lculo de los radios.&nbsp; Para empezar, tenemos lo siguiente:</p><br />
<ul><br />
<li>El espacio en el que se va a mostrar el gr&aacute;fico var&iacute;a seg&uacute;n el tama&ntilde;o de pantalla que tengas, por lo que debemos calcular los radios de los anillos en cantidades relativas (tanto por uno, o porcentajes).</li><br />
<li>Hay que establecer una relaci&oacute;n directa entre el total de usuarios de cada anillo, y el &aacute;rea del propio anillo. Es decir, que est&eacute; donde est&eacute;, un nuevo usuario ocupa los mismos p&iacute;xeles de superficie.</li><br />
<li>Hay que tener en cuenta un radio inicial para el primer anillo (el nudo central). En mi caso supondr&eacute; que es 0 (el primer dato empieza en el centro del tronco).</li><br />
</ul><br />
<p>Lo que hago es considerar el &aacute;rea completa del anillo, que se corresponde con los <strong>1.146 millones de usuarios</strong> de crecimiento entre Enero de 2002 hasta Julio de 2009 (datos ya interpolados).&nbsp; Lo primero que hago es <strong>dividir el incremento de cada periodo por este total</strong>. Con ello tengo un valor proporcional al &aacute;rea de cada anillo (si el gr&aacute;fico ocupara un &aacute;rea de 1 unidad). Es decir, obtengo la proporci&oacute;n de <strong>&aacute;rea por usuario</strong> que le corresponder&iacute;a a cada anillo.<br /><br />Ahora debo deducir el <em>radio</em> para que el c&iacute;rculo ocupe este &aacute;rea.&nbsp; Para ello, tengo que invertir la f&oacute;rmula del &aacute;rea del c&iacute;rculo: A = &pi;&middot;r<sup>2</sup>. Pero ojo, tengo que <strong>restar siempre el &aacute;rea de los anillos interiores</strong>.&nbsp; Por lo tanto, calculo los radios de dentro hacia a fuera.<br /><br />Para saber el radio del nuevo anillo debo:</p><br />
<ul><br />
<li>Calcular el &agrave;rea de todos los anillos interiores (sumo los radios interiores y calculo el &aacute;rea del c&iacute;rculo correspondiente).</li><br />
</ul><br />
<p>Luego resuelvo el c&aacute;lculo:<br /><br />&nbsp;r = sqrt(a+A), donde:</p><br />
<ul><br />
<li>sqrt(a+A) es la ra&iacute;z cuadrada de (a+A).</li><br />
<li>r = <strong>radio absoluto</strong> (distancia desde el centro hasta la parte exterior de este anillo).</li><br />
<li>a = <strong>&aacute;rea que debe ocupar el anillo</strong>.</li><br />
<li>A = &Aacute;rea de los <strong>anillos inferiores</strong>.</li><br />
</ul><br />
<p>Una vez obtengo r, le resto los radios de los anillos interiores y ya tengo el <em>ancho</em> (radio relativo al anillo). Se podr&iacute;a tratar el gr&aacute;fico directamente con los radios absolutos, pero requerir&iacute;a empezar a dibujar desde fuera hacia dentro y por lo tanto invertir la serie. Mi opci&oacute;n es no retocar la serie, para no manipular la hoja de c&aacute;lculo m&aacute;s de lo necesario.<br /><br />Dado que hemos supuesto que el &aacute;rea del c&iacute;rculo es 1, la suma de los radios no equivaldr&aacute; a uno (en realidad es de unos 0,564...). Esto es correcto: lo podemos comprobar <strong>calculando el &aacute;rea del c&iacute;rculo con radio 0,564... y nos dar&aacute; como resultado 1</strong>.<br /><br />Y finalmente, el &uacute;ltimo paso: debemos <em>estirar</em> los radios para que el total sea 1.&nbsp; &iquest;Por qu&eacute;? Pues para poder calcular con m&aacute;s facilidad los radios del gr&aacute;fico en la pantalla. Esto es sencillo: basta dividir cada fragmento de radio por 0,564..., y ya tenemos los radios proporcionados a 1. Lo que estoy haciendo aqu&iacute; no es m&aacute;s que <a title="Sopa de bits: Normalizaci&oacute;n y distancias normalizadas" href="../../../extranet/content/view/normalizacion-distancias-normalizadas">normalizar</a>: ajustar una serie de valores a una medida global concreta. (la norma) Es importante no confundir con <em>estandarizar</em> (convertir un valor de una distribuci&oacute;n normal a la normal est&aacute;ndar de media 0 y desviaci&oacute;n 1).</p><br />
<p>Con este c&aacute;lculo y algunas manipulaciones de texto en la hoja de c&aacute;lculo, ya tenemos un <strong>archivo XML similar al original</strong>.&nbsp; S&oacute;lo he a&ntilde;adido los valores del radio interno (la suma de radios interiores) y externo (interiores + radio del anillo). Tambi&eacute;n muestro en la etiqueta de cada sector (navegador del periodo concreto) el n&uacute;mero total de usuarios que aumentan en cada anillo, para que sea m&aacute;s f&aacute;cil comprobar las diferencias entre las cifras y el efecto visual.<br /><br />El siguiente paso es <strong>modificar el c&oacute;digo del ejemplo original</strong> (para adaptar los radios y cambiar algunas etiquetas) y ya podremos compilar. En el siguiente art&iacute;culo comento las modificaciones y el resultado.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26829/visualizando:-estadisticas-navegadores-(i)</link><pubDate>Sat, 09 Jan 10 00:00:00 +0100</pubDate></item><item><title><![CDATA[Visualizaci&oacute;n de datos: Una aproximaci&oacute;n ing&eacute;nua]]></title><description><![CDATA[<p>Hasta ahora hab&iacute;a comentado la representaci&oacute;n visual estrictamente relacionada con gr&aacute;ficos estad&iacute;sticos est&aacute;ndares, como en el caso de <a title="Sopadebits: Open Flash Chart 2" href="../../extranet/content/view/open-flash-chart-2-mejorando-graficos-estadisticos">Open Flash Chart 2</a>. Sin embargo los gr&aacute;ficos estad&iacute;sticos no siempre son aplicables, y es necesario buscar alternativas.<br /><br />El &aacute;rea de la visualizaci&oacute;n de datos es una encrucijada de caminos: por un lado est&aacute; la vertiente t&eacute;cnica (no s&oacute;lo tecnol&oacute;gica), en la que se generan los datos, y de la que se obtienen las reglas que les afectan.&nbsp; Por el otro est&aacute;n todas las cuestiones relacionadas con la usabilidad y la interacci&oacute;n, algo especialmente importante si hablamos del entorno digital.&nbsp; Finalmente est&aacute; el factor gr&aacute;fico, que busca representar una realidad en base a formas, perspectivas, tonalidades, texturas y dem&aacute;s desde un punto de vista de conjunto.</p> <p>La raz&oacute;n de ser de la visualizaci&oacute;n de datos es muy representativa (valga la redundancia) de la &eacute;poca actual.&nbsp; Tenemos infinidad de datos que necesitamos procesar, y necesitamos <a title="Sopadebits: Indicadores" href="../../extranet/content/view/indicadores-el-ajo-dorado">indicadores</a> y t&eacute;cnicas para resumirlos. Sin embargo, por ahora disponemos de pocas herramientas que sean &uacute;tiles y estables para estos objetivos.</p><br />
<p>Ante esta aparente falta de herramientas, mi opci&oacute;n es adoptar una postura ingenua y buscar referentes que me ayuden a determinar los aspectos clave.</p><br />
<h2>Buscando referentes</h2><br />
<h3>Diagn&oacute;stico por la imagen<br /></h3><br />
<p>Por cuestiones que no vienen al caso he tenido la oportunidad de entender de cerca c&oacute;mo funcionan los sistemas de diagn&oacute;sticos por la imagen en sanidad.&nbsp; Las t&eacute;cnicas de de diagn&oacute;stico por la imagen (con t&eacute;rminos relacionados como radiograf&iacute;a, ecograf&iacute;a, contraste, TAC, PET, etc.) y su considerable cantidad de par&aacute;metros es una herramienta poco invasiva (salvo por la radiaci&oacute;n, obviamente).&nbsp; Compar&eacute;moslo con la alternativa: <em>abrir</em> al paciente o extraer una biopsia es algo mucho m&aacute;s desagradable (y doloroso).</p><br />
<p>Desde un punto de vista ingenuo, sorprende ver c&oacute;mo al primer vistazo un profesional puede detectar los factores clave del diagn&oacute;stico.&nbsp; Pero adentr&aacute;ndose en los aspectos t&eacute;cnicos, sorprende entender la cantidad de par&aacute;metros posibles (t&eacute;cnicos y humanos) que pueden afectar para que una imagen permita las garant&iacute;as b&aacute;sicas del diagn&oacute;stico.&nbsp; Por resumirlo en una frase: la clave est&aacute; en <strong>combinar la focalizaci&oacute;n en los detalles sin p&eacute;rdida de contexto</strong>.</p><br />
<p>Para resaltar estos detalles, la clave est&aacute; en la posici&oacute;n del cuerpo del paciente, la potencia de la radiaci&oacute;n emitida (los huesos de la cabeza necesitan m&aacute;s radiaci&oacute;n porque son mucho m&aacute;s densos que, por ejemplo, el t&oacute;rax), el &aacute;ngulo del disparo (el encuadre de la imagen, por llamarlo as&iacute;), e incluso la posibilidad que el paciente tenga los pulmones llenos de aire. Pura <a title="Sopa de bits: muestreo estad&iacute;stico" href="../../extranet/content/view/muestreo-estadistico">t&eacute;cnica de muestreo</a>.</p><br />
<p>Un cambio en los par&aacute;metros altera el resultado final, con lo que se obtiene una imagen borrosa, oscura o demasiado clara. Dado que sus fines no son est&eacute;ticos sino de salud, la nitidez del &oacute;rgano o fragmento a radiografiar son claves para el diagn&oacute;stico.</p><br />
<h2>Representaci&oacute;n, visualizaci&oacute;n e interacci&oacute;n</h2><br />
<p>El t&eacute;rmino cl&aacute;sico de representaci&oacute;n gr&aacute;fica de datos constituye el puente entre la emisi&oacute;n de datos y la representaci&oacute;n visual.&nbsp; Ese camino representa un gran paso para aquellas personas ajenas a las cifras. Nuestra capacidad de representar mentalmente los datos para extraer informaci&oacute;n var&iacute;a fuertemente dependiendo de los conocimientos previos y la experiencia.</p><br />
<p>Sin embargo, la representaci&oacute;n gr&aacute;fica <em>cl&aacute;sica</em> <strong>se concentra en unos pocos par&aacute;metros</strong>.&nbsp; Con este l&iacute;mite, es relativamente f&aacute;cil representar datos, ya que se puede utilizar formas geom&eacute;tricas simples, espacios delimitados, colores concretos, y cifras fijadas.&nbsp; Dada la tradicional escasez de datos, esta relaci&oacute;n entre complejidad y resultados es m&aacute;s que suficiente. De hecho, va bien que sea as&iacute;: <a title="Wikipedia: Principio KISS" href="http://es.wikipedia.org/wiki/Principio_KISS">cuanto m&aacute;s simple, mejor</a>.</p><br />
<p>Lo que sucede actualmente es que tenemos muy a mano gran cantidad de datos. Por si fuera poco, el nivel de interrelaci&oacute;n entre conjuntos de datos ha aumentado mucho: antes conseguir estas caracter&iacute;sticas era dif&iacute;cil, especialmente por el coste asociado al muestreo.&nbsp; Ahora es una cuesti&oacute;n casi de rutina.<br /><br />Con el aumento del volumen de los datos llegan varias consecuencias:</p><br />
<ul><br />
<li>Es necesario realizar tareas de depuraci&oacute;n y "limpieza" de estos datos.&nbsp; Esta tarea es mucho m&aacute;s cercana a las labores de restauraci&oacute;n (eliminar las impurezas), que al del lavado de un coche. Una limpieza con criterios err&oacute;neos conduce al sesgo de los datos y por ello a conclusiones equivocadas.</li><br />
<li>Los conjuntos de datos pueden implicar varios niveles de informaci&oacute;n.&nbsp; Podemos tratar una muestra primaria, y relacionar este subconjunto de datos con otros datos secundarios.&nbsp; Por ejemplo: podemos tratar el nivel de ventas de un producto en varias zonas geogr&aacute;ficas, y en un segundo nivel podemos analizar factores sociodemogr&agrave;ficos de cada zona como la natalidad, niveles de estudios, distribuci&oacute;n de riqueza, etc.</li><br />
<li>Es necesario reinventar la forma de representar estos datos, ya que la linealidad de las representaciones gr&aacute;ficas cl&aacute;sicas ya no son tan &uacute;tiles para transferir ideas.&nbsp; Esto depende tambi&eacute;n del p&uacute;blico al que se dirige, sus conocimientos, circunstancias, o motivaciones. La representaci&oacute;n de los datos debe reflejar los <em>estratos de la relevancia</em>.</li><br />
<li>La disponibilidad casi en tiempo real de algunos datos permite pensar en representaciones visuales actualizables, que evolucionan cambiando de color, tama&ntilde;o u otros efectos. Estas alteraciones reflejar&iacute;an cambios cualitativos que afectan al equilibrio del conjunto.</li><br />
<li>Un usuario capacitado puede extraer m&aacute;s conclusiones si tiene la posibilidad de modificar perspectivas, filtrar ciertos datos y establecer un "camino" en la representaci&oacute;n. Ese camino transcurre desde sus dudas hasta las conclusiones.</li><br />
</ul><br />
<p>Los aspectos interesantes, bajo mi punto de vista, radican en la posibilidad de establecer sistemas m&aacute;s personalizables de visualizaci&oacute;n de datos, organizados en niveles de representaci&oacute;n, y combinados con la posibilidad que el usuario interact&uacute;e, con el objetivo de agruparlos, disgregarlos, relacionarlos, etc.</p><br />
<p><strong>Creo que estos tres niveles (visualizaci&oacute;n, organizaci&oacute;n e interacci&oacute;n) corren paralelos a los niveles de informaci&oacute;n (datos, informaci&oacute;n y conocimiento).</strong>&nbsp; Los datos con un buen nivel de interacci&oacute;n y personalizaci&oacute;n podr&iacute;an transmitir un mensaje adecuado para el receptor (por contraposici&oacute;n a un mensaje predefinido por el emisor), que mejora la transferencia de ideas.</p><br />
<h2>Qu&eacute; podemos extraer de la visualizaci&oacute;n de datos</h2><br />
<ul><br />
<li>Menor tiempo (y procesos intermedios) entre generaci&oacute;n de datos y toma de decisiones.</li><br />
<li>Disponibilidad de un solo entorno para los distintos niveles de decisi&oacute;n.</li><br />
<li>Capacidad para extraer y representar subgrupos de informaci&oacute;n mediante una interacci&oacute;n visual, descartando en gran parte las consultas textuales.</li><br />
<li>Vinculaci&oacute;n de recursos adicionales (archivos audiovisuales, comentarios de los usuarios, etc.).</li><br />
<li>La forma de interacci&oacute;n puede ser similar al de una Wiki, en la que los comentarios de los usuarios pueden ayudar a extraer el conocimiento.</li><br />
<li>Integraci&oacute;n de estos datos con entornos virtuales/simulados de una organizaci&oacute;n. Es decir, un sistema de realidad aumentada que conecte los datos con el entorno real en el que se generan (por ejemplo en una planta de producci&oacute;n).</li><br />
<li>Cerrar el ciclo: analizar las interacciones de los usuarios con la visualizaci&oacute;n, para explicitar el proceso de toma de decisiones, la detecci&oacute;n de comunidades y el filtrado.</li><br />
<li>Selecci&oacute;n y agrupaci&oacute;n de estos datos, informaciones y documentos para la generaci&oacute;n de informes estructurados, que puedan servir para la difusi&oacute;n externa (publicidad, informes, res&uacute;menes) o interna (formaci&oacute;n de empleados, comunicaci&oacute;n interna, etc.).</li><br />
</ul><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26828/visualizacion-datos-aproximacion-ingenua</link><pubDate>Sat, 17 Oct 09 00:00:00 +0200</pubDate></item><item><title><![CDATA[Sobre las Elecciones Europeas y la decisi&oacute;n de voto]]></title><description><![CDATA[<p>Domingo se celebran las elecciones Europeas.&nbsp; Lo cierto es que las encuestas vaticinan un alto nivel de abstenci&oacute;n.&nbsp; Bueno o malo, el sistema electoral&nbsp; est&aacute; estructurado, y las decisiones que tomamos al respecto tienen una consecuencia.</p><br />
<p>Mi comentario aqu&iacute; se limita a aclarar el c&oacute;mo se traduce&nbsp; cada tipo de voto al resultado final. Para aclarar esto es necesario concretar el significado de los tipos de votos, y analizar ventajas, inconvenientes y beneficios para los partidos pol&iacute;ticos. El color pol&iacute;tico queda totalmente al margen del art&iacute;culo.</p> <p>Entre los tipos de votos hay que diferenciar a dos niveles: los que cuentan (de alg&uacute;n modo), y los que no cuentan en la determinaci&oacute;n de esca&ntilde;os..</p><br />
<ul><br />
<li>En la primera categor&iacute;a encontramos el <strong>voto a partidos pol&iacute;ticos</strong> y el <strong>voto en blanco</strong>.</li><br />
<li>En la segunda tenemos los <strong>votos nulos</strong> y la <strong>abstenci&oacute;n</strong> (considero tambi&eacute;n el no-voto como una decisi&oacute;n, dado que afecta al proceso). </li><br />
</ul><br />
<p>Resumiendo sus consecuencias:</p><br />
<p>El voto nulo o la abstenci&oacute;n son decisiones que no afectan al reparto de esca&ntilde;os ni al umbral de votos m&iacute;nimos, por lo que <em>no condicionan</em> la representaci&oacute;n pol&iacute;tica.&nbsp; La diferencia principal es que el voto nulo consta en las actas de las mesas electorales, mientras que la abstenci&oacute;n s&oacute;lo consta al comparar estas actas con el censo.</p><br />
<p>En lo relativo al voto a partidos o en blanco, estos tipos votos son considerados votos v&aacute;lidos.&nbsp; Este detalle es incide, como se comentar&aacute; m&aacute;s adelante, sobre el umbral m&iacute;nimo de votos para el reparto de esca&ntilde;os.&nbsp; Cabe comentar que, seg&uacute;n la <a title="Legislaci&oacute;n de las Elecciones Europeas" href="http://www.europarl.europa.eu/workingpapers/poli/w13/country_es.htm#espania">Legislaci&oacute;n Electoral para las Elecciones Europeas (apartado de Espa&ntilde;a)</a>, los partidos reciben una subvenci&oacute;n de 3 millones de pesetas (Unos 18030 Euros) por esca&ntilde;o, y 100 pesetas (60 c&eacute;ntimos de euro) por voto recibido.</p><br />
<h2>El proceso de recuento de votos: la secuencia</h2><br />
<p>Para comprender el reparto de esca&ntilde;os m&aacute;s a fondo, se puede representar el proceso de votaci&oacute;n mediante una peque&ntilde;a secuencia:</p><br />
<ul><br />
<li>Votaci&oacute;n: el elector tiene cuatro opciones principales:<br />
<ul><br />
<li>Voto a un partido.</li><br />
<li>Voto en blanco.</li><br />
<li>Voto nulo.</li><br />
<li>Abstenci&oacute;n</li><br />
</ul><br />
</li><br />
<li>Contabilizaci&oacute;n de votos:<br />
<ul><br />
<li>Se contabilizan los votos que hay dentro de la urna. Impl&iacute;citamente se descarta la abstenci&oacute;n, por lo que los votos que pasan a la siguiente fase son los votos a un partido, los votos en blanco y los votos nulos.</li><br />
<li>Una vez contabilizados, se descartan los votos nulos para el siguiente proceso.</li><br />
</ul><br />
</li><br />
<li>Unificaci&oacute;n de las actas de los colegios electorales:<br />
<ul><br />
<li>Se suman los votos que cada partido ha recibido en los colegios electorales (en las elecciones Europeas, Espa&ntilde;a es una circunscripci&oacute;n &uacute;nica, en otros casos, la suma se aplica seg&uacute;n las circunscripciones electorales definidas).</li><br />
<li>Los partidos que no superen el 3% de los <strong>votos v&aacute;lidos </strong>(ojo con esto) quedan descartados.</li><br />
</ul><br />
</li><br />
<li>Reparto de esca&ntilde;os:<br />
<ul><br />
<li>Los partidos que superan el <strong>3% de votos v&aacute;lidos</strong> se reparten sus esca&ntilde;os, que seg&uacute;n la Legislaci&oacute;n Electoral para las elecciones Europeas, es de 64.</li><br />
<li>El proceso de reparto aplica la <strong>Ley d'Hondt</strong>.</li><br />
</ul><br />
</li><br />
</ul><br />
<p>A grandes rasgos, &eacute;ste es el proceso.&nbsp; Vale decir que la Legislaci&oacute;n Electoral para las Elecciones Europeas comenta claramente que todo lo que no cubra la Legislaci&oacute;n Europea queda en manos de la Legislaci&oacute;n espa&ntilde;ola (y la Junta Electoral Central). No conozco suficientemente la legislaci&oacute;n al respecto, as&iacute; que si alguien quiere matizar algo, los comentarios est&aacute;n abiertos.</p><br />
<h2>Los efectos del voto en blanco en este proceso</h2><br />
<p>La &uacute;ltima parte que es clave en el proceso es repartir los votos entre partidos, &iquest;Es as&iacute;? La respuesta es <strong>NO</strong>.</p><br />
<p>Antes de eso hay que aclarar el efecto del voto en blanco.&nbsp; Mientras que el voto nulo y la abstenci&oacute;n quedan atr&aacute;s, el voto blanco llega a las <em>semifinales</em> del proceso.&nbsp; Y afecta en un aspecto clave: determina el umbral m&iacute;nimo de votos v&aacute;lidos. El voto en blanco presenta posturas <a title="A favor del voto en blanco" href="http://ciudadanoenblanco.blogspot.com/2008/01/el-voto-en-blanco-el-voto-nulo-y-la.html">a favor</a> y <a title="Contra el voto en blanco" href="http://urioste.eu/2007/05/11/contra-el-voto-en-blanco/">en contra</a>. No entrar&eacute; en ese detalle, que cada cual valore.<br /><br />Sobre los enlaces anteriores, vale la pena comentar algo: creo que el c&aacute;lculo que se realiza en el enlace <em>en contra del voto en blanco</em> es incorrecto, aunque su valoraci&oacute;n final es correcta.</p><br />
<p>Seg&uacute;n el caso que comenta: Si hay 10000 votos a partidos y 5000 votos en blanco, el total de votos v&aacute;lidos es de 15000, por lo que el 3% de esta cantidad ser&iacute;a de 450 votos.&nbsp; Esto significar&iacute;a que los partidos con menos de 450 votos se quedan fuera del reparto de esca&ntilde;os.</p><br />
<p>Si no hubieran votos en blanco (s&oacute;lo 10000 votos a partidos), el umbral se situar&iacute;a en 300 votos. Si esos votos en blanco se dirigieran a partidos (15000 votos a partidos, 0 en blanco) el umbral quedar&iacute;a en 450 igualmente. Es decir, el <strong>voto en blanco afecta al umbral m&iacute;nimo de votos como si fuera otro partido, pero luego se descarta en el reparto de esca&ntilde;os</strong>.<br /><br />El 3% parece poco, pero ahora hay que mirar a las consecuencias: &iquest;A qu&eacute; partidos afecta m&aacute;s este tipo de voto? <strong>el efecto del voto en blanco incide m&aacute;s en los partidos minoritarios</strong>. El voto en blanco dice qui&eacute;n pasa a las <em>finales</em> electorales (mis disculpas por utilizar un argot <em>deportivo</em>), que es el reparto de esca&ntilde;os seg&uacute;n los votos recibidos por los partidos.</p><br />
<h2>An&aacute;lisis de sensibilidad</h2><br />
<p>A veces cuesta explicar la relaci&oacute;n causa-efecto con porcentajes. En estos casos acostumbro a plantearlo definiendo un escenario extremo. Por ejemplo, con la siguiente pregunta: <strong>&iquest;cu&aacute;ntos votos en blanco deben emitirse para que el partido mayoritario no tenga representaci&oacute;n?</strong> Tomando el ejemplo anterior, y si consideramos 15000 votantes que han ejercido su derecho a voto, a partir del 90% podr&iacute;a darse esta situaci&oacute;n.</p><br />
<p>Este 90% obedece a un caso m&aacute;s pr&aacute;ctico, ya que el 10% de votos a partidos quedar&iacute;a repartido entre partidos, pero es una cifra orientativa, no exacta. Para ser exactos, por encima del 97% de votos todos los partidos quedar&iacute;an fuera.&nbsp; Considerando 15000 votos v&aacute;lidos, si 14550 fueran en blanco, ning&uacute;n partido llegar&iacute;a al reparto de esca&ntilde;os.<br /><br />Entre los dos extremos (minor&iacute;a de votos en blanco, y mayor&iacute;a de votos en blanco), se puede aplicar una t&eacute;cnica habitual en econom&iacute;a: el <strong><em>an&aacute;lisis de sensibilidad</em></strong>.&nbsp; El objetivo es entender c&oacute;mo afectan los&nbsp; cambios graduales (en este caso el total de votos en blanco) sobre el resultado final.<br /><br />Si simul&aacute;ramos un aumento gradual en los votos blancos, ver&iacute;amos que l<strong>os partidos menos votados van <em>cayendo</em> de la lista de <em>finalistas</em></strong>.&nbsp; La lista de descartados aumentar&iacute;a, hasta llegar al extremo comentado antes: no hay partidos que superen el umbral del 3%.</p><br />
<p>Pero ojo: antes de eso, podr&iacute;a darse un caso extremo: que s&oacute;lo el partido m&aacute;s votado superara el 3% y contara en el reparto de esca&ntilde;os (por lo que se quedar&iacute;a con todos los esca&ntilde;os)&nbsp; Esta situaci&oacute;n revela la principal consecuencia del voto en blanco: perjudica primero a partidos minoritarios, y luego, gradualmente, a partidos m&aacute;s votados.<br /><br />Como efecto derivado de lo anterior, y siempre <em>a <strong>efectos de reparto de esca&ntilde;os</strong></em>, el voto en blanco equipara el voto a partidos minoritarios (que no llegan al 3%) al de la abstenci&oacute;n o el voto nulo.</p><br />
<h2>El reparto de esca&ntilde;os y el juego cerrado de suma cero</h2><br />
<p>Ahora s&iacute;, llegamos a la &uacute;ltima parte del proceso: Aplicar la Ley d'Hondt.&nbsp; Ya he <a title="Sopa de bits: Sistema d'Hondt" href="../../../extranet/content/view/sistema-hondt">comentado</a> y <a title="Demo Sopa de bits: Ley d'Hondt" href="http://demo.sopadebits.com/hondt/">simulado</a> este sistema de reparto, as&iacute; que s&oacute;lo me permito recalcar un detalle: el valor individual de cada voto.&nbsp; Si el elector ha votado a un partido, su voto es de apoyo hacia esa opci&oacute;n pol&iacute;tica, e indirectamente de rechazo al resto.&nbsp; No hay votos negativos (rechazar expl&iacute;citamente a un partido) ni votos ponderados (repartir el voto entre varios partidos), as&iacute; que el voto <em>positivo</em> es la &uacute;nica opci&oacute;n.</p><br />
<p>El proceso de reparto de esca&ntilde;os obedece a una proporcionalidad. Si convertimos los votos absolutos en porcentajes de votos (con mucha precisi&oacute;n en los decimales de los porcentajes), el resultado es el mismo.&nbsp; Esto lleva a concluir que el reparto de esca&ntilde;os es un <strong>juego cerrado de suma cero</strong>: un voto hacia un partido es un voto menos para el resto. Eso s&iacute;, su peso depende del total de votos. Por lo tanto, cuantos m&aacute;s votos quedan fuera del reparto, m&aacute;s importancia tiene un peso adicional.</p><br />
<p>Esta consecuencia, en el contexto de alta abstenci&oacute;n que est&aacute;n presentando las elecciones europeas, tiene un efecto muy importante.&nbsp; Esto tambi&eacute;n afecta a la importancia del voto en blanco: cuando el total de votos a partidos es menor de lo habitual, cada voto a un partido cuenta mucho m&aacute;s, y cada voto en blanco hace m&aacute;s probable el descarte de partidos minoritarios.</p><br />
<h2>Conclusiones y decisiones</h2><br />
<p>Despu&eacute;s de todo el an&aacute;lisis, si dibuja un panorama de decisiones y efectos abiertos.&nbsp; La decisi&oacute;n de no votar, votar nulo, votar en blanco, o a un partido es una decisi&oacute;n de cada cual.&nbsp; De todos modos, se puede dibujar un escenario general sobre los efectos de cada opci&oacute;n.<strong><br /><br /></strong></p><br />
<ul><br />
<li><strong>Abstenci&oacute;n (no-voto)</strong>: Queda constancia por contraste con el nivel de participaci&oacute;n. Las razones pueden ser varias, y las consecuencias son que no afecta a la representaci&oacute;n de esca&ntilde;os ni a los partidos minoritarios, pero puede recalcar el descontento con las opciones posibles.</li><br />
<li><strong>Voto nulo</strong>: Queda constancia en relaci&oacute;n a los votos v&aacute;lidos y la abstenci&oacute;n.&nbsp; Se descartan para pasar al siguiente paso, ya que no se consideran votos v&aacute;lidos.</li><br />
<li><strong>Voto en blanco</strong>: Afecta al umbral de votos que hay que conseguir para acceder al reparto de esca&ntilde;os, pero no al reparto final.&nbsp; Como consecuencia, el voto puede limitar el acceso al reparto a los partidos que no acceden a ese umbral.</li><br />
<li><strong>Voto a partidos</strong>: Tiene valor (que aumenta cuantos menos votos a partidos se emitan) en la superaci&oacute;n del umbral m&iacute;nimo, y en el reparto de esca&ntilde;os.</li><br />
</ul><br />
<p>Ante estos posibles escenarios, y como he dicho antes, el voto (y el no-voto) es una opci&oacute;n de cada cual.&nbsp; Mi intenci&oacute;n ha sido aclarar los detalles, para que la decisi&oacute;n sea consciente, nada m&aacute;s.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26827/elecciones-europeas-decision-voto</link><pubDate>Fri, 05 Jun 09 00:00:00 +0200</pubDate></item><item><title><![CDATA[Programaci&oacute;n Neuroling&uuml;&iacute;stica, hipnosis y buscadores]]></title><description><![CDATA[<p>Le&iacute; hace tiempo un libro introductorio sobre la programaci&oacute;n neuroling&uuml;&iacute;stica (PNL).&nbsp; La PNL es una especie de compendio que combina ideas de la inform&aacute;tica, la psicolog&iacute;a y la ling&uuml;&iacute;stica.&nbsp; El objetivo es aportar una serie de modelos y herramientas para entender c&oacute;mo funcionan nuestros procesos mentales, y puntualmente tratar de cambiarlos.&nbsp; As&iacute; que cuando encontr&eacute; el libro <a title="manual del cerebro para usuarios" href="http://palmyralibros.com/index.html?s=libro&amp;id=47">Manual del cerebro para usuarios</a> en una librer&iacute;a, lo hoje&eacute;, me interes&oacute; y lo compr&eacute;.</p><br />
<p><strong>La herramienta principal de la PNL es el lenguaje</strong>, que ayuda a analizar nuestros propios modelos mentales.&nbsp; Seg&uacute;n la PNL, nuestro uso de la lengua es un reflejo de nuestro esquema mental.&nbsp; <strong>Identificar patrones de nuestro lenguaje permite identificar nuestros patrones mentales</strong>. Aunque no es un proceso directo, el cambio de patrones ling&uuml;&iacute;sticos incide en el cambio de patrones mentales.</p><br />
<p>La posibilidad de utilizar el habla como herramienta de cambio ha permitido introducir la PNL en &aacute;reas como el management, el coaching, la comunicaci&oacute;n y el marketing.&nbsp; Debatir su utilidad puede ser pol&eacute;mico, porque los resultados dependen del usuario de las herramientas. No entrar&eacute; en estas cuestiones.</p><br />
<p>Entrando ya en el tema que quer&iacute;a tratar, hay un &aacute;rea de la PNL que es especialmente seductora. El libro mencionado desmitifica este &aacute;rea, a&ntilde;adi&eacute;ndole a su vez m&aacute;s inter&eacute;s.&nbsp; Me refiero a la hipnosis.</p> <h2>El modelo de Milton Erickson</h2><br />
<p>Para desmitificar este t&eacute;rmino ,los autores proponen utilizar el t&eacute;rmino <em>trance </em>como sustituto y as&iacute; eliminar prejuicios.</p><br />
<p>&iquest;Qu&eacute; es el trance? Entrar en trance no es algo que requiera un gran aprendizaje ni t&eacute;cnicas espectaculares.&nbsp; De hecho, el trance tal como lo exponen los autores es algo que sucede mucho m&aacute;s a menudo de lo que nos parece.&nbsp; Si has conducido y durante un rato tu mente se ha evadido, has entrado en trance.&nbsp; Si has perdido el hilo de la conversaci&oacute;n, has entrado en trance.&nbsp; El hecho de <strong>hacer algo queriendo pero sin ser totalmente conscientes nos traslada al estado de trance</strong>.&nbsp; S&oacute;lo es eso.</p><br />
<p>Milton Erickson utilizaba la hipnosis para inducir el trance en sus pacientes.&nbsp; Lo que consigui&oacute; Erickson fue utilizar ciertos patrones del lenguaje para que las personas entraran en estado de trance.&nbsp; Estos patrones provocan una especie de cortocircuito en nuestra consciencia: aprovechan <a title="Wikipedia: Puerta trasera" href="http://es.wikipedia.org/wiki/Backdoor">puertas traseras</a> que dan acceso directo al inconsciente.</p><br />
<p>Sorprende que este proceso de entrada en trance es algo que hayamos vivido todos... si te contaban cuentos en la infancia.&nbsp; Frases ambiguas como <em>&Eacute;rase una vez...</em> o <em>Hace muchos a&ntilde;os en un pa&iacute;s muy lejano...</em> desbordan la capacidad consciente de un ni&ntilde;o, igual que nos desborda el concepto de <strong>infinito</strong> cuando tratamos de representarlo. Para tratar de resolver ese desbordamiento, el inconsciente se activa para dar una respuesta plausible.</p><br />
<p>La primera conclusi&oacute;n de todo esto es que hemos crecido hipnotizados <img title="Laughing" src="../../../resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/img/smiley-laughing.gif" border="0" alt="Laughing" />. La segunda, como apuntan los autores, es que la poes&iacute;a es una gran fuente de t&eacute;rminos que inducen al trance.</p><br />
<h2>Patrones del lenguaje de Erickson</h2><br />
<p>El modelo de Milton se basa en generalizar.&nbsp; Es decir, ascender en las categor&iacute;as de nuestros modelos mentales.&nbsp; El objetivo de la generalizaci&oacute;n es relajar el contexto de unos valores.&nbsp; Con esta generalizaci&oacute;n la parte consciente del individuo se ve desbordada en la capacidad de concretar y deja paso al inconsciente. Explicar este proceso en dos frases lo muestra como algo superficial, por eso recomendar&iacute;a a los interesados una lectura m&aacute;s a fondo sobre el tema.</p><br />
<p>Para conseguir este objetivo, el modelo Erickson propone utilizar formas de lenguaje expl&iacute;citamente difusas, que se resumen en la siguiente serie de patrones:</p><br />
<ul><br />
<li><strong>Coletillas interrogativas</strong> (... &iquest;No es cierto? &iquest;Verdad?)</li><br />
<li><strong>Acompasamiento con la experiencia actual</strong> (mientras lees estas l&iacute;neas en la pantalla, puedes sentir los latidos de tu coraz&oacute;n...)</li><br />
<li><strong>Dobles v&iacute;nculos</strong> (Puedes seguir leyendo ahora o bien hacerlo m&aacute;s tarde).</li><br />
<li><strong>Postulados conversacionales</strong> (&iquest;Puedes cerrar la puerta? &iquest;Puedes bajar la basura?). Es una pregunta que en realidad es una orden.</li><br />
<li><strong>Citas extendidas</strong> (Creo que lo que dice este libro sobre lo que dec&iacute;a Grinder en relaci&oacute;n a lo que afirmaba Erickson...).</li><br />
<li><strong>Violaciones de la restricci&oacute;n selectiva</strong> (consultar&eacute; con mi almohada. Las paredes oyen. La pantalla de tu ordenador est&aacute; cansada). Atribuir sentimientos o propiedades a un animal u objeto.</li><br />
<li><strong>Ambig&uuml;edades fonol&oacute;gicas</strong>: T&eacute;rminos con significados y escritura diferente que se pronuncian igual.</li><br />
<li><strong>Ambig&uuml;edad sint&aacute;ctica</strong>: Sucede cuando no podemos determinar la funci&oacute;n sint&aacute;ctica de una palabra dentro de la frase que utilizamos.</li><br />
<li><strong>Ambig&uuml;edad de &aacute;mbito</strong>: (Loci&oacute;n para pies de menta: &iquest;qu&eacute; es de menta? &iquest;La loci&oacute;n o los pies?).</li><br />
<li><strong>Ambig&uuml;edad en la puntuaci&oacute;n</strong>: Cualquier defecto de construcci&oacute;n en los signos de puntuaci&oacute;n que genera una ambig&uuml;edad en el significado.</li><br />
<li><strong>Utilizaci&oacute;n</strong>: Se basa en aprovechar una circunstancia ajena a nuestro discurso para implicar al receptor. Puede ser un sonido o imagen del entorno, o bien parte de la frase que nuestro interlocutor ha mencionado.</li><br />
<li><strong>&Oacute;rdenes incrustadas y marcado anal&oacute;gico</strong>: Son partes de una frase que se pronuncian con un tono m&aacute;s bajo y un volumen m&aacute;s alto y que implican una orden.</li><br />
<li><strong>Deletrado de palabras</strong>.</li><br />
<li><strong>Lenguaje de conexi&oacute;n (conjunci&oacute;n y disyunci&oacute;n)</strong>. Al conectar sentencias se rompe el l&iacute;mite del significado en cada caso, por lo que la capacidad de procesar el conjunto es superior. Al hacer esto se distrae a la consciencia. (No s&eacute; si te est&aacute;s concentrando mucho al leer este texto, o est&aacute;s escuchando m&uacute;sica a la vez, o si te gustar&iacute;a estar haciendo otras cosas, pero s&eacute; que puedes relajarte en cuanto lo desees).</li><br />
</ul><br />
<p>Otro de los conceptos interesantes deducibles del modelo Erickson es el <a title="Wikipedia: Isomorfismo" href="http://es.wikipedia.org/wiki/Isomorfismo">Isomorfismo</a>: dos elementos que act&uacute;an igual a nivel externo pero que tienen un contenido diferente son isom&oacute;rficos.&nbsp; El t&eacute;rmino isomorfismo parece algo lejano al lenguaje, pero tiene una relaci&oacute;n muy directa: si hablamos de <em>met&aacute;foras</em>, <em>f&aacute;bulas</em> y cualquier recurso estil&iacute;stico que represente una analog&iacute;a en la relaci&oacute;n Imagen-Representaci&oacute;n, estamos utilizando un isomorfismo.</p><br />
<h2>Buscadores en trance</h2><br />
<p>En la lista anterior algunos de los puntos son aplicables casi de forma exclusiva en la comunicaci&oacute;n sonora, pero en otros casos los patrones son plenamente aplicables a cualquier forma de comunicaci&oacute;n, incluyendo la escrita.</p><br />
<p>Me parece curioso comprobar las analog&iacute;as que existen entre los patrones del lenguaje que inducen al trance, y el estado de ambig&uuml;edad, tanto terminol&oacute;gica como sint&aacute;ctica.&nbsp; Parece que el proceso de aprendizaje y el trance corren paralelos.&nbsp; Recibimos una informaci&oacute;n que intentamos manejar para conceptualizar y contextualizar, y resulta que la ambig&uuml;edad bloquea nuestros engranajes conscientes. Si la informaci&oacute;n se puede desambiguar, aprendemos; en caso contrario, quiz&aacute; entramos en trance.</p><br />
<p>Trasladando este proceso de "trance" a la recuperaci&oacute;n de la informaci&oacute;n, se sabe que la ambig&uuml;edad (y la generalizaci&oacute;n) genera mayor exhaustividad que precisi&oacute;n (muchos resultados, poco precisos). Si el buscador fuera humano, su trance se traducir&iacute;a en verborrea, como si fuera un di&aacute;logo interno.</p><br />
<p>Las t&eacute;cnicas de desambiguaci&oacute;n de los <a title="Lenguaje documental" href="http://www.enciclonet.com/documento/lenguaje+documental/">lenguajes documentales</a> tratan de resolver ese ruido, porque se espera que el modelo cognitivo del individuo y el &iacute;ndice del sistema sean suficientemente similares.&nbsp; Lo que sucede actualmente es que esta circunstancia no es habitual (exceptuando a profesionales recuperando en base a lenguajes controlados), y especialmente cuando se utilizan los buscadores generalistas del entorno web.&nbsp; La cantidad ingente de informaci&oacute;n oculta un poco esa situaci&oacute;n, pero muy pocas veces tenemos la certeza que una b&uacute;squeda nos aporta el documento <strong>m&aacute;s</strong> relevante.</p><br />
<p>Aplicando el modelo de Erickson a los buscadores, quiz&aacute; "hipnotizar" a los buscadores permita mejorar la recuperaci&oacute;n, utilizando un proceso inverso al actual: ambiguar para crear situaciones de serendipia o simplemente de interacci&oacute;n del usuario.&nbsp; En base a los estudios realizados en la recuperaci&oacute;n, parece que hay una analog&iacute;a interesante entre los niveles del modelo Erickson y el <a href="http://www.scils.rutgers.edu/~tefko/ProcASIS1997.doc">modelo estratificado</a> de <a title="Tefko Saracevic" href="http://www.scils.rutgers.edu/~tefko/">Saracevic</a>.&nbsp; Uno y otro caminan en sentidos contrarios, pero quiz&aacute; se pueda encontrar un punto de intersecci&oacute;n entre ambos y abrir v&iacute;as para introducir mejoras en algoritmos.</p><br />
<p>Las b&uacute;squedas ambiguas del usuario (y no el documento ni el algoritmo) pueden ser v&iacute;as para diagnosticar los des&oacute;rdenes (por ambig&uuml;edad) en el &iacute;ndice del buscador. Desde luego, esto &uacute;ltimo no es tarea del propio usuario, sino de la mejora continua de los algoritmos.</p><br />
<p>Como en otros casos, la inversi&oacute;n de criterios (ambiguar en vez de concretar) puede aportar v&iacute;as alternativas de an&aacute;lisis para responder algunas cuestiones que los an&aacute;lisis cl&aacute;sicos, basados en criterios de consciencia y coherencia, quiz&aacute; no puedan resolver.</p><br />
<p>Para muestra un bot&oacute;n: las palabras vac&iacute;as son te&oacute;ricamente un engorro para la recuperaci&oacute;n de informaci&oacute;n desambiguada, pero pueden ser un recurso muy interesante para detectar el idioma de un documento.&nbsp; Dada su constante presencia en el texto, pueden incluso ayudar a detectar fragmentos de texto con un idioma distinto al general del documento. La detecci&oacute;n del idioma forma parte de la indexaci&oacute;n y no de la recuperaci&oacute;n, pero afecta a la relevancia.</p><br />
<p>La ambig&uuml;edad en la b&uacute;squeda trata de perseguir un objetivo similar: destilar factores de relevancia distintos al que nos aporta el contenido. No se van a resolver en el mismo momento de la recuperaci&oacute;n (si lo que queremos es que el usuario desambig&uuml;e, ya existe la opci&oacute;n de recibir el <em>feedback</em> del usuario), sino que mejoraran el proceso de indexaci&oacute;n.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26826/programacion-neurolinguistica-hipnosis-buscadores</link><pubDate>Mon, 04 May 09 00:00:00 +0200</pubDate></item><item><title><![CDATA[Modelos lineales (regresi&oacute;n lineal) - 2]]></title><description><![CDATA[<p>Con esta segunda parte comento los pasos del proceso de c&aacute;lculo de los errores cuadr&aacute;ticos y la determinaci&oacute;n del mejor modelo.</p><br />
<p>Cabe decir que lo que explico aqu&iacute; no debe tomarse al pie de la letra, ya que evito entrar en detalles casi imprescindibles (como el c&aacute;lculo matricial y el contraste de hip&oacute;tesis) para dominar este proceso.</p><br />
<p>La decisi&oacute;n viene tomada porque hay ingente cantidad de documentaci&oacute;n disponible sobre los detalles de este proceso, y pocos que se centren en cuestiones m&aacute;s pedag&oacute;gicas.</p> <h2>El cuadrado es una superficie, no una distancia</h2><br />
<p>Calculando la ra&iacute;z cuadrada de cada uno de los valores anteriores tendr&iacute;amos la suma de distancias (algo as&iacute; como la desviaci&oacute;n est&aacute;ndar de los puntos respecto a la recta).&nbsp; Lo que pasa es que el m&eacute;todo de c&aacute;lculo en los modelos lineales mantiene estas distancias al cuadrado. Un valor algo abstracto. Vamos a sacarle partido.</p><br />
<p>Entendiendo estos valores s&oacute;lo como n&uacute;meros es algo complejo e innecesario.&nbsp; Basta trasladarlo a formas geom&eacute;tricas y la cosa cambia. Elevando un valor X al cuadrado (Si X = 3; X<sup>2</sup> = 3<sup>2</sup> = 3 x 3 = 9), <strong>estamos obteniendo a la vez el &aacute;rea de un cuadrado para el que su lado mide X (un cuadrado cuyos lados miden 3 tiene un &aacute;rea de 9)</strong>.</p><br />
<p>No es casualidad que elevar un valor a la segunda potencia se denomine elevar al cuadrado, como tampoco lo es el hecho que elevar a la tercera potencia se denomine elevar al cubo.</p><br />
<p>As&iacute; que al sumar cada uno de los valores cuadrados <strong>obtenemos una especie de</strong> <strong><em>mosaico</em> llamado error cuadrado total</strong> (o error cuadr&aacute;tico total), lo abreviar&eacute; como ECT.</p><br />
<p>Si representamos los errores cuadrados anteriores, tenemos un mosaico como el siguiente:</p><br />
<p>Figura: mosaico resultante de los errores cuadrados.</p><br />
<p>Dado que empezamos con la recta Y = 0, los cuadrados de las distancias son:</p><br />
<table style="border: 1px solid #000000; width: 215px; height: 112px;" border="1"><br />
<thead><br />
<tr style="background-color: #bcbcbd;"><br />
<td style="text-align: center;">X</td><br />
<td style="text-align: center;">Y</td><br />
<td style="text-align: center;">Y<br />recta</td><br />
<td style="text-align: center;">EC</td><br />
</tr><br />
</thead><br />
<tbody><br />
<tr><br />
<td style="text-align: right;">1</td><br />
<td style="text-align: right;">3</td><br />
<td style="text-align: right;">0</td><br />
<td style="text-align: right;">9</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">-1</td><br />
<td style="text-align: right;">-2</td><br />
<td style="text-align: right;">0</td><br />
<td style="text-align: right;">4</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">2</td><br />
<td style="text-align: right;">6</td><br />
<td style="text-align: right;">0</td><br />
<td style="text-align: right;">36</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">5</td><br />
<td style="text-align: right;">8</td><br />
<td style="text-align: right;">0</td><br />
<td style="text-align: right;">64</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">6</td><br />
<td style="text-align: right;">3</td><br />
<td style="text-align: right;">0</td><br />
<td style="text-align: right;">9</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">4</td><br />
<td style="text-align: right;">1</td><br />
<td style="text-align: right;">0</td><br />
<td style="text-align: right;">1</td><br />
</tr><br />
<tr style="background-color: #c0c1b8;"><br />
<td style="text-align: center;">-</td><br />
<td style="text-align: center;">-</td><br />
<td style="text-align: center;">-</td><br />
<td style="text-align: right;"><strong>123</strong></td><br />
</tr><br />
</tbody><br />
</table><br />
<p>Los valores de la columna EC forman este mosaico, que se puede representar de forma equivalente con un rect&aacute;ngulo, siempre que tenga un &aacute;rea id&eacute;ntica.&nbsp; Con este cambio hemos convertido el mosaico en una baldosa (t&eacute;rmino acu&ntilde;ado entre varios compa&ntilde;eros de estad&iacute;stica durante largas noches de estudio).</p><br />
<p>Este rect&aacute;ngulo <strong>suma un &aacute;rea de 123</strong>. Para el caso, este valor es divisible por 3 y 41, que podr&iacute;an ser los lados del rect&aacute;ngulo.&nbsp; Si quieres algo mejor, queda hacer divisiones y tratar con decimales peri&oacute;dicos...</p><br />
<p>Esta baldosa se convierte en nuestra base de trabajo.&nbsp; Nuestro objetivo al buscar el modelo lineal es <strong>encoger la baldosa</strong>, consiguiendo que la distancia entre la recta y los puntos sea m&iacute;nima.&nbsp; Si reducimos la distancia, reducimos la suma de cuadrados, y en consecuencia tambi&eacute;n la baldosa. El &aacute;rea que acabamos de calcular (ECT) se toma como punto de referencia para poder analizar la calidad de los modelos que propongamos.</p><br />
<p>Para comprobar si existen mejoras al cambiar de recta hemos de comparar el error de la recta inicial y el de la recta supuestamente mejor. Es decir, que tenemos la baldosa de la recta original, la baldosa de la nueva recta, y la diferencia entre ambas.&nbsp; Utilizando t&eacute;rminos m&aacute;s formales tenemos:</p><br />
<ul><br />
<li><em>Error cuadr&aacute;tico total</em> (<strong>ECT</strong>): que es la distancia entre la recta Y=0 y el resto de puntos.</li><br />
<li><em>Error cuadr&aacute;tico residual</em> (<strong>ECR</strong>): Error cuadr&aacute;tico de la nueva recta propuesta.</li><br />
<li><em>Error cuadr&aacute;tico explicado</em> (o error del modelo - <strong>ECE</strong>): Es la diferencia entre los dos anteriores.</li><br />
</ul><br />
<p>El Error cuadr&aacute;tico de la nueva recta propuesta se denomina Error cuadr&aacute;tico residual (ECR) porque es la parte del ECT que el modelo sigue sin explicar (es decir, que queda como elemento residual del modelo).</p><br />
<p>Esta reducci&oacute;n del error cuadr&aacute;tico medio debe incluir un segundo objetivo, igualmente clave: hay que utilizar el m&iacute;nimo de causas posibles para explicar el efecto.&nbsp; Hay que analizar el modelo utilizando el menor n&uacute;mero de variables para reducir al m&aacute;ximo el error cuadr&aacute;tico.</p><br />
<p>Resumiendo: hay que <strong>reducir cuanto sea posible el error no explicable y utilizar la menor informaci&oacute;n posible para ello</strong>.</p><br />
<p>Para combinar ambos objetivos se utiliza una medida denominada el <strong>error cuadr&aacute;tico medio</strong> (ECM): El ECM es el area media tienen los cuadrados de los errores.&nbsp; Lo &uacute;nico que hay que hacer (de una forma ingenua, no totalmente correcta) es dividir el ECT entre el n&uacute;mero de valores.&nbsp; En el caso anterior, con dos valores, tenemos que <strong>el ECM es 123/10 = 12,3</strong>.</p><br />
<p>&iquest;Qu&eacute; nos aporta el ECM?&nbsp; Nos indica la superficie media de cada valor recogido en la muestra.&nbsp; Es decir, el ECM es la distancia media que "genera" cada punto respecto a la recta y que aporta a la baldosa (Ya digo, esto es impreciso pero b&aacute;sicamente cierto: mi principal objetivo es simplificar la explicaci&oacute;n).</p><br />
<p>El principal valor a&ntilde;adido del ECM tiene lugar cuando se analiza cada una de las variables.&nbsp; Este valor nos ayudar&aacute; a entender qu&eacute; variable (una sola o en combinaci&oacute;n) aporta m&aacute;s informaci&oacute;n.&nbsp; Por el contrario, nos indicar&aacute; qu&eacute; variables generan m&aacute;s ruido que significado.</p><br />
<p><strong>Cuantas m&aacute;s <em>unidades de ECM</em> reduzca una variable, mejor ser&aacute; para el modelo.&nbsp; Si una variable no explica suficientes unidades ECM, lo mejor es dejarla fuera.</strong></p><br />
<p>Con todos estos criterios empezamos a analizar.&nbsp; Para determinar las variables que mejor explican el modelo, hay tres formas de hacerlo, que tienen todo el sentido com&uacute;n:</p><br />
<ul><br />
<li>Consideramos que no hay causas fiables e ir introduciendo una variable tras otra para identificar su causabilidad (<em>forward</em>).</li><br />
<li>Consideramos que todas las variables son causas v&aacute;lidas, y eliminamos las que menos error reducen (<em>backward</em>).</li><br />
<li>Alternamos la entrada y salida de variables (<em>stepwise</em>).</li><br />
</ul><br />
<h2>El modelo como causa, el error como aleatoriedad</h2><br />
<p>Hasta este punto todo se basa en en criterios estrictos, no hay nada aleatorio.&nbsp; Entonces, &iquest;c&oacute;mo intervienen los criterios estad&iacute;sticos en la determinaci&oacute;n del mejor modelo? Pues en el <strong>comportamiento del error</strong>.</p><br />
<p>A priori los modelos lineales b&aacute;sicos consideran que las distancias entre los puntos y la recta tienen un comportamiento aleatorio.&nbsp; Este comportamiento se considera que equivale al de una distribuci&oacute;n normal.</p><br />
<p>El por qu&eacute; de esta conclusi&oacute;n es f&aacute;cil de responder pero de demostraci&oacute;n tediosa y algo pol&eacute;mica: la distribuci&oacute;n normal puede entenderse como el fruto de la acumulaci&oacute;n de variables aleatorias de cualquier tipo.&nbsp; Es as&iacute; como lo explica el <a title="Wikipedia: Teorema Central del L&iacute;mite" href="http://es.wikipedia.org/wiki/Teorema_del_l%C3%ADmite_central">Teorema Central del L&iacute;mite</a>.&nbsp; Es decir, que la normalidad puede obtenerse como resultado de infinidad de peque&ntilde;as causas combinadas.</p><br />
<p>Suponer un comportamiento de los errores como una distribuci&oacute;n normal es el punto pol&eacute;mico, porque no siempre es asumible, y por eso se acostumbra a analizar este error para saber si podemos aplicar todo este proceso.</p><br />
<p>Se puede decir que el error de los modelos lineales no se trata como algo incontrolable o desconocido, sino como algo aleatorio y modelizable cuyas causas no determinan lo suficiente un modelo como para ser tenido en cuenta.</p><br />
<p>Si consideramos que las distancias se ajustan a una distribuci&oacute;n normal, y que estamos calculando el cuadrado de esta distancia (por lo tanto una "variancia") que denominamos error; si hacemos esto podemos concluir que la distribuci&oacute;n de esta variancia se ajusta a la distribuci&oacute;n <a title="Wikipedia: Ji cuadrado" href="http://es.wikipedia.org/wiki/Distribuci%C3%B3n_ji-cuadrado">X<sup>2</sup></a> (Chi-cuadrado o Khi cuadrado).&nbsp; El por qu&eacute; de esta relaci&oacute;n, y el concepto de los grados de libertad queda por ahora al margen de la explicaci&oacute;n.</p><br />
<p>El &uacute;ltimo paso es comparar los errores de dos rectas.&nbsp; Si ten&iacute;amos la recta de Y=0, y la recta Y = a&middot;X, podemos comparar sus errores dividiendo sus respectivos errores cuadr&aacute;ticos.&nbsp; <strong>Dividir permite ver el grado de cambio entre las dos opciones</strong>.</p><br />
<p>Ante esta divisi&oacute;n y su resultado, nos podemos preguntar si el cambio es significativo o no.&nbsp; Estad&iacute;sticamente la respuesta pasa por dividir las dos magnitudes (una para cada recta propuesta), que se ajustan a un modelo Chi-quadrado.&nbsp; Esta divisi&oacute;n genera otro valor, conocida como F de Fischer.</p><br />
<p>Atenci&oacute;n, porque lo que estamos dividiendo son dos valores concretos: dos sumas de cuadrados que dan cada una una cifra concreta.&nbsp; Lo que sucede es que se demuestra que estos valores se ajustan a un modelo determinado, y que su resultado tambi&eacute;n tiene un comportamiento conocido. <strong>Estos puntos forman parte de una variable aleatoria</strong>.</p><br />
<p>La <a title="Wikipedia: Distribuci&oacute;n F de Snedecor" href="http://es.wikipedia.org/wiki/Distribuci%C3%B3n_F">distribuci&oacute;n F de Fischer-Snedecor</a> tiene dos valores de grados de libertad, correspondientes a cada una de las distribuciones X<sup>2</sup> que intervienen en la divisi&oacute;n.</p><br />
<p>El proceso final, el del contraste de hip&oacute;tesis, es algo en lo que quiz&aacute; profundizar&eacute; m&aacute;s adelante.&nbsp; Pero en cualquier caso, una idea debe quedar clara: al analizar el valor F de comparaci&oacute;n entre las dos rectas, el resultado significativo nos indica que hay razones suficientes como para tomar la nueva recta como un modelo mejor, porque aporta suficiente informaci&oacute;n en contrapartida de a&ntilde;adir una variable m&aacute;s al modelo.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26824/modelos-lineales-regresion-lineal-2</link><pubDate>Mon, 27 Apr 09 00:00:00 +0200</pubDate></item><item><title><![CDATA[Modelos lineales (regresi&oacute;n lineal)]]></title><description><![CDATA[<p>Los modelos lineales son una herramienta muy utilizada para el an&aacute;lisis de datos que presentan una relaci&oacute;n causa-efecto.&nbsp; El punto de partida en un modelo lineal son conjunto de datos que se presentan simult&aacute;neamente, y que a priori pueden explicar el comportamiento de la variable que queremos analizar (la que se denomina la variable respuesta o dependiente) a partir del resto.</p><br />
<p>El proceso de an&aacute;lisis de los modelos lineales es relativamente sencillo en cuanto que sistem&aacute;tico, siempre que se tengan las nociones b&aacute;sicas sobre producto matricial, o bien se disponga de una aplicaci&oacute;n inform&aacute;tica que haga la tarea por nosotros.</p><br />
<p>De todos modos, esta t&eacute;cnica de tanto uso oculta una serie de cuestiones de sentido com&uacute;n que ayudar&iacute;an a entender su raz&oacute;n de ser.&nbsp; Los concepto com error cuadr&aacute;tico medio o el error total son conceptos esenciales que sin embargo permanecen ocultos al entendimiento general.</p> <h2>Relaci&oacute;n entre modelos lineales y estad&iacute;stica multivariante</h2><br />
<p>Antes de entrar a fondo, s&iacute; me gustar&iacute;a comentar un detalle de concepto. Los modelos lineales son un tipo de estad&iacute;stica multivariante (o multivariable), pero ni mucho menos el &uacute;nico.&nbsp; El an&aacute;lisis multivariante se centra en estudiar conjuntos de variables y su peso en los an&aacute;lisis para poder descartar las menos representativas.</p><br />
<p>En el caso de los modelos lineales se parte de la base que existe un proceso (debido a una secuencia de causas) que genera el efecto a analizar, y en el cual intervienen una serie de <em>perturbaciones aleatorias</em> ajenas al proceso, y denominadas <strong>error</strong>.</p><br />
<p>En otros casos de estad&iacute;stica multivariable se considera que la aleatoriedad forma parte impl&iacute;cita del proceso, que <strong>no hay factores dependientes e independientes, sino que todas las variables son interdependientes</strong>.&nbsp; Esa interdependencia se estudia con el an&aacute;lisis de conglomerados o clusters, por poner el caso m&aacute;s conocido.</p><br />
<p>&nbsp;</p><br />
<blockquote>En los modelos lineales la aleatoriedad de las perturbaciones se considera como medio de an&aacute;lisis para llegar al objetivo (analizar la variable dependiente), mientras que en otros m&eacute;todos de estad&iacute;stica multivariable la aleatoriedad es inherente al an&aacute;lisis.</blockquote><br />
<p>&nbsp;</p><br />
<h2>Partiendo de la recta plana</h2><br />
<p>Antes de identificar las causas que provocan un evento, nuestra capacidad racional para deducirlo es baja o nula, y sin embargo es lo &uacute;nico que cuenta.&nbsp; Traducir al lenguaje matem&aacute;tico este desconocimiento nos lleva al cero. La relaci&oacute;n causa-efecto es nula, o al menos eso creemos a priori.</p><br />
<p>Dado que el modelo lineal se puede representar con una recta que atraviesa la "nube de puntos", el siguiente paso es tratar de representar ese "conocimiento cero" en forma de recta.&nbsp; Para ello, podemos partir de la base (totalmente arbitraria si se quiere) que la recta es totalmente plana y est&aacute; a la altura de Y=0.</p><br />
<p>Para empezar con el caso, voy a partir de un peque&ntilde;o conjunto de puntos, a partir del cual generaremos una recta de regresi&oacute;n.&nbsp; Este modelo es muy sencillo porque es f&aacute;cilmente representable.&nbsp; Los modelos lineales pueden tratar con una cantidad indeterminada de variables, pero para el caso creo que es suficiente.</p><br />
<p>Los datos son:</p><br />
<table style="border: 1px solid #000000; width: 105px; height: 148px;" border="1" cellspacing="3" cellpadding="3"><br />
<thead> <br />
<tr style="background-color: #b0b2b5;"><br />
<td style="text-align: center;"><strong>X</strong></td><br />
<td style="text-align: center;"><strong>Y</strong></td><br />
</tr><br />
</thead> <br />
<tbody><br />
<tr style="text-align: right;"><br />
<td>1</td><br />
<td>3</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">-1</td><br />
<td style="text-align: right;">-2</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">2</td><br />
<td style="text-align: right;">6</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">5</td><br />
<td style="text-align: right;">8</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">6</td><br />
<td style="text-align: right;">3</td><br />
</tr><br />
<tr><br />
<td style="text-align: right;">4</td><br />
<td style="text-align: right;">1</td><br />
</tr><br />
</tbody><br />
</table><br />
<p><br />Estos datos, representados conjuntamente con la recta Y=0 (que equivale al modelo Y = 0&middot;X + 0), se puede mostrar con el siguiente gr&aacute;fico:</p><br />
<p><br />
<object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" width="500" height="250" align="middle"><br />
<param name="allowScriptAccess" value="sameDomain" /><br />
<param name="movie" value="http://www.sopadebits.com/resources/ofc2/open-flash-chart.swf" /><br />
<param name="quality" value="high" /><br />
<param name="flashvars" value="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4510%2Fmodels_lineals_ofc2.txt" /> <embed quality="high" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" flashvars="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4510%2Fmodels_lineals_ofc2.txt" width="500" height="250" src="../../../resources/ofc2/open-flash-chart.swf" align="middle"></embed><br />
</object><br />
</p><br />
<p>Gr&aacute;fico 1: Modelo lineal inicial - Recta en Y = 0</p><br />
<p>Nota para evitar confusiones: <strong>Con situar la gr&aacute;fica en Y = 0 no estoy afirmando que esta recta signifique <em>relaci&oacute;n nula</em></strong>.&nbsp; Podr&iacute;a darse perfectamente el caso que esta fuera la mejor recta.&nbsp; Por ejemplo, podr&iacute;a ser que los valores fueran negativos y positivos, sin ning&uacute;n tipo de pendiente.&nbsp; La recta inicial es s&oacute;lo eso, <strong>la representaci&oacute;n gr&aacute;fica de un punto de partida arbitrario que permita dar el siguiente paso</strong>.</p><br />
<h2>Distancias, superficies y el error cuadr&aacute;tico</h2><br />
<p>Partiendo de este supuesto, los modelos lineales tratan de encontrar la recta que cumpla el error cuadr&aacute;tico m&iacute;nimo.&nbsp; En este punto se acostumbra a dar un salto.&nbsp; Pasamos de tener los puntos a buscar la recta, y de buscar la recta a calcular los errores cuadr&aacute;ticos. El por qu&eacute; de los errores cuadr&aacute;ticos es clave para entender el proceso que culmina en la recta con error cuadr&aacute;tico m&iacute;nimo.</p><br />
<p>El error se puede entender como una <strong>perturbaci&oacute;n ajena a un proceso</strong>.&nbsp; Este error es un desplazamiento (<em>errare</em> = mover) desde la recta (el mejor modelo) hasta el punto. Este desplazamiento se traduce en una resta: se mide la distancia vertical desde cada uno de los puntos hasta la recta.&nbsp; Si dej&aacute;ramos "caer" los puntos sobre la recta, &iquest;que distancia recorrer&iacute;an?</p><br />
<p>Esta distancia se debe entender en t&eacute;rminos absolutos.&nbsp; Da igual si el punto est&aacute; por encima o por debajo de la recta, la distancia es siempre positiva o nula (mayor o igual a cero).&nbsp; Si la distancia de Barcelona a Madrid es de 600 kil&oacute;metros, no diremos que la distancia de Madrid a Barcelona es -600 kil&oacute;metros, &iquest;no? Estamos midiendo distancias no los cambios en las coordenadas geogr&aacute;ficas.&nbsp; En t&eacute;rminos matem&aacute;ticos, la distancia&nbsp; (kil&oacute;metros entre Barcelona y Madrid), la direcci&oacute;n (este-oeste) y el sentido (Barcelona -&gt; Madrid &oacute; Madrid -&gt; Barcelona) son cuestiones diferentes.&nbsp; <strong>Ahora nos centraremos en la distancia</strong>.</p><br />
<p><strong>Para realizar el c&aacute;lculo de las distancias no hacemos una resta directa: calculamos el cuadrado de la resta</strong>.&nbsp; Este comportamiento es an&aacute;logo al que se realiza en el c&aacute;lculo de la varianza, y que tambi&eacute;n se utiliza en el c&aacute;lculo de la "norma" o distancia geom&eacute;trica en espacios euclidianos. No voy a entrar en el por qu&eacute; de este funcionamiento.&nbsp; Para el caso nos podemos limitar a ver que es una forma r&aacute;pida de saber la distancia eliminando el "sentido".&nbsp; De todos modos, en el momento de tomar decisiones, el hecho de utilizar el cuadrado de las distancias es determinante.<br /><br /><strong>Para cada punto, se calcula la distancia vertical respecto a la recta, y se eleva al cuadrado.&nbsp; Sumando estos valores, tenenos el <em>error</em> (distancias) <em>cuadr&aacute;tico</em> (al cuadrado) <em>total</em> (distancias sumadas).</strong></p><br />
<p>En la segunda parte comentar&eacute; todo el proceso relacionado con el error cuadr&aacute;tico y de los criterios de definici&oacute;n del mejor modelo, incluyendo cuestiones relativas al contraste de hip&oacute;tesis.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26823/modelos-lineales-regresion-lineal</link><pubDate>Fri, 24 Apr 09 00:00:00 +0200</pubDate></item><item><title><![CDATA[Y ya van dos a&ntilde;os]]></title><description><![CDATA[<p>Preparando nuevos posts aunque ahora mismo algo atareado, me permito celebrar los dos a&ntilde;os de este blog.</p><br />
<p>Me parece mucho m&aacute;s tiempo del que ahora digo, pero como dec&iacute;a el fil&oacute;sofo, <em>la vida realmente vivida es el tiempo que nos cambia por dentro</em>: eso es algo dif&iacute;cil de traducir en art&iacute;culos, aunque lo sigo intentando.</p> <h2>Cuatro datos</h2><br />
<p>Son dos a&ntilde;os, dedicados a encontrar momentos para escribir algo que pueda interesar a los m&aacute;s o menos 25 lectores de mis feeds y a los visitantes ocasionales del sitio.</p><br />
<p>Dos a&ntilde;os que han ido evolucionando para encontrar un tono y unos temas de inter&eacute;s que puedan ser tan originales como sea posible, ya sea por la tem&aacute;tica o por el enfoque.</p><br />
<p>Fruto de esto, el blog a crecido.&nbsp; Con humildad desde luego, pero al menos uno tiene la sensaci&oacute;n que ya tengo datos suficientes para saber qu&eacute;&nbsp; distancia hay que recorrer entre lo que puede interesar a otros y lo que me interesa a m&iacute;.</p><br />
<p>Desde que cambi&eacute; el dise&ntilde;o los indicadores b&aacute;sicos han crecido. Comparando este &uacute;ltimo mes con la misma &eacute;poca del a&ntilde;o pasado, el crecimiento tambi&eacute;n es palpable. Todos los indicadores han mejorado positivamente &nbsp; Por ejemplo:</p><br />
<ul><br />
<li>Las visitas han crecido en un 80% (de las 840 a las 1500), y las p&aacute;ginas vistas en un 99% (de 1000 a 2100).</li><br />
<li>El n&uacute;mero de p&aacute;ginas por visitas ha aumentado un 11% (es decir, poco: de 1,26 a 1,4), </li><br />
<li>el tiempo medio en las p&aacute;ginas ha aumentado un 74% (de 1:17 a 2:14), </li><br />
<li>y tanto el porcentaje de rebote com el de visitas nuevas ha mejorado (estos indicadores son algo relativos, vale decirlo).</li><br />
</ul><br />
<p>Tomados los datos as&iacute; la verdad es que el crecimiento parece bueno.&nbsp; Echando un vistazo a los datos, creo que valdr&iacute;a la pena evaluar estas cantidades descartando las visitas que han durado menos de 20 segundos: de este modo se reduce mucho el n&uacute;mero de p&aacute;ginas vistas, pero aumenta bastante el tiempo medio por p&aacute;gina y el n&uacute;mero de p&aacute;ginas vistas (al final, el objetivo es que la lectura sea interesante, y que sea de uno o m&aacute;s art&iacute;culos).</p><br />
<p>Una parte de las mejoras las atribuyo al cambio de dise&ntilde;o, que permite una mejor navegaci&oacute;n entre apartados, de modo que mejora ligeramente el n&uacute;mero de p&aacute;ginas vistas. Estoy bastante convencido que este dise&ntilde;o evolucionar&aacute; un poquito m&aacute;s a nivel de navegaci&oacute;n, y bastante m&aacute;s a nivel de funcionalidades, pero dado que este blog es un proceso a largo plazo, mejor no avanzar eventos.</p><br />
<p>El otro detalle que seguramente ha provocado el aumento de visitas es el mayor ritmo de publicaci&oacute;n (el a&ntilde;o pasado dej&eacute; de publicar por exceso de trabajo y eso se not&oacute;).</p><br />
<p>Pero lo que s&iacute; provoca un efecto positivo es el del enlace desde otros blogs, y aqu&iacute; (una vez m&aacute;s) merece menci&oacute;n aparte la <a title="Human Computer: M&aacute;s all&aacute; del seguimiento visual" href="http://www.human-computer.net/blog/2009/02/26/mas-alla-del-seguimiento-visual/">recomendaci&oacute;n de Yusef</a> (gracias), que ha dado visibilidad al art&iacute;culo. Lo mejor es comprobar que existen fuentes que, como la suya, tratan (con humor, que no falte), la importancia de entender a utilizar los datos y las herramientas estad&iacute;sticas para mejorar el entendimiento de lo que nos rodea.</p><br />
<h2>De aqu&iacute; en adelante</h2><br />
<p>&Uacute;ltimamente me he aficionado a comentar temas relacionados con la estad&iacute;stica, d&aacute;ndoles un enfoque m&aacute;s llano e informal.&nbsp; Internet es una fuente m&aacute;s que suficiente para los contenidos formales en estad&iacute;stica, aunque desde luego hay que saber filtrar las fuentes.</p><br />
<p>La raz&oacute;n por la que escribo sobre este tema es que, de los tres temas principales que trato habitualmente, la estad&iacute;stica es la que acostumbra a presentar una mayor barrera de entrada.</p><br />
<p>Por ejemplo, la inform&aacute;tica puede generar rechazo, pero hay infinidad de posibilidades y necesidades que dan la oportunidad de perderle el miedo y ganar tiempo. Lo mismo sucede con la documentaci&oacute;n: un edificio conceptual dirigido a organizar contenidos tiene sentido cuando tomamos conciencia del tiempo quer perdemos leyendo blogs, y luego buscando los art&iacute;culos que nos interesaban.</p><br />
<p>Eso no significa que deje de lado el resto de temas. Mi principal objetivo es encontrar temas que combinen dos o m&aacute;s disciplinas, ya que creo que de este modo se crean m&aacute;s <em>puntos de acceso</em> al aprendizaje.</p><br />
<p>Cada d&iacute;a que pasa sigo pensando que l<a title="Sopadebits: Efecto Medici - Innovaci&oacute;n interdisciplinar" href="../../../extranet/content/view/efecto-medici-innovacion-interdisciplinar">as tres disciplinas se interrelacionan formando un cruce de caminos muy f&eacute;rtil</a>, especialmente por la lluvia de datos que cae sobre nosotros en la actualidad.</p><br />
<p>As&iacute; que siguiendo adelante, es probable que me centre durante un tiempo en explicar los cuatro conceptos clave de la estad&iacute;stica, para luego poder utilizar esta base en art&iacute;culos relacionados con los otros temas. Siempre con m&aacute;s &aacute;nimo did&aacute;ctico que formal, por si a alguien le interesa.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26825/ya-van-dos-anos</link><pubDate>Mon, 06 Apr 09 00:00:00 +0200</pubDate></item><item><title><![CDATA[Open Flash Chart 2 - Mejorando los gr&aacute;ficos estad&iacute;sticos]]></title><description><![CDATA[<p>Ten&iacute;a pendiente escribir una actualizaci&oacute;n para comentar los cambios en la <a title="Open Flash Chart 2" href="http://teethgrinder.co.uk/open-flash-chart-2/">versi&oacute;n 2 de Open Flash Chart</a>&nbsp; (OFC2).&nbsp; En esencia la biblioteca funciona de forma casi id&eacute;ntica a la versi&oacute;n 1, salvo algunas correcciones de errores y mejoras concretas, pero hay tambi&eacute;n hay un cambio importante.</p><br />
<p>El verdadero salto cualitativo est&aacute; en la introducci&oacute;n del formato <a title="JSON" href="http://json.org">JSON</a> . El proceso de configuraci&oacute;n se hace m&aacute;s transparente, tanto para revisar la estructura en b&uacute;squeda de potenciales errores, como tambi&eacute;n por la libertad que da este formato al enviar los datos.&nbsp; Vayamos por partes.</p> <h2>El Cambio a JSON</h2><br />
<p>En la <a title="Open Flash Chart 1" href="http://teethgrinder.co.uk/open-flash-chart/">versi&oacute;n 1 de OFC</a>, el formato para transferir los datos era el "nativo" de Flash.&nbsp; Esto implicaba que los datos estaban incluidos <em>&amp;entre ampersands&amp;</em>.&nbsp; Ante las pocas posibilidades del formato, uno puede esperar cualquier problema derivado de entidades HTML, etiquetas con un simple signo &amp; o cualquier otra cosa.</p><br />
<p>Con el cambio, los datos se transfieren con una estructura equivalente a la que podr&iacute;a incluir una matriz de datos, para luego ser capturados e interpretados por el archivo SWF en el navegador.</p><br />
<h2>Implantaci&oacute;n</h2><br />
<p>Como efecto secundario positivo, es m&aacute;s f&aacute;cil implantar una soluci&oacute;n con esta versi&oacute;n.&nbsp; Esto incluye el desarrollo de funcionalidades (si no satisfacen las bibliotecas en entorno servidor disponibles en el sitio), su integraci&oacute;n, depuraci&oacute;n y testeo. Por no hablar del soporte <a title="UTF8" href="http://www.utf-8.com/">UTF8</a> de Flash y JSON, algo te&oacute;ricamente b&aacute;sico pero a veces dram&aacute;tico (es de esperar que PHP6 solucione esto de una vez). Todo esto parece simplificarnos la vida en el desarrollo.</p><br />
<p>La opci&oacute;n de crear una biblioteca alternativa a las ya existentes puede tener sentido por cuestiones de simplificaci&oacute;n.&nbsp; Por ejemplo, en la versi&oacute;n PHP5 de la biblioteca las funcionalidades se encuentran disgregadas en varias clases y archivos.&nbsp; Quiz&aacute; esta estructura tenga sentido en el futuro para albergar gran cantidad de configuraciones, pero actualmente parece excesiva. Por otro lado, las aplicaciones potenciales de la biblioteca en un caso concreto pueden ser muy concretas, con lo que simplificar el c&oacute;digo del servidor puede reducir levemente el tiempo de carga (esto se puede notar en sitios con altas tasas de tr&aacute;fico, no en el resto).</p><br />
<p>Actualmente casi todos los tipos de gr&aacute;ficos comparten una gran cantidad de las caracter&Atilde;&shy;sticas de configuraci&oacute;n, mientras que s&oacute;lo en algunos casos concretos se utilizan atributos o estructuras de valores diferentes.&nbsp; Esto dice mucho en favor de la parte cliente (el archivo SWF Flash que se inserta en la p&aacute;gina para mostrar el gr&aacute;fico) de OFC, pero poco en favor de la parte servidor (la biblioteca PHP5 al menos). De todos modos esta cr&iacute;&shy;tica es muy relativa: creo que se trata de una visi&oacute;n de futuro por parte del creador del proyecto, que se ver&aacute; en versiones posteriores. Hay que tener algo de paciencia.</p><br />
<h2>Modelo de datos</h2><br />
<p>Para entender las posibilidades que ofrece OFC2, hay que ir un poco m&aacute;s al fondo en la estructura de la configuraci&oacute;n de un gr&aacute;fico.&nbsp; Resumiendo las caracter&iacute;&shy;sticas principales del modelo de datos, se puede diferenciar entre la configuraci&oacute;n del gr&aacute;fico como elemento gen&eacute;rico y la representaci&oacute;n de cada serie de datos.&nbsp; En la primera parte se puede configurar el gr&aacute;fico a nivel de cabecera, y luego pasar a configurar cada grupo de datos (serie).</p><br />
<h3>Cabecera del gr&aacute;fico</h3><br />
<p>En el caso de la cabecera podemos encontrar los siguientes elementos de configuraci&oacute;n:</p><br />
<ul><br />
<li><strong>title</strong>: Texto y estilo (en formato tipo CSS) del t&iacute;&shy;tulo principal del gr&aacute;fico.</li><br />
<li><strong>y_legend</strong>: Texto y estilo del eje vertical.&nbsp; Esto no es aplicable en gr&aacute;ficos como el diagrama de sectores.</li><br />
<li><strong>x_axis</strong>: Caracter&iacute;&shy;sticas de configuraci&oacute;n del eje horizontal del gr&aacute;fico.&nbsp; Estas caracter&iacute;&shy;sticas incluyen el grueso y color del eje, sus etiquetas, y otros detalles.</li><br />
<li><strong>y_axis</strong>: Pr&aacute;cticamente id&eacute;ntico al caso de x_axis, salvo en detalles, como definir los valores del l&iacute;mite inferior y superior del gr&aacute;fico.</li><br />
</ul><br />
<p><br />Todos estos elementos son opcionales, por lo que se pueden dejar de lado al iniciar los testeos iniciales y entrar a fondo cuando sea cuesti&oacute;n de dejarlo bonito. En los casos de gr&aacute;ficos que no tienen ejes de coordenadas X-Y (como los gr&aacute;ficos de sectores), las configuraciones de coordenadas pueden ser directamente in&uacute;tiles porque los gr&aacute;ficos no lo necesitan.</p><br />
<h3>Elementos del gr&aacute;fico</h3><br />
<p>Cada representaci&oacute;n gr&aacute;fica de datos se denomina Element en la biblioteca OFC2, y se encuentra incluido en el apartado "elements" de la configuraci&oacute;n.&nbsp; Para crear un diagrama de barras, de sectores o cualquier otro se define un elemento con su configuraci&oacute;n concreta.&nbsp; Esta configuraci&oacute;n debe adaptarse a la configuraci&oacute;n de cabecera, b&aacute;sicamente en lo relativo a escala y etiquetas.<br /><br />Muchos de los atributos de configuraci&oacute;n de cada gr&aacute;fico son comunes, entre los cuales podemos encontrar los siguientes:</p><br />
<ul><br />
<li><strong>type</strong>: Es el que define el tipo de gr&aacute;fico.&nbsp; Los tipos disponibles por ahora son: pie, bar, bar_glass, bar_3d, hbar, line, scatter, scatter_line, line_dot, line_hollow, y area_hollow (en este caso es posible crear gr&aacute;ficos de tipo radar).</li><br />
<li><strong>alpha</strong>: Transparencia del gr&aacute;fico.&nbsp; Cuanto menor es el valor, m&aacute;s transparencia.</li><br />
<li><strong>colour</strong>: Color de la serie de datos, en formato hexadecimal.</li><br />
<li><strong>text</strong>: Texto de la leyenda que etiqueta la serie.</li><br />
<li><strong>font-size</strong>: Tama&Atilde;&plusmn;o de la fuente de las etiquetas de datos (no de la leyenda).</li><br />
<li><strong>values</strong>: Listado de valores de la serie.&nbsp; En este campo hay peque&ntilde;as variaciones (en algunos casos hay que indicar dos valores), y en el gr&aacute;fico de sectores hay que indicar el par valor/etiqueta).</li><br />
</ul><br />
<p>Otras configuraciones (en principio espec&iacute;ficas) que podemos encontrar son:</p><br />
<ul><br />
<li><strong>animate</strong>: Crea una agradable animaci&oacute;n del gr&aacute;fico para desplegar los datos.&nbsp; en algunos casos (por ejemplo del gr&aacute;fico de sectores, "pie") el grafico se inicia plegado y se abre en abanico hasta cerrar el c&Atilde;&shy;rculo. Puede ser que no funcione en todos los casos.</li><br />
<li><strong>stroke</strong>: Tama&ntilde;o de la l&iacute;nea delimitadora del gr&aacute;fico.</li><br />
<li><strong>dot-size</strong>: Tama&ntilde;o del punto en el gr&aacute;fico de l&iacute;&shy;neas con puntos (line_dot), entre otros.</li><br />
</ul><br />
<h2>Algunos ejemplos</h2><br />
<p>He generado algunos ejemplos con datos est&aacute;ticos para mostrar algunos ejemplos.&nbsp; En el apartado de tutoriales del sitio pod&eacute;is encontrar muestras de gr&aacute;ficos con enlaces a sus archivos de configuraci&oacute;n, con lo que es suficiente para profundizar en el modelo de datos.</p><br />
<p>&nbsp;</p><br />
<p><br />
<object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" width="500" height="250" align="middle"><br />
<param name="allowScriptAccess" value="sameDomain" /><br />
<param name="movie" value="http://www.sopadebits.com/resources/ofc2/open-flash-chart.swf" /><br />
<param name="quality" value="high" /><br />
<param name="flashvars" value="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4502%2Fofc2_grafic1.txt" /> <embed quality="high" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" flashvars="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4502%2Fofc2_grafic1.txt" width="500" height="250" src="../../../resources/ofc2/open-flash-chart.swf" align="middle"></embed><br />
</object><br />
</p><br />
<p>&nbsp;</p><br />
<p><br />
<object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" width="500" height="250" align="middle"><br />
<param name="allowScriptAccess" value="sameDomain" /><br />
<param name="movie" value="http://www.sopadebits.com/resources/ofc2/open-flash-chart.swf" /><br />
<param name="quality" value="high" /><br />
<param name="flashvars" value="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4505%2Fofc2_grafic2.txt" /> <embed quality="high" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" flashvars="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4505%2Fofc2_grafic2.txt" width="500" height="250" src="../../../resources/ofc2/open-flash-chart.swf" align="middle"></embed><br />
</object><br />
</p><br />
<p><br />
<object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" width="500" height="250" align="middle"><br />
<param name="allowScriptAccess" value="sameDomain" /><br />
<param name="movie" value="http://www.sopadebits.com/resources/ofc2/open-flash-chart.swf" /><br />
<param name="quality" value="high" /><br />
<param name="flashvars" value="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4506%2Fofc2_grafic3.txt" /> <embed quality="high" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" flashvars="data-file=http%3A%2F%2Fwww.sopadebits.com%2Fextranet%2Fcontent%2Fdownload%2Fgallery%2Ffileman_file%2Ffile%2F4506%2Fofc2_grafic2.txt" width="500" height="250" src="../../../resources/ofc2/open-flash-chart.swf" align="middle"></embed><br />
</object><br />
</p><br />
<h2>Comentarios</h2><br />
<p>Desde el punto de vista de la implantaci&oacute;n, la versi&oacute;n 2 de OFC es mucho m&aacute;s simple, aunque su configuraci&oacute;n queda reservada a desarrolladores y no como utilidad (widget) para usuarios finales. Eso es una cuesti&oacute;n a mejorar en cualquiera de estos tipos de bibliotecas, algo que facilitar&iacute;a su popularizaci&oacute;n. Me gustar&iacute;&shy;a publicar un peque&ntilde;o asistente de creaci&oacute;n de gr&aacute;ficos <em>standalone</em> (introducir la configuraci&oacute;n y los datos, y obtener el c&oacute;digo para incrustarlo): queda apuntado en la lista de tareas pendientes.</p><br />
<p>Por otro lado, OFC2 sigue siendo una biblioteca sencilla en cuanto a la variedad de gr&aacute;ficos que se pueden utilizar, aunque han mejorado.&nbsp; Tambi&eacute;n hay que decir que con esta nueva versi&oacute;n parecen sentarse buenas bases para el desarrollo de una herramienta completa y potente. Por lo tanto, habr&aacute; que esperar a nuevas versiones para ver m&aacute;s tipos de gr&aacute;ficos.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26822/open-flash-chart-2-mejorando-graficos-estadisticos</link><pubDate>Wed, 11 Mar 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[La quinta disciplina]]></title><description><![CDATA[<p>Le&iacute; este libro ocho a&ntilde;os atr&aacute;s y me gust&oacute;, me gust&oacute; mucho.&nbsp; Es de esos libros que dejan una sensaci&oacute;n clara al acabar la &uacute;ltima p&aacute;gina: lo volver&eacute; a leer. Y por fin ha llegado el momento.</p><p>Aunque a estas alturas hay gran cantidad de literatura sobre el an&aacute;lisis de sistemas aplicado al <em>management,</em> el libro <em>La quinta disciplina</em> de <a href="http://es.wikipedia.org/wiki/Peter_Senge" title="Peter Senge">Peter Senge</a>  (Granica, 1996) tiene un sabor genuino.&nbsp; A pesar de contar con casi quinientas p&aacute;ginas, su lectura resulta bastante llana.&nbsp; Recomiendo marcar un ritmo relajado (ni muy r&aacute;pido, ni muy aplazado).</p><p><em>Su</em> quinta disciplina (el an&aacute;lisis de sistemas) es una lectura casi obligada para quien trabaje en equipo, los gestione, o dirija una empresa.&nbsp; En cierto sentido eso incluye a casi todo el mundo.<br /></p> <h2>Los sistemas en la empresa (y en la vida real)</h2><p>El libro est&aacute; repleto de ejemplos muy clarificadores.&nbsp; En realidad son el eje vertebrador de los cap&iacute;tulos.&nbsp; Aunque estos ejemplos est&aacute;n muy centrados en las organizaciones, tambi&eacute;n hay ejemplos de la vida cotidiana.&nbsp; No en vano el autor incluye un apartado en el que habla de la conciliaci&oacute;n de la vida profesional y la familiar, comentando la aplicaci&oacute;n del <strong>an&aacute;lisis de sistemas a los ni&ntilde;os</strong>.</p><p>Un ejemplo que el autor expone al principio del libro para entender la perspectiva sist&eacute;mica es el de una cadena de venta y distribuci&oacute;n de bebidas.&nbsp; En una pr&aacute;ctica que realiza en sus sesiones de formaci&oacute;n, el autor asigna distintos roles a varios participantes: uno act&uacute;a como fabricante, otro como distribuidor y otro como vendedor.&nbsp; Las peticiones de bebida y las entregas al siguiente nivel se separan por &quot;turnos&quot;.</p><p>El proceso demuestra comprobar c&oacute;mo afectan a la cadena de distribuci&oacute;n los cambios abruptos de demanda en la tienda.&nbsp; En general su experiencia indica que la demanda de bebidas excede las cantidades necesarias, el almac&eacute;n de la tienda queda saturado y todos salen perdiendo.&nbsp; Todo ello debido a que ante un aumento inesperado de la demanda, incrementa la cantidad solicitada de bebida al proveedor. </p><p>El resto es cuesti&oacute;n de inercia del sistema: el sistema empresarial es mucho m&aacute;s complejo e ineficiente de lo que las teor&iacute;as cl&aacute;sicas de gesti&oacute;n empresarial plantean. Es por eso que Senge propone un cambio de visi&oacute;n hacia el <strong>pensamiento sist&eacute;mico</strong>.<br /></p><p>Algunos de los motivos por los que el autor recomienda el pensamiento sist&eacute;mico son:</p><ul><li>La estructura del propio sistema <strong>influye sobre la conducta</strong>.</li><li>La estructura de los sistemas humanos es <strong>sutil</strong>.</li><li>El equilibrio del sistema (que denomina <em>punto de apalancamiento</em>) se descubre aplicando <strong>nuevas formas de pensar</strong>.</li></ul><h2>Las leyes del pensamiento sist&eacute;mico</h2><p>Tras estos motivos, el autor enumera una serie de leyes del pensamiento sist&eacute;mico:<br /></p><ul><li>Los problemas de hoy derivan de las soluciones de ayer.</li><li>Cuanto m&aacute;s se presiona, m&aacute;s presiona el sistema: forzar la situaci&oacute;n tiene un efecto rebote.</li><li>La conducta mejora antes de empeorar: como las bombillas que, antes de fundirse, lucen m&aacute;s intensamente.</li><li>El camino f&aacute;cil nos lleva al mismo lugar.</li><li>La cura puede ser peor que la enfermedad.</li><li>Lo m&aacute;s r&aacute;pido es lo m&aacute;s lento.</li><li>En los sistemas, la causa y el efecto no est&aacute;n pr&oacute;ximos en el espacio ni en el tiempo.</li><li>Los peque&ntilde;os cambios pueden dar mejores resultados, pero las zonas de mayor apalancamiento (puntos de equilibrio en el sistema) a menudo no son obvias.</li><li>Se pueden obtener dos metas aparentemente contradictorias.</li><li>Dividir un elefante por la mitad no genera dos elefantes.</li><li>No hay culpa.<br /></li></ul><p>Esto es s&oacute;lo el principio del libro, una introducci&oacute;n sobre lo que se desarrolla en el resto.&nbsp; El autor expone con claridad cualquiera de las afirmaciones anteriores.&nbsp; Por lo que apelo a la lectura ante cualquier escepticismo.&nbsp; El resto del libro no decepciona.</p><h2>Algo m&aacute;s que decir</h2><p>Aunque el autor lo menciona en algunos pasajes, el an&aacute;lisis de sistemas y la simulaci&oacute;n son metodolog&iacute;as muy relacionadas cuando se aborda un entorno desconocido.&nbsp; De hecho la simulaci&oacute;n es una herramienta poderosa si se basa en datos fiables y objetividad.</p><p>El autor no se cansa de insistir en que los cambios instintivos fruto de la adrenalina y la opci&oacute;n f&aacute;cil no acostumbran a ser buenos consejeros.&nbsp; Nuestra mente est&aacute; acostumbrada a las reacciones instintivas, algo necesario para sobrevivir, pero ineficiente al contemplar la complejidad de un sistema (sea un empresa, o una familia).<br /></p><br/><p>Escucha el art&iacute;culo: <a href="http://sopadebits.com/extranet/content/download/gallery/fileman_file/file/4498/quinta-disciplina.mp3">podcast (voz sintetizada)</a></p><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26821/quinta-disciplina</link><pubDate>Sun, 08 Mar 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[Del blog al podcast con s&iacute;ntesis de voz]]></title><description><![CDATA[Quiz&aacute; diga poco a mi favor si digo que hace relativamente poco que me he aficionado a los podcasts.&nbsp; Hace mucho que entiendo su funcionamiento y tambi&eacute;n he implantado soluciones, pero de ah&iacute; a usarlos es otra historia.&nbsp; Mi uso de la tecnolog&iacute;a se limita a lo estrictamente necesario.&nbsp; Porque una cosa es jugar con gadgets, y otra cosa es sacarle partido para el d&iacute;a a d&iacute;a.<br /><br />Los podcasts son un ejemplo claro que la tecnolog&iacute;a es lo de menos: hasta que uno no encuentra el lugar y el momento para utilizarlos, su utilidad es relativa.&nbsp; Otro de los puntos clave, como sucede con los feeds textuales, es encontrar las fuentes interesantes que aporten informaci&oacute;n de acuerdo con el tiempo que uno le puede dedicar, pero eso es harina de otro costal.<br /><br />As&iacute; que he optado por introducir una peque&ntilde;a mejora en el blog para poder convertir los art&iacute;culos textuales en peque&ntilde;as audiciones en formato MP3.<br /><br />Una de las razones para hacerlo es que, a menudo, los art&iacute;culos que escribo tienen mucho &quot;verbo&quot; y poca imagen (algo a mejorar), por lo que probablemente toda la lectura se hace pesada si no existe una relevancia directa.&nbsp; La otra cuesti&oacute;n es que esto permite escuchar el art&iacute;culo mientras se leen otros contenidos, o tambi&eacute;n mientras se revisan los propios correos matutinos <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-wink.gif" border="0" alt="Gui&ntilde;o" title="Gui&ntilde;o" />.<br /><br />Para conseguir este objetivo, he echado mano de la herramienta libre <a href="http://www.cstr.ed.ac.uk/projects/festival/" title="Festival TTS">Festival Text-to-Speech</a>,  el codificador <a href="http://lame.sourceforge.net/" title="LAME MP3 Encoder">Lame MP3 encoder</a>  y del widget <a href="http://flash-mp3-player.net/" title="Flash MP3 Player">Flash MP3 Player</a> .&nbsp; El resto se realiza a trav&eacute;s de un sencillo script en PHP.<br /><br />Vale decir que el acabado final no tiene una &quot;calidad comercial&quot;, ni tampoco era mi intenci&oacute;n.&nbsp; El &uacute;nico objetivo es llevar a la pr&aacute;ctica la utilidad que le veo al podcast, nada m&aacute;s.<br /> <h2>Paso 1: Festival con voces en Espa&ntilde;ol y codificador LAME</h2><p>Hace tres o cuatro a&ntilde;os que descubr&iacute; el programa Festival Speech Synthesis System, desarrollado por la Universidad de Edimburgo.&nbsp; Este software diferencia sus licencias de uso en relaci&oacute;n al propio c&oacute;digo fuente y a las voces que contiene.&nbsp; En esencia el software es totalmente libre (con una licencia de tipo BSD), pero en el caso de las voces existen restricciones.&nbsp; Por ejemplo, las voces brit&aacute;nicas est&aacute;n basadas en el <em>Oxford Advanced Learners&#39; Dictionary of Current English</em>, por lo que su uso se restringe a aplicaciones no comerciales.&nbsp; Algo similar sucede con la voz en castellano.</p><p>Buscando informaci&oacute;n sobre el tema, encontr&eacute; dos proyectos de creaci&oacute;n de voces para Festival en catal&aacute;n y castellano:</p><ul><li>El primero, el <a href="http://gps-tsc.upc.es/veu/festcat/" title="UPC FestCat">desarrollo de voces en catal&aacute;n por la UPC</a>.&nbsp; Hay diez voces diferentes (cinco masculinas y cinco femeninas), y adem&aacute;s con dos estructuras diferentes: HTS (Cadenas de Markov Ocultas, HMM) y clunits (Cluster units).</li><li>El segundo, el <a href="http://forja.guadalinex.org/repositorio/frs/?group_id=21&amp;release_id=110" title="Voces en castellano de Festival por la Junta de Andaluc&iacute;a">desarrollo de voces en castellano en un proyecto de la Junta de Andaluc&iacute;a</a>.&nbsp; En este caso los resultados se limitan a dos voces (una femenina y otra masculina), m&aacute;s que suficiente.</li></ul><p>Para la realizaci&oacute;n de estas voces se ha utilizado el conjunto de herramientas <a href="http://festvox.org/" title="FestVox">Festvox</a>, desarrolladas por el <a href="http://www.speech.cs.cmu.edu/">grupo de tecnolog&iacute;as de la pronunciaci&oacute;n de la Universidad Carnegie Mellon</a>  y dirigida espec&iacute;ficamente a la creaci&oacute;n de voces para Festival.</p><p>En ambos sitios se puede encontrar informaci&oacute;n sobre el proceso de creaci&oacute;n del corpus de sonidos, que es diferente en cada caso.&nbsp; Cabe comentar brevemente las dos versiones presentadas en el proyecto de la UPC: HTS y Clunits.</p><p>HTS se basa en la aplicaci&oacute;n de modelos derivados de las Cadenas Ocultas de Markov (Hidden Markov Models - HMM) a los sistemas de s&iacute;ntesis de voz, como se puede leer en el sitio <a href="http://hts.sp.nitech.ac.jp/" title="HMM-based Speech Synthesis System">HMM-based Speech Synthesis System (HTS)</a>.&nbsp; Las cadenas de Markov (y por extensi&oacute;n las cadenas ocultas) son una herramienta de uso muy extendido, no s&oacute;lo en s&iacute;ntesis o en reconocimiento de voz, sino tambi&eacute;n en procesamiento del lenguaje natural, o en el algoritmo del PageRank. No voy a entrar en detalles, tratar&eacute; de dedicarle un art&iacute;culo a este tema.</p><p>Para entender c&oacute;mo funciona el modelo Clunits (<em>Cluster Units</em> Algoritmo de <em>clusterizaci&oacute;n</em> de unidades de sonido), hay un documento de <a href="http://www.cstr.ed.ac.uk/downloads/publications/1997/Black_1997_b.pdf" title="Cluster Units Algorithm">Alan W. Black y Paul Taylor (1997) sobre la descripci&oacute;n del Algoritmo</a>.</p><p>Despu&eacute;s de escuchar varias versiones de ambos modelos, creo que el resultado m&aacute;s interesante est&aacute; en el modelo Clunits, aunque las inflexiones de voz parecen m&aacute;s artificiales (no sabr&iacute;a decir si debido al modelo de creaci&oacute;n del corpus).</p><p>El proceso de instalaci&oacute;n y configuraci&oacute;n de las voces en catal&aacute;n puede leerse respectivamente en <a href="https://wiki.ubuntu.com/CatalanTeam/Tutorials/S%C3%ADntesiDeVeu?action=show&amp;redirect=CatalanTeam%2FS%C3%ADntesiDeVeu" title="Ubuntu Catalan Team Wiki: S&iacute;ntesi de veu">el sitio del equipo catal&aacute;n de Ubuntu</a>.&nbsp; Para las voces en castellano, recomiendo la lectura del art&iacute;culo <a href="http://www.gonzalomarcote.com/blog/?p=26" title="C&oacute;mo instalar e integrar Festival en Asterisk">C&oacute;mo instalar e integrar Festival en Asterisk</a>, un caso de uso muy interesante. La cuesti&oacute;n clave es configurar festival para que utilice las voces correspondientes.<br /><br />Respecto a la instalaci&oacute;n de LAME Mp3, s&oacute;lo cabe decir que en Debian no existe un paquete espec&iacute;fico, debido a las restricciones de codificaci&oacute;n del formato MP3.&nbsp; En cualquier caso es posible <a href="http://lame.sourceforge.net/download.php" title="LAME Mp3 Encoder : Download">descargarse el paquete</a>  y compilarlo sin problemas aparentes.<br /></p><h2>Paso 2: Script de recuperaci&oacute;n y limpieza de los contenidos</h2><p>Festival no est&aacute; pensado como lector de p&aacute;ginas web en crudo, por lo que es necesario eliminar las etiquetas y las entidades HTML antes de realizar el proceso.&nbsp; Puede ser necesario convertir el texto a codificaci&oacute;n Latin-1 porque seg&uacute;n la documentaci&oacute;n del proyecto, es la codificaci&oacute;n correcta. De todos modos es una cuesti&oacute;n que yo no he necesitado, desconozco si las mejoras en festival han inclu&iacute;do soporte para UTF8.</p><p>Antes de empezar hay que tener en cuenta un detalle importante: al eliminar las etiquetas HTML, todo el texto se desestructura.&nbsp; Es decir, que un t&iacute;tulo no tiene una &eacute;nfasis especial, ni siquiera se reconoce como frase (porque no es costumbre poner puntos al final del t&iacute;tulo).&nbsp; Tampoco he entrado a fondo en las posibilidades de Festival para personalizar el &eacute;nfasis en ciertos t&eacute;rminos o frases.</p><p>As&iacute; que el resultado final puede ser mejorado si existen opciones en Festival que yo no estoy utilizando y quiz&aacute; remarquen puntos clave (por ejemplo, en el caso de texto en negrita).&nbsp; Adem&aacute;s, en el proceso de conversi&oacute;n a texto normal, la entidad HTML &quot;nbsp&quot; se convierte en un &quot;espacio raro&quot;, algo que Festival no tolera demasiado bien (de hecho parece que trague saliva).&nbsp; Tambi&eacute;n los puntos seguidos deben contener un solo espacio en blanco posterior, y ninguno entre &eacute;ste y la &uacute;ltima palabra de la frase.</p><p>Resumiendo el proceso, los pasos a realizar antes de eliminar las etiquetas HTML son:</p><ul><li>Introducir saltos de l&iacute;nea antes de las etiquetas de t&iacute;tulos (H1..H5)</li><li>Introducir puntos al cierre de las etiquetas de t&iacute;tulos (H1..H5)</li><li>Introducir saltos de l&iacute;nea antes y despu&eacute;s de los tags de p&aacute;rrafo (P)</li><li>Eliminar la entidad &quot;nbsp&quot;.</li><li>Introducir un espacio posterior a los puntos seguidos(.), y eliminar el doble espacio posterior (&quot;.&quot;).</li><li>Mantener unidos los puntos suspensivos (excepci&oacute;n al caso anterior).</li><li>Cambiar los par&eacute;ntesis de apertura y cierre por comas.<br /></li></ul><p>Una vez realizados estos cambios, hay que eliminar las etiquetas HTML (en PHP, <a href="http://es2.php.net/manual/es/function.strip-tags.php" title="PHP - strip_tags">strip_tags</a> ), y luego eliminar las entidades HTML (en PHP, <a href="http://es2.php.net/manual/es/function.html-entity-decode.php" title="PHP - html_entity_decode">html_entity_decode</a> ). En caso que sea necesario, tambi&eacute;n hay que recodificar el texto (en PHP, <a href="http://es2.php.net/manual/es/function.mb-convert-encoding.php" title="PHP - mb_convert_encoding">mb_convert_encoding</a> ).</p><p>Despu&eacute;s de esto, el proceso ya llega a su fin: Hay que volcar el contenido generado a un archivo de texto, y ejecutar las dos llamadas para convertir de texto a WAV y luego a MP3 (primero <em>text2wave</em>, luego <em>lame</em>).</p><h2>Paso 3: Definici&oacute;n de los scripts de Ejecuci&oacute;n text2wave y lame</h2><p>En Festival existe la utilidad <em>text2wave</em>, que puede ejecutarse (despu&eacute;s de indicarse el cambio de voz en la configuraci&oacute;n) con la siguiente llamada:</p><p><strong># text2wave  </strong><strong>archivo_texto </strong><strong>-o archivo_wav</strong><br /><br />Con esto se recoger&aacute;n el texto de <em>archivo_texto</em>, lo convertir&aacute; en sonido y lo volcar&aacute; en formato WAV en <em>archivo_wav</em>.</p><p>Una vez conseguido el archivo de sonido, es necesario convertirlo a formato MP3.&nbsp; Para ello se puede ejecutar el siguiente comando:</p><p><strong># lame -h -m m -b 92 --resample 22.05 --scale .61 --replaygain-accurate --clipdetect <em> </em>archivo_wav archivo_mp3</strong></p><p>Con esta instrucci&oacute;n se genera el sonido , con las siguientes caracter&iacute;sticas:<br /></p><ul><li>Codificaci&oacute;n con calidad alta (-h). Evita algunos clicks/pops en la conversi&oacute;n a MP3.</li><li>Sonido de un canal (-m m = modo Mono).</li><li>Calidad de 92 kbps (-b 92): esta calidad es m&aacute;s que suficiente para la voz.</li><li>frecuencia de muestreo de 22050 Hertzios (--resample 22.05). Festival var&iacute;a el ratio de muestreo seg&uacute;n la calidad de la voz, por lo que esta opci&oacute;n normaliza el resultado.&nbsp; Se podr&iacute;a indicar 44100 hertzios (44.1) para aplicar el mismo ratio de muestreo que un CD a costa de aumentar el tama&ntilde;o del archivo.</li><li>escalado del valor al 61% respecto a la se&ntilde;al recibida del archivo WAV (--scale .61). En esencia reduce el volumen, pero lo que trata de evitar esta opci&oacute;n es el &quot;cliqueo&quot; (clipping) que se produce si el volumen es alto.</li><li>Identificar los picos de sonido para evitar el clipping (--replaygain-accurate).</li><li>Avisar si existe clipping (--clipdetect)<br /></li></ul><p>Las &uacute;ltimas tres opciones se incluyen para conseguir un resultado m&aacute;s agradable a los o&iacute;dos y para recibir informaci&oacute;n sobre el resultado final. Esto es debido a que, al menos en el caso de las voces en castellano, el volumen original genera muchos clicks, probablemente debido a la concatenaci&oacute;n de los sonidos que representan cada fonema/difonema. Dado que el tono y volumen de la voz est&aacute;n normalizados (y no sufren alteraciones en cada locuci&oacute;n), se pueden establecer estos par&aacute;metros como fijos, algo que no podr&iacute;amos hacer en caso de una locuci&oacute;n humana real.<br /></p><h2>Paso 4: Disponibilidad de la audici&oacute;n en la interfaz web</h2><p>Para el &uacute;ltimo paso me he valido del programa <a href="http://flash-mp3-player.net/" title="MP3 Flash Player">Flash MP3 Player</a> , que permite incrustar un reproductor MP3 personalizable en una p&aacute;gina web.&nbsp; El proceso en relaci&oacute;n a lo anterior es bastante sencillo: incluir un c&oacute;digo HTML en la p&aacute;gina que incruste el archivo SWF del reproductor, incluyendo como par&aacute;metro la URL.<br /><br />En la propia p&aacute;gina existe un <a href="http://flash-mp3-player.net/players/mini/generator/" title="Flash MP3 Player Mini HTML generator">generador de c&oacute;digo para el reproductor</a>, para cada uno de los reproductores.&nbsp; El c&oacute;digo permite la personalizaci&oacute;n de colores.<br /><br />Con esto ya est&aacute; incrustado el reproductor en la p&aacute;gina, que referencia al archivo MP3 que previamente hemos generado y que permite escucharlo sin m&aacute;s problemas.</p><h2>Conclusiones, otros recursos y cuestiones de accesibilidad</h2><p>El resultado final tiene unas cuantas ineficiencias manifiestas (pero tampoco tan cr&iacute;ticas: se nota que ambos proyectos de creaci&oacute;n de voz han hecho un esfuerzo notable).&nbsp; Por un lado, la pronunciaci&oacute;n de siglas y direcciones web no siempre se acerca a unos resultados deseables.&nbsp; Aunque en el caso de las voces de la Junta de Andaluc&iacute;a se ha trabajado en el an&aacute;lisis de <em>tokens</em> para procesar direcciones de correo y direcciones web (URL), el resultado final es mejorable.<br /><br />Otro tanto sucede al escribir fragmentos de texto en otros idiomas, o instrucciones de c&oacute;digo fuente.&nbsp; La soluci&oacute;n a este tema pasa por utilizar tags de HTML concretos (por ejemplo en el caso del c&oacute;digo fuente, utilizar el tag &quot;code&quot;).&nbsp; Antes de procesar el contenido, estos tags pueden ser tratados como textos separados (para utilizar voces en el idioma original) o bien eliminados, y luego concatenar los peque&ntilde;os archivos de voz generados.&nbsp; De todos modos, esta mejora va mucho m&aacute;s all&aacute; de mis objetivos por ahora.&nbsp; Por no decir que el resultado es a veces tan divertido que vale la pena escucharlo para echarse unas risas <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-laughing.gif" border="0" alt="Riendo" title="Riendo" />.<br /><br />El reproductor MP3 de Flash no soluciona una cuesti&oacute;n importante: la accesibilidad.&nbsp; Por eso considero oportuno a&ntilde;adir un enlace directo al archivo MP3.&nbsp; De este modo se ofrece una opci&oacute;n de disponibilidad del contenido para personas con discapacidades visuales que no tengan <em>screenreaders</em> en el ordenador de consulta y que tampoco tendr&iacute;an asegurado el uso del reproductor de Flash.&nbsp; Tambi&eacute;n descarto la inclusi&oacute;n del reproductor en el contenido de los feeds porque es una funcionalidad susceptible de dar problemas en algunos programas lectores de feeds.<br /><br />Otras aplicaciones de un servicio como &eacute;ste ser&iacute;an convertir a voz los art&iacute;culos recogidos de otras fuentes de informaci&oacute;n.&nbsp; Es decir, capturar nuestros feeds habituales y convertirlos a voz sintetizada para luego escucharlos como cualquier otro podcast.&nbsp; Este caso presenta un peque&ntilde;o a&ntilde;adido en complejidad, ya que debemos controlar el idioma de la fuente y tambi&eacute;n el marcado HTML. Lo primero es f&aacute;cil, pero lo segundo puede complicarse.<br /><br />Como ejemplo de este caso encontr&eacute; este enlace en <a href="http://www.phpied.com/blog-to-podcast-with-ffmpeg/" title="PHPied: Blog to Podcast with FFMpeg">PHPied: conversi&oacute;n de feeds a podcast con ffmpeg,</a>  otra opci&oacute;n interesante. El uso de ffmpeg o de lame es una cuesti&oacute;n opcional, ya que ffmpeg requiere de un codec (que puede ser perfectamente el proporcionado por LAME). En su caso utiliza un sintetizador de Mac. Vale decir que si la fuente original est&aacute; en ingl&eacute;s, las cosas se simplifican mucho por la disponibilidad general de sintetizadores en este idioma.<br /><br />La introducci&oacute;n del enlace al archivo MP3 en el RSS del blog difiere conscientemente de las especificaciones de <a href="http://www.apple.com/itunes/whatson/podcasts/specs.html" title="iTunes Technical Specification">iTunes</a>  y <a href="http://search.yahoo.com/mrss" title="Yahoo! Media RSS module technical specifications">Yahoo! Media RSS Module</a>. Este archivo no es un podcast por s&iacute; mismo, sino una versi&oacute;n sintetizada, y por lo tanto no es una alternativa sino una herramienta de soporte al texto.&nbsp; Con esto quiero aclarar algo: si quieres entenderlo todo, mejor acaba leyendo el art&iacute;culo original. </p><br/><p>Escucha el art&iacute;culo: <a href="http://sopadebits.com/extranet/content/download/gallery/fileman_file/file/4495/archivo.mp3">podcast (voz sintetizada)</a></p><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26820/blog-podcast-sintesis-voz</link><pubDate>Wed, 04 Mar 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[Eyetracking, movimiento e informaci&oacute;n neuronal]]></title><description><![CDATA[Siempre me ha atra&iacute;do la tecnolog&iacute;a del eyetracking como una forma de entrar m&aacute;s a fondo en los procesos de an&aacute;lisis de usabilidad de una aplicaci&oacute;n.&nbsp; En cualquier caso, lo he percibido como una t&eacute;cnica algo manca, si bien muy potente.&nbsp; Los ojos y la mirada son i<a href="http://sopadebits.com/content/view/indicadores-el-ajo-dorado" title="Indicadores: el ajo dorado - Sopa de bits">ndicadores</a> del inter&eacute;s, pero por este mismo hecho no son una fuente primaria sino secundaria.&nbsp; Por retorcer un poco el refr&aacute;n, los ojos son el espejo del alma, p<em>ero un espejo peque&ntilde;o y s&oacute;lo &uacute;til seg&uacute;n para qu&eacute; objetivos</em>.<br /><br />Lo que en mi humilde opini&oacute;n falta a estos dispositivos es identificar el grado de atenci&oacute;n que se genera en el momento de mirar.&nbsp; Es decir, i<a href="http://sopadebits.com/content/view/tareas-motivacion" title="Tareas y motivaci&oacute;n">dentificar la motivaci&oacute;n y la atenci&oacute;n que hay tras el movimiento</a> ocular con informaci&oacute;n directa de nuestra actividad neuronal. La cuesti&oacute;n es: &iquest;El electroencefalograma (EEG) puede ofrecernos informaci&oacute;n m&aacute;s ajustada a lo que est&aacute; sucediendo? &iquest;Nos proporcionar&aacute; <strong>m&aacute;s informaci&oacute;n</strong>, o simplemente<strong> m&aacute;s datos</strong>?<br /> <h2>Movimiento de los ojos, movimiento de las ondas</h2><p>El uso de eyetracking para el dise&ntilde;o de productos es el &aacute;rea que m&aacute;s me interesa personalmente.&nbsp; En especial el an&aacute;lisis en aplicaciones web (tanto dirigidas al p&uacute;blico general como a personal corporativo).&nbsp; Otras &aacute;reas de aplicaci&oacute;n en psicolog&iacute;a quedan lejos de mi conocimiento (que no inter&eacute;s). Hace no mucho, por ejemplo, aparec&iacute;a un estudio sobre el <a href="http://www.geaipc.com/blog/wp-content/uploads/gea-ipc-eyetracking-search-marketing.pdf" title="GEA IPC - Eyetracking Search Marketing">search marketing aplicado al turismo y el tri&aacute;ngulo de oro de Google</a> .</p><p>Tambi&eacute;n se ha tratado la opci&oacute;n de superponer esta informaci&oacute;n <a href="http://www.poynterextra.org/eyetrack2004/main-spanish.htm">con otros datos generados durante la navegaci&oacute;n</a> , como logs de servidor, focus groups, etc.&nbsp; Lo que sucede es que este tipo de datos ya son externos al usuario. Si el ojo es una fuente secundaria, &eacute;stas ya se pueden considerar fuentes terciarias: fruto de la decisi&oacute;n que ha pasado por los filtros del ojo y el cerebro (e incluso la coordinaci&oacute;n de movimientos).&nbsp; Todo esto dando por hecho que est&aacute;n los filtros de valores, cultura, circunstancias en el momento de realizar la acci&oacute;n...</p><p>La posibilidad de profundizar en la informaci&oacute;n de la actividad neuronal del usuario es un paso m&aacute;s en la investigaci&oacute;n de la caja negra que supone el cerebro.&nbsp; Hace a&ntilde;os que voy <em>picoteando</em> informaci&oacute;n sobre este tema, pero (lo acepto) sin poder entrar a fondo. Los precios o la disponibilidad de los dispositivos en relaci&oacute;n a la poca prioridad que le doy al tema es el principal obst&aacute;culo.</p><p>El hecho de acceder a las <a href="http://www.slideshare.net/Oscaritomartinez/ondas-alfa-beta-theta-delta-presentation" title="Presentaci&oacute;n sobre Ondas Cerebrales">ondas cerebrales</a>  nos aporta una informaci&oacute;n mucho m&aacute;s cercana a lo que sucede en nuestra mente.&nbsp; Si no es una fuente primaria, poco le falta.&nbsp; No est&aacute; del todo claro qu&eacute; ondas cerebrales son las m&aacute;s significativas en procesos como el impacto de un banner o la relevancia de un documento, aunque si hablamos de atenci&oacute;n est&aacute;do an&oacute;malo del conocimiento o <a href="http://sopadebits.com/content/view/teoria-de-la-relevancia-en-linguistica" title="Teor&iacute;a de la relevancia en ling&uuml;&iacute;stica - Sopa de bits">relevancia</a> , la respuesta puede estar entre las ondas <em>alfa</em> y <em>beta</em>.</p><p>La posibilidad de coordinar los datos sobre los movimientos y la actividad cerebral es un doble filtro muy interesante: ni siempre miramos lo que vemos, ni siempre pensamos en lo que estamos mirando.&nbsp; Establecer correlaciones entre ojos y mente parece una v&iacute;a interesante para adentrarse en la atenci&oacute;n.</p><h2>Herramientas para la captura del EEG y los movimientos faciales</h2><p>Entre las b&uacute;squedas que realic&eacute; anta&ntilde;o me top&eacute; con <a href="http://openeeg.sourceforge.net/" title="OpenEEG - Sourceforge.net">OpenEEG</a> , un proyecto actualmente algo obsoleto que proporciona instrucciones concretas para el desarrollo de software y la producci&oacute;n de hardware (todo con permisos Open Source y Open Hardware) para la creaci&oacute;n de estos dispositivos.&nbsp; La raz&oacute;n por la que hablo de obsolescencia es que los dispositivos presentados van conectados principalmente por el antigo puerto de serie (el m&iacute;tico <em>COM1</em>), por lo que la velocidad de transmisi&oacute;n de datos y el n&uacute;mero potencial de canales de informaci&oacute;n es m&aacute;s bien escaso.&nbsp; La actualizaci&oacute;n para integrar dispositivos USB est&aacute; mencionada, pero no he sabido encontrar resultados concretos al respecto. En cualquier caso, la capacidad para ensamblar un aparato de estos queda bastante limitada a alguien con conocimientos de eletr&oacute;nica (o alguien con amigos para este conocimiento que tenga ganas de perder parte de su tiempo libre).</p><p>En cualquier caso, el proyecto OpenEEG dispone de una <a href="http://openeeg.sourceforge.net/doc/sw/" title="OpenEEG - Lista de software">lista bastante interesante de software</a> (libre y propietario) para recoger la informaci&oacute;n, as&iacute; como una especificaci&oacute;n (<a href="http://openeeg.sourceforge.net/doc/modeeg/modeeg.html" title="OpenEEG - ModularEEG">modularEEG</a>) para facilitar la comunicaci&oacute;n entre hardware y software.</p><p>Sobre este &uacute;ltimo aspecto, creo que en la situaci&oacute;n actual, la evoluci&oacute;n puede enfocarse hacia un modelo m&aacute;s amplio: algo que pueda aplicarse a la captura de informaci&oacute;n por el movimiento de todo el cuerpo, donde las ondas cerebrales sean una parte, los movimientos conscientes otro, y los movimientos no conscientes (incluyendo respiraci&oacute;n, pulso y sudoraci&oacute;n) sea otro.&nbsp; Y luego, dependiendo del dispositivo, se pueda procesar esta informaci&oacute;n de acuerdo con la parte que se analiza.</p><h2>Emotiv EPOC</h2><p>Despu&eacute;s de OpenEEG, mi b&uacute;squeda se dirigi&oacute; hacia otro lado: m&aacute;quinas ya ensambladas que realicen este proceso de recogida de datos, recopilando la informaci&oacute;n pertinente (varios canales / electrodos que recojan la actividad en varias zonas del cerebro), y dejando la tarea pendiente de procesar esta informaci&oacute;n. Es decir, m&aacute;quinas que vuelcan los datos recogidos en crudo, tras lo cual hay un programa que escuche el puerto USB y los procese.&nbsp; Algo dif&iacute;cil, si adem&aacute;s se a&ntilde;ade un inter&eacute;s para que todo esto funcione con independencia del sistema operativo...</p><p>Para que exista una m&aacute;quina de este tipo tiene que haber mercado.&nbsp; En este caso, mercado a consumidores finales, ya que los precios de las m&aacute;quinas dedicadas a la medicina o cualquier otra actividad en empresas encarece sobremanera el producto (en el primer caso, por los est&aacute;ndares de calidad, y en el segundo, supongo que por los pocos usos que tiene a&uacute;n).&nbsp; Desde luego, el sector m&aacute;s proclive a llevar esto a la pr&aacute;ctica es el del ocio, y en concreto el del gaming.</p><p>Es por eso que al leer <a href="http://emotiv.com/INDS_3/inds_3.html" title="Emotiv - EPOC">sobre el proyecto EPOC</a>  de la empresa <a href="http://emotiv.com" title="Emotiv">Emotiv</a>  pareci&oacute; que las cosas se acercaban, que ya faltaba menos.&nbsp; Este proyecto parec&iacute;a tener todos los componentes necesarios para ser el nuevo cacharrito de experimentos.&nbsp; Incluso incluye un conjunto de herramientas de desarrollo de aplicaciones (Software Development Kit - SDK) con dos versiones: SDK est&aacute;ndar y SDK Lite. La diferencia es que en la primera se adquiere un casco, mientras que la segunda dispone de un emulador del casco v&iacute;a software para el desarrollo de aplicaciones.</p><p>El SDK parece proporcionar informaciones (no datos) bastante concretos sobre las emociones o movimientos faciales de la persona. Una aplicaci&oacute;n desarrollada con este SDK se podr&iacute;a centrar en el tratamiento de estos estados mentales y no en los datos, porque el SDK ya incorpora los algoritmos de identificaci&oacute;n de las se&ntilde;ales cerebrales.&nbsp; No queda claro hasta qu&eacute; punto es necesario el aprendizaje, un tema que <a href="http://www.human-computer.net/blog/2009/02/24/interaccion-cerebro-ordenador/" title="HCNet - Interacci&oacute;n cerebro - ordenador">quiz&aacute; en el futuro cada vez sea menos importante</a> , aunque hoy en d&iacute;a lo es.</p><p>Sin embargo, el proyecto sigue estando en fase beta, y adem&aacute;s su distribuci&oacute;n parece limitada a Estados Unidos (eso indican en el sitio).&nbsp; Parece ser que la raz&oacute;n de esta beta es la mejora en la interpretaci&oacute;n de los datos, imagino que tratando de mejorar el SDK.&nbsp; Si el precio permite diferenciar la compra por motivos de &quot;curiosidad&quot; o de &quot;ir en serio&quot;, creo que actualmente el de este aparato (299 d&oacute;lares) cae en la segunda opci&oacute;n.</p><h2>OCZ NIA: Neural Impulse Actuator</h2><p>Hace poco apareci&oacute; en <a href="http://www.microsiervos.com/archivo/gadgets/nia-impulsos-neuronales.html" title="Microsiervos - NIA Impulsos neuronales">Microsiervos una entrada comentando NIA</a>, el que parece ser otro candidato.&nbsp; El aparatejo en s&iacute; es muy simple: el n&uacute;mero de sensores se reduce a tres, se recogen los datos de ondas cerebrales y movimientos oculares (no queda del todo claro si parpadeos y movimientos de cejas, o bien llega a desvelar la direcci&oacute;n de los ojos), y tiene un precio bastante asequible: aproximadamente 160 Euros.</p><p>Sobre la ubicaci&oacute;n de los sensores vale la pena hacer un comentario.&nbsp; Al ubicarse s&oacute;lo en el &aacute;rea de la corteza prefrontal, se captura principalmente la actividad derivada de jucio, voluntad y toma de decisiones (Zonas 9, 10 y 11 <a href="http://www.med.ufro.cl/Recursos/neuroanatomia/archivos/9_citoarquitectura_archivos/Page569.htm" title="&Aacute;reas de Brodmann">seg&uacute;n las zonas de Brodmann</a> ), y en mucho menor grado en la articulaci&oacute;n y comprensi&oacute;n del lenguaje (Zonas 44 a 46 de Brodmann).&nbsp; Esto quiere decir que todo el resto se descarta: ni emociones, ni actividad de la memoria... el NIA es una suerte de <em>mouse mental</em>, no un procesador completo de se&ntilde;ales cerebrales.</p><p>Lo que hace es recoger las se&ntilde;ales de las ondas cerebrales (recopila y amplifica la se&ntilde;al), y los vuelca en bruto (a modo de <em>stream</em>) a trav&eacute;s de un puerto USB.&nbsp; Pr&aacute;cticamente no hay limpieza de datos antes de su entrada por USB, por lo que el resto es cosa del software proporcionado con el aparato, o bien de cualquier otro software que reciba los datos.</p><p>Las opiniones sobre la calidad de la se&ntilde;al que emite el aparato son variadas.&nbsp; Por el precio y los componentes no se puede esperar una m&aacute;quina de alta precisi&oacute;n: no es un mouse ni un teclado, es algo bastante m&aacute;s complejo. No ser&aacute; de alta precisi&oacute;n, pero s&iacute; imagino que suficiente. Lo que s&iacute; indican en el sitio (en realidad es una obviedad) es el riesgo de interferencias en la se&ntilde;al por tener aparatos el&eacute;ctricos cerca como cargadores, auriculares o m&oacute;viles.</p><p>Buscando en YouTube he encontrado varias referencias al producto.&nbsp; En general, buscando <a href="http://www.youtube.com/results?search_type=&amp;search_query=nia+ocz&amp;aq=0" title="Youtube Search: NIA OCZ">NIA OCZ</a>  hay muestras para todos los gustos, desde reportajes hasta muestras hechas por los propios usuarios.&nbsp; Dado que mi afici&oacute;n por los videojuegos es pr&aacute;cticamente nula, no s&eacute; valorar si el resultado promete.</p><p>Sobre la posibilidad de trabajar con Linux, he encontrado el proyecto <a href="http://sourceforge.net/projects/nia4linux/" title="NIA for Linux - Sourceforge.net">NIA4Linux</a> , donde se est&aacute; desarrollando el driver que recoge los datos en bruto.&nbsp; El an&aacute;lisis previo parece que est&aacute; en curso (en base al comentario sobre la <a href="http://sourceforge.net/forum/forum.php?forum_id=859588" title="NIA data packets">estructura de los datos que explican en el foro del proyecto</a> ).</p><p>Antes de tener algo m&iacute;nimamente operativo a este nivel, hay una cuesti&oacute;n principal: poder separar la mezcla de se&ntilde;ales. Los tres electrodos est&aacute;n transmitiendo (cada uno) se&ntilde;ales cerebrales y/o musculares, todo en un mismo paquete de datos. Parece ser que los electrodos laterales aportan informaci&oacute;n de cada lado (una se&ntilde;al invertida, provocando una especie de efecto est&eacute;reo) y un electrodo central que se utiliza como referencia.&nbsp; Con estos datos, queda por saber qu&eacute; parte se refiere a actividad cerebral y qu&eacute; otra se refiere al movimiento ocular.</p><p>La identificaci&oacute;n de los datos puede ser compleja aunque con el tiempo es posible que se encuentren resultados.&nbsp; Desde luego trabajando en Windows con el aparato parece m&aacute;s sencillo a priori, ya que con el software proporcionado se puede ver de forma casi instant&aacute;nea el funcionamiento del aparato. Si el uso va m&aacute;s all&aacute; de los juegos, es posible crear un perfil de movimientos de acuerdo con las se&ntilde;ales.</p><p>Sobre la posibilidad de recoger la informaci&oacute;n directamente, parece que el principal problema es el de siempre: el <a href="http://www.ocztechnologyforum.com/forum/showthread.php?t=38441&amp;page=4#post339360">problema de acceso a las especificaciones</a> , ya que seg&uacute;n explica un moderador del foro de productos de OCZ, es un producto con licencia de terceros, aunque se apuntan <a href="http://www.ocztechnologyforum.com/forum/showthread.php?t=38441&amp;page=4#post339372">los puntos clave para conseguirlo</a>.</p><h2>Conclusiones y aplicaciones</h2><p>La &eacute;poca en la que estos aparatitos se puedan aplicar de forma m&aacute;s intensiva parece estar llegando.&nbsp; Para una aproximaci&oacute;n al tema, el OCZ NIA parece un muy buen candidato, mientras que para an&aacute;lisis m&aacute;s profundo el Emotiv EPOC parece el indicado.&nbsp; Para su uso en entornos Windows su aplicaci&oacute;n es casi inmediata, utilizando los drivers que proporcionen sus respectivos fabricantes.&nbsp; En el caso de Linux, la situaci&oacute;n es de <em>stand by</em>, aunque OCZ NIA, por su sencillez y disponibilidad fuera de Estados Unidos actualmente, parece el m&aacute;s indicado a corto plazo.</p><p>Respecto a sus aplicaciones (dejando a un lado las que ya existen: juegos, mundos virtuales y dem&aacute;s), me parecen incontables.&nbsp; Es un nuevo canal de interacci&oacute;n y por ello es potencialmente aplicable a todo lo que se nos ocurra.&nbsp; La evoluci&oacute;n de las interficies va relacionada con la limitaci&oacute;n en la capacidad de proceso de los inputs que tienen los ordenadores.&nbsp; Hace unas pocas d&eacute;cadas el rat&oacute;n era una entelequia, igual que lo fueron en su momento la interpretaci&oacute;n de comandos o el uso de men&uacute;es en aplicaciones.&nbsp; Utilizar este nuevo modo de comunicaci&oacute;n es cuesti&oacute;n de tiempo, y tambi&eacute;n de saber su verdadera utilidad.</p><p>Retomando el hilo con el que iniciaba el art&iacute;culo, una de las posibles aplicaciones que veo en estas herramientas es su aplicaci&oacute;n en <strong>estudios de producto</strong>.&nbsp; Como herramientas de combinaci&oacute;n de los datos oculares y cerebrales parecen muy interesante. Combinar este aparato con una aplicaci&oacute;n que env&iacute;e el stream a un servidor central, y que combinara el v&iacute;deo y voz puede tener un potencial interesante para procesos de <strong>beta-testing</strong>.</p><p>Otra aplicaci&oacute;n muy interesante es el <strong>e-Learning</strong>.&nbsp; Una interfaz de este tipo puede ayudar en los procesos de evaluaci&oacute;n de competencias sin basarse en los contenidos de evaluaci&oacute;n.&nbsp; No se trata de grabar todo el proceso, sino saber el grado de seguridad con el que se desenvuelve un alumno en una tarea, midiendo su nivel de estr&eacute;s y sus errores, para determinar qu&eacute; partes son las m&aacute;s complejas.&nbsp; El uso de agentes inteligentes en ese proceso es un paso m&aacute;s. </p><p>Otra aplicaci&oacute;n relacionada es una <strong>mezcla entre <em>coaching</em> y productividad</strong>: capturar la informaci&oacute;n sobre las tareas diarias delante del ordenador para luego determinar qu&eacute; distrae, qu&eacute; mejora el resultado, y c&oacute;mo tratar las distracciones. </p><p>Finalmente, hay otras cuestiones (ahora lejanas) relativas a la convergencia del hardware de interacci&oacute;n.&nbsp; En los &uacute;ltimos a&ntilde;os estamos presenciando la aparici&oacute;n de dispositivos y entornos de trabajo que tratan de mejorar la experiencia de usuario armonizando la interacci&oacute;n y los movimientos naturales del cuerpo.&nbsp; Entre ellos podemos encontrar <strong>escritorios en tres dimensiones</strong>, <strong>entornos <em>multitouch</em></strong>, sin olvidar iPhones i Wiis. <br /></p><p>Lo que me parece factible a medio-largo plazo es que un sistema de comunicaci&oacute;n con el cerebro sea el principal impulsor de un sistema unificado de interacci&oacute;n.&nbsp; Aunque los esfuerzos en investigaci&oacute;n deber&aacute;n ser notables, hay dos factores determinantes en la comercializaci&oacute;n de estos dispositivos: el coste y los p&uacute;blicos objetivos.&nbsp; Es mucho m&aacute;s f&aacute;cil distribuir un aparato como los anteriores que un par proyector-pizarra.</p><p>Adem&aacute;s, el software asociado al casco es m&aacute;s f&aacute;cilmente actualizable que cambiar todo el hardware, por lo que el lanzamiento comercial y el ciclo del producto pueden ser m&aacute;s asumibles para el retorno de la inversi&oacute;n.</p><p>Para el potencial comprador, el casco no tiene coste de adecuaci&oacute;n del entorno (aparte del aprendizaje del sistema), y puede esperar una vida media de producto m&aacute;s larga, sin grandes costes de mantenimiento debido a consumibles, y con mejoras a medio-largo plazo (con actualizaciones de software).<br /></p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26819/eyetracking-movimiento-informacion-neuronal</link><pubDate>Thu, 26 Feb 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[Variables aleatorias, la semilla estad&iacute;stica]]></title><description><![CDATA[Las variables aleatorias son la base de la estad&iacute;stica probabil&iacute;stica actual.&nbsp; Son el paradigma sobre el que se asienta toda la estad&iacute;stica matem&aacute;tica.<br /><br />Es por esto que la variable aleatoria es el concepto que cualquiera que quiera tratar con datos estad&iacute;sticos debe entender a fondo, si no quiere echar mano a las mismas /herramientas/ ante cualquier situaci&oacute;n.<br /><br />A menudo, cuando surge el tema de la estad&iacute;stica como asignatura universitaria, surge la idea de la dificultad de esta asignatura en las carreras universitarias. La raz&oacute;n principal por la que creo que esto sucede tiene que ver con el concepto de las variables aleatorias.&nbsp; Es decir, que no se explica adecuadamente.<br /><br />En muchas carreras se trabaja sobre un punto de partida: el control. A&nbsp; partir de ah&iacute;, hay que explicar la forma como ese control se puede perder.&nbsp; En ese contexto, la estad&iacute;stica pierde parte de su sentido. Ense&ntilde;ar un contraste de hip&oacute;tesis sobre el paradigma del control es como narrar una pel&iacute;cula s&oacute;lo con letras vocales.<br /><br />La estad&iacute;stica (al menos la probabil&iacute;stica) parte de otra premisa: supongamos que todo tiene su componente aleatorio; que todo se mueve.&nbsp; A partir de este supuesto, analicemos la forma como se presenta esta aleatoriedad para establecer unas bases para un control que tiene tolerancia a los errores.<br /><br />&iquest;Parece lo mismo? No se parece en nada.<br /> <h2>Del principito a la campana de Gauss</h2><p>En el cuento de Saint-Exupery, el Principito se harta de ense&ntilde;ar el dibujo que los mayores identifican como un sombrero, cuando en realidad &eacute;l dice que es una serpiente que se ha tragado a un elefante.&nbsp; La gente se echa a re&iacute;r.</p><p>En la historia, la diferencia de visiones sobre el mismo dibujo es una muestra de la distancia entre los que se han acostumbrado a ver la realidad de un modo, y los que la perciben de un modo diferente, planteando que quiz&aacute; lo esencial sea invisible.</p><p>Eso es lo que sucede cuando se trata de tratar con variables aleatorias.&nbsp; Todo el mundo puede entender lo que es una <a href="http://es.wikipedia.org/wiki/Campana_de_Gauss" title="Campana de Gauss">campana de Gauss</a>  porque la ve. Sin embargo, a menudo cuesta entender que nunca nos encontraremos cara a cara con una muestra de datos reales que sean id&eacute;nticos a esta campana.&nbsp; Argumentar que necesitar&iacute;amos un n&uacute;mero infinito de datos empeora el tema.</p><p>Porque, claro, relacionar la campana de Gauss con probabilidades, tiene su intr&iacute;ngulis.&nbsp; Hay que entender c&oacute;mo la serpiente se ha podido tragar al elefante.</p><p>Las bases de la estad&iacute;stica probabil&iacute;stica surgieron en los salones de juego de cartas.&nbsp; Comprender que se repet&iacute;an ciertos patrones y frecuencias inspir&oacute; a matem&aacute;ticos como Pascal a analizar matem&aacute;ticamente lo que suced&iacute;a en esas situaciones.</p><p>As&iacute;, lo que acaba convertido en f&oacute;rmulas (la serpiente) fue fruto de numerosos an&aacute;lisis matem&aacute;ticos sobre datos reales, o cuanto menos, supuestos plausibles (los elefantes).&nbsp; En matem&aacute;ticas es posible que una serpiente (una f&oacute;rmula matem&aacute;tica) pueda tragarse un elefante (cada uno de los infinitos casos reales). Aunque tenga un cierto sabor Freudiano, las <em>serpientes estad&iacute;sticas</em> se crean para poder tragar elefantes.<br /></p><h2>Del punto a la l&iacute;nea</h2><p>Pasemos a un ejemplo.&nbsp; Piensa en un puntero l&aacute;ser, de esos que a veces se utilizan en presentaciones. Es un peque&ntilde;o artilugio que emite una luz muy concentrada que proyecta a una cierta distancia sin dispersarse.&nbsp; Imag&iacute;nalo enfocado hacia una pared, mostrando en ella el punto rojo.</p><p>Ahora imag&iacute;nate que lo est&aacute;s moviendo creando una forma concreta (un c&iacute;rculo, una elipse, un ocho...).&nbsp; Lo mueves cada vez m&aacute;s r&aacute;pido, m&aacute;s r&aacute;pido...&nbsp; A medida que aumentas la velocidad, tu ojo deja de ver el punto en movimiento. Si consigues moverlo muy r&aacute;pido, ver&aacute;s una l&iacute;nea continua, una figura.</p><p>Graba esa forma en tu mente.&nbsp; Si fueras capaz de mover tan r&aacute;pido el puntero como para situarlo al azar en alg&uacute;n lugar concreto de esa l&iacute;nea continua, tienes algo muy parecido a una variable aleatoria.</p><p>De alg&uacute;n modo, las variables aleatorias son eso: <strong>puntos que se mueven</strong> de un modo que les es caracter&iacute;stico, pero cuya ubicaci&oacute;n individual no es totalmente predecible: <strong>s&oacute;lo probable</strong>.</p><h2>Bajando a la realidad</h2><p>Como dec&iacute;a una profesora de filosof&iacute;a (admiradora de Plat&oacute;n para m&aacute;s se&ntilde;as): &quot;<em>bajar del mundo de las ideas a la realidad es un palo de tal calibre</em>...&quot;.</p><p>La realidad quiz&aacute; no sea tan dura si nos la tomamos a sorbos.&nbsp; Nuestros sentidos est&aacute;n acostumbrados a recoger s&oacute;lo una parte de la informaci&oacute;n que fluye en el ambiente, y nuestro cerebro es capaz de resaltarnos lo importante.&nbsp; Su funcionamiento no es perfecto, pero tiene un objetivo claro: tomar decisiones para mantenernos vivos.</p><p>Esa imperfecci&oacute;n es suficiente para decidir. Y de eso mismo trata la estad&iacute;stica. Ni necesitamos ni somos capaces de absorber toda la informaci&oacute;n: podemos decidir con menos. La cuesti&oacute;n es saber cu&aacute;nta informaci&oacute;n necesitamos para que acertar sea muy probable.</p><p>En nuestro d&iacute;a a d&iacute;a, la /figura/ nunca aparece completa. Lo &uacute;nico que nos encontramos son puntos que no sabemos en qu&eacute; figura encajan. La labor estad&iacute;stica es encontrar la forma donde mejor encajan esos puntos.</p><p>Lo habitual es que con un solo punto no sea suficiente.&nbsp; Hay que seleccionar unos cuantos para tener una idea de la figura m&aacute;s parecida.&nbsp; Es un ejercicio parecido al de &quot;<em>unir los puntos</em>&quot;, pero en versi&oacute;n matem&aacute;tica.</p><p>El proceso que nos conduce del punto a la figura pasa por dos fases principales:</p><ul><li>Seleccionar la m&iacute;nima cantidad de puntos que nos den la m&aacute;xima informaci&oacute;n posible.&nbsp; Este proceso es el denominado <strong>muestreo estad&iacute;stico</strong>.</li><li>Comparar la serie de puntos con las diferentes figuras (las distribuciones estad&iacute;sticas). A este proceso se le llama <a href="http://es.wikipedia.org/wiki/Contraste_de_hip%C3%B3tesis" title="Contraste de Hip&oacute;tesis">contraste de hip&oacute;tesis</a> .</li></ul><p>Tanto el muestreo como el contraste son dos puntos clave que unen los datos (realidad emp&iacute;rica) con las distribuciones estad&iacute;sticas a las que puede ajustarse la variable aleatoria (teor&iacute;a anal&iacute;tica).</p><p>La raz&oacute;n para recorrer este camino es que al identificar la forma, podemos trabajar sobre una base (te&oacute;rica) m&aacute;s s&oacute;lida y tomar decisiones con m&aacute;s criterio.</p><p>Por retornar al s&iacute;mil con la historia del principito: Si sabemos la forma que tiene el elefante, seremos capaces de saber si estamos tocando la cola, la trompa o una pata, y ya no andaremos tan a ciegas.<br /></p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26818/variables-aleatorias-semilla-estadistica</link><pubDate>Mon, 23 Feb 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[Muestreo estad&iacute;stico]]></title><description><![CDATA[Quiz&aacute; este art&iacute;culo podr&iacute;a resumirse diciendo que el muestreo estad&iacute;stico es algo similar a una fotograf&iacute;a, pero dirigido a los datos, no a las im&aacute;genes.<br /><br />Bueno, ya est&aacute;. Ha quedado claro &iquest;no? Si es as&iacute;, d&eacute;jame pensar: no te dedicas a la fotograf&iacute;a, &iquest;verdad? Un conocedor de este arte podr&iacute;a argumentar: &quot;en fotograf&iacute;a hay muchos estilos, t&eacute;cnicas y herramientas&quot;.&nbsp; En el muestreo tambi&eacute;n, s&oacute;lo que un buen resultado no luce tanto <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-wink.gif" border="0" alt="Gui&ntilde;o" title="Gui&ntilde;o" />.<br /><br />El muestreo estad&iacute;stico es la toma de contacto con la realidad antes de llevar la muestra al <em>laboratorio</em>.&nbsp; Desde el punto de vista te&oacute;rico de las matem&aacute;ticas puras, es un <em>mal necesario</em>.&nbsp; Pero desde el punto de vista del trabajo de campo y del an&aacute;lisis emp&iacute;rico, escoger el tipo de muestreo estad&iacute;stico es todo un arte.<br /><br />Y desde luego, es un arte que va mucho m&aacute;s all&aacute; que el muestreo aleatorio simple.<br /> <h2>Pel&iacute;cula, c&aacute;mara, luz, plano, encuadre...</h2><p>Reduciendo al m&iacute;nimo las partes implicadas, se podr&iacute;a hablar de tres elementos en el proceso de muestreo-fotograf&iacute;a:</p><ul><li>El entorno que es objeto de nuestro an&aacute;lisis: No es para nada homog&eacute;neo y adem&aacute;s puede variar con el tiempo. Para complicarlo m&aacute;s, convive con elementos que pueden distorsionar nuestra percepci&oacute;n.</li><li>Las herramientas que utilizamos para capturar los datos de ese entorno: Considerando un grado asumible de imperfecci&oacute;n, tienen unas caracter&iacute;sticas que conocemos y podemos utilizar en nuestro favor.</li><li>El sujeto que quiere capturar los datos con un objetivo concreto: No la quiere por s&iacute; misma, sino para extraer algo: una visi&oacute;n sintetizada de ese entorno y sus implicaciones.<br /></li></ul><p>En fotograf&iacute;a los elementos distorsionadores pueden ser la luz (exceso o defecto) y el movimiento.&nbsp; En el muestreo, la distorsi&oacute;n est&aacute;tica puede crear un <a href="http://es.wikipedia.org/wiki/Sesgo" title="Sesgo"><em>sesgo</em></a>  en los datos (fotograf&iacute;a muy clara o muy oscura, con colores m&aacute;s o menos saturados), mientras que la distorsi&oacute;n din&aacute;mica debida al movimiento genera <strong><em>ruido</em></strong>.</p><p>En el caso de las herramientas, huelga decir que la calidad de la <em>c&aacute;mara</em> afecta al resultado de forma determinante.&nbsp; Dependiendo de las exigencias, la calidad es un punto importante. El sistema &oacute;ptico es clave, as&iacute; como la velocidad del obturador y el angular.&nbsp; Tambi&eacute;n lo es la pel&iacute;cula utilizada: su granularidad y la sensibilidad, junto al enfoque, definen la precisi&oacute;n de los detalles.</p><p>Y finalmente nos queda el sujeto, que imprime su car&aacute;cter al acto de fotografiar y al resultado.&nbsp; A nivel estad&iacute;stico, la visi&oacute;n art&iacute;stica queda a un lado para dejar paso a <strong>m&eacute;todos de muestreo</strong>.&nbsp; Lo que sucede a menudo es que hay muchas opciones para decidir c&oacute;mo se muestrea. En ese punto entra en juego la visi&oacute;n del sujeto, el objetivo del an&aacute;lisis y los medios con que cuenta.&nbsp; Y lo m&aacute;s importante de todo es que, como en el arte, el equilibrio entre lo <em>bello</em> a lo <em>terrible</em> es fr&aacute;gil.</p><p>La combinaci&oacute;n de estos tres elementos es lo que puede convertir el muestreo en una mera rutina o en un arte.&nbsp; La rutina intentar&aacute; desde&ntilde;ar los elementos distorsionadores del entorno y centrarse en los datos utilizando las m&iacute;nimas herramientas, pero... es importante plantearse algunas preguntas:<br /></p><ul><li>&iquest;Y si resulta que <strong>la distorsi&oacute;n del entorno potencia algo</strong> que yo quiero analizar?</li><li>&iquest;Puedo <strong>alterar el entorno</strong> para que simplifique la recogida de datos?</li><li>&iquest;Si recogo una muestra <strong>destruyo el entorno que quiero analizar</strong>? Si es as&iacute;, &iquest;puedo <strong>muestrear de forma indirecta</strong>?</li><li>Por extensi&oacute;n a lo anterior, &iquest;Hay alg&uacute;n dato en el entorno m&aacute;s f&aacute;cil de capturar y que sea un buen <a href="http://www.sopadebits.com/content/view/indicadores-el-ajo-dorado" title="Indicadores - Sopadebits">indicador</a> de lo que yo quiero analizar?</li><li>&iquest;Tengo datos anteriores que me ayuden a <strong>capturar partes concretas con m&aacute;s precisi&oacute;n</strong> para luego hacer un <em>collage</em>?</li><li>&iquest;Existen elementos <strong>mon&oacute;tonos o repetitivos</strong>?<br /></li></ul><p>Combinando estas t&eacute;cnicas se han desarrollado una gran cantidad de m&eacute;todos de muestreo, adaptados a casos diversos, pero con un objetivo: recoger la m&iacute;nima muestra posible y extraer la m&aacute;xima informaci&oacute;n de ella.</p><p>La lista de m&eacute;todos de muestreo no es para nada cerrada.&nbsp; Lo que sucede a menudo es que los diferentes m&eacute;todos se combinan. Eso s&iacute;, inventarse un m&eacute;todo de muestreo no es algo balad&iacute;, la base matem&aacute;tica&nbsp; que hay tras un m&eacute;todo es muy intensa. </p><h2>M&aacute;s all&aacute; del muestreo aleatorio simple</h2><p>Ahora daremos un salto hacia el periodismo.&nbsp; Durante un rato ser&aacute;s un reportero/a que recorre las calles en busca de opiniones sobre noticias de actualidad.&nbsp; Hoy te ha tocado ir a un par de barrios.&nbsp; Antes de salir de la redacci&oacute;n te topas con un compa&ntilde;ero que te dice: &quot;<em>en barrio A todos piensan exactamente lo mismo sobre este tema.&nbsp; En el barrio B las opiniones son m&aacute;s diversas, pero m&aacute;s extremas que en el A</em>&quot;.</p><p>Con esta informaci&oacute;n, y dado que quieres hacer un reportaje lo m&aacute;s representativo posible (pero cuanto antes acabes mejor), te preguntas: &iquest;Cu&aacute;ntas opiniones recojo de cada barrio?&nbsp; La l&oacute;gica lleva a pensar que en el barrio A s&oacute;lo vas a entrevistar a una sola persona (la segunda te dir&aacute; lo mismo que la primera), y en el barrio B, las que puedas recoger el resto del tiempo.</p><p>El resultado es que tardas una hora menos de lo habitual en recoger opiniones, con lo que llegas antes a casa. Eso s&iacute;, antes de tumbarte a hacer la siesta te apuntas en la agenda que debes un caf&eacute; a ese compa&ntilde;ero.</p><p>En los procesos de muestreo <em>sencillos</em>, el aprovechamiento de esa informaci&oacute;n se obvia en detrimento del muestreo aleatorio simple.&nbsp; En el caso de la reportera, eso equivale a recoger el mismo n&uacute;mero de opiniones en los barrios A y B, con la consecuencia que obtienes *menos variedad* de opiniones con m&aacute;s esfuerzo.</p><p>Por lo tanto, el <a href="http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica#Muestreo_aleatorio_simple" title="Wikipedia - Muestreo / Muestreo aleatorio simple">muestreo aleatorio simple</a>  es el primer escal&oacute;n en las t&eacute;cnicas de muestreo, pero por ello el menos eficiente.&nbsp; Si tienes informaci&oacute;n sobre la estructura del entorno, puedes aprovecharla y ahorrarte esfuerzo.&nbsp; Algunas de las posibilidades son:<br /></p><ul><li>El entorno est&aacute; diferenciado en conjuntos totalmente separados.&nbsp; En ese caso puedes utilizar el <strong><em>muestreo estratificado</em></strong>. Lo que vas a hacer es recoger cantidades diferentes de ese estrato, y luego hacer una <em>media ponderada</em> de acuerdo con el peso de cada estrato en la poblaci&oacute;n total. Ejemplos de estratos son la diferenciaci&oacute;n por sexos, o edad, o nivel de ingresos.<br /></li><li>Hay divisi&oacute;n de conjuntos, cada uno de los cuales es heterog&eacute;neo en su interior, y parecido al resto. Es decir, que tienes peque&ntilde;as muestras representativas de todo el conjunto.&nbsp; En ese caso puedes utilizar el <strong><em>muestreo por conglomerados</em></strong>. Los conglomerados son lo opuesto a los estratos. Un ejemplo de conglomerado ser&iacute;an poblaciones de tama&ntilde;o similar: en todas podemos encontrar su plaza, ayuntamiento, iglesia, su parte antigua y probablemente una parte nueva.&nbsp; Esta repetici&oacute;n casi sistem&aacute;tica ayuda a tratar unos pocos pueblos representativos y luego trasladar los resultados al conjunto. </li><li>El entorno genera (o emite) elementos en serie, de forma r&iacute;tmica y totalmente predecible. En ese caso, puedes aprovechar ese <em>ritmo</em> para aplicar un <strong><em>muestreo sistem&aacute;tico</em></strong>.&nbsp; Este muestreo divide los elementos en grupos y selecciona uno o m&aacute;s de cada subgrupo. En esencia es similar al muestreo aleatorio simple, s&oacute;lo que la forma de muestreo puede depender de las caracter&iacute;sticas de la /serie/.</li><li>Lo que quieres analizar es mucho m&aacute;s complejo de observar que otro elemento con el que tiene una relaci&oacute;n causa-efecto.&nbsp; En ese caso puedes aplicar un <strong><em>muestreo de raz&oacute;n (o de ratio)</em></strong>.&nbsp; Observando el segundo puedes deducir el primero por su correlaci&oacute;n.<br /></li></ul><p>Estos sistemas de muestreo se pueden combinar y superponer seg&uacute;n la complejidad de lo observado.&nbsp; Por ejemplo, se puede analizar un primer nivel por conglomerados (&aacute;rboles frutales) y luego establecer un muestreo de raz&oacute;n (frutas por rama), si eso reduce la muestra considerablemente. En este caso, cuanta menos muestra escojamos mejor, ya que cada fruta recogida para analizar su calidad es una fruta menos producida. </p><h2>Comentarios finales</h2><p>El muestreo es un arma de doble filo.&nbsp; Es el medio que acercar&aacute; nuestras conclusiones a la realidad, y tambi&eacute;n el principal factor de distorsi&oacute;n por un uso indebido.&nbsp; Los trabajos de campo y muestreos son la comidilla de los argumentarios antiestad&iacute;sticos.</p><p>Siempre es importante tener en cuenta que el usuario da valor a la herramienta, por lo que no se puede afirmar la veracidad de un estudio sin saber su m&eacute;todo. Lo que s&iacute; es posible afirmar es que la selecci&oacute;n correcta del m&eacute;todo de muestro garantiza buenas conclusiones con poco esfuerzo.</p><p>A todo esto, s&oacute;lo me queda a&ntilde;adir un detalle.&nbsp; En el caso de las encuestas y estudios sociales con personas, hay otro elemento a&ntilde;adido: el cuestionario.&nbsp; Este elemento es parte de la caja de herramientas de la estad&iacute;stica, y otro punto clave.&nbsp; Pero esto, si lo considero oportuno, ya ser&aacute; motivo de otro art&iacute;culo.<br /></p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26817/muestreo-estadistico</link><pubDate>Thu, 19 Feb 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[El t&eacute;cnico de proximidad]]></title><description><![CDATA[<h2>Mirando lo que hay cerca</h2><br />Cuando uno se encuentra en una conversaci&oacute;n con usuarios de servicios que requieren cierta habilidad t&eacute;cnica por su parte (lo habitual es la inform&aacute;tica pero hay otros ejemplos), es bastante probable que surjan comentarios sobre la dificultad inherente a la materia.  Salvo excepciones, esa es precisamente la raz&oacute;n por la que existen los perfiles profesionales &quot;t&eacute;cnicos&quot;.<br /><br />Por la naturaleza de las tareas t&eacute;cnicas (precisan el conocimiento de unas habilidades para recorrer el camino entre la necesidad y el objetivo), no siempre se puede deducir que siempre sean encomendables a profesionales t&eacute;cnicos.  Algunas de estas tareas forman una peque&ntilde;a parte del trabajo que alguien debe llegar a cabo. <h2>La productividad de las peque&ntilde;as cosas</h2><p><br />Las tareas t&eacute;cnicas que tengo en mente ocupan el mismo lugar que fre&iacute;r un huevo, abrocharse una camisa o cambiar una bombilla.  Contratar a un cocinero, un sastre o un lampista para hacer estas tareas es posible, pero poco eficiente.<br /><br />Precisamente en estas &quot;peque&ntilde;as cosas&quot; (ahora s&iacute;, hablo de inform&aacute;tica) es donde uno toma el pulso de la introducci&oacute;n de las tecnolog&iacute;as y en c&oacute;mo afectan a la productividad (y quiz&aacute; tambi&eacute;n a la motivaci&oacute;n). Mi conclusi&oacute;n personal es que el pulso mejora, pero a&uacute;n es d&eacute;bil.<br /><br />Aunque la penetraci&oacute;n del ADSL, los m&oacute;viles y de los servicios web puedan ser buenos indicadores de inter&eacute;s, no lo son necesariamente de resultados. Creo que el componente de usuario pasivo&nbsp;  es el principal factor del alza en el uso de estos servicios.</p><p>A <strike>todos</strike> muchos nos han ense&ntilde;ado a abrocharnos una camisa o a cambiar una bombilla, pero en el terreno tecnol&oacute;gico eso no ha sucedido de la mejor manera ni de una forma estructurada.  Este d&eacute;ficit se soluciona teniendo cerca a alguien &quot;entendido&quot; en la materia. Desde el&nbsp; denominado&quot; pringao&quot;, hasta el compa&ntilde;ero de trabajo habilidoso con el rat&oacute;n y el teclado, el que siempre nos soluciona el mismo problema porque nunca recordamos c&oacute;mo lo resolvi&oacute;.<br /><br />Cuando veo de cerca lo mucho que podr&iacute;an mejorar algunas situaciones de manejo de ordenadores, me planteo c&oacute;mo se podr&iacute;a mejorar la calidad de vida, tanto de los usuarios como de sus compa&ntilde;eros habilidosos.  De ah&iacute; la idea del <strong>t&eacute;cnico de proximidad</strong>. El t&eacute;rmino es m&aacute;s apropiado por proximidad que por t&eacute;cnico, pero en cualquier caso es un t&eacute;rmino y nada m&aacute;s. </p><h2>C&oacute;mo definir las tareas del t&eacute;cnico de proximidad</h2>Definiendo los primeros rasgos de un t&eacute;cnico de proximidad (TP), es necesario delimitar las competencias y funciones teniendo claro lo que hace o no este perfil.  Los rasgos principales del ser o no ser de este perfil podr&iacute;an ser.<br /><h3>Funciones del TP</h3><ul><li>Detectar las deficiencias de los usuarios, e identificar las formas de correcci&oacute;n de las competencias (formaci&oacute;n, motivaci&oacute;n, organizaci&oacute;n).</li><li>Sentar las bases de un plan para mejorar la productividad de cada persona delante de un ordenador, enfoc&aacute;ndose especialmente en el aumento de la confianza hacia el uso del PC y sus programas.</li><li>Ense&ntilde;ar los peque&ntilde;os trucos que reducen significativamente el tiempo en tareas, especialmente las m&aacute;s repetitivas y mon&oacute;tonas.</li><li>Trabajar con trucos mnemot&eacute;cnicos, &quot;refcards&quot;, chuletas, how-tos cortos (y principalmente visuales), o dudas habituales, que sirvan de soporte.  Deben ser elementos de referencia r&aacute;pida, nada de manuales.</li><li>Proponer mejoras en el entorno de trabajo, programas o equipos para aumentar la productividad y el bienestar.</li><li>En cierto modo, ser invisible hasta que detecta que es necesario.</li><li>Dinamizar el intercambio de &quot;trucos&quot; entre usuarios. Los mejores trucos pueden surgir de la serendipia durante la rutina diaria. En ese momento el TP puede detectar qui&eacute;n hace las cosas diferentes y trasladarlas al resto.</li><li>En caso que la empresa contrate desarrollos de aplicaciones a medida, detectar la forma de trabajar para trasladarla al an&aacute;lisis de estas aplicaciones (participando activamente), y luego en el testeo (seleccionando los usuarios m&aacute;s adecuados testear y diagnosticar la usabilidad).</li></ul><h3>Funciones que no son del TP</h3><ul><li>Resolver problemas t&eacute;cnicos, si no es que se ha establecido as&iacute;.</li><li>Convertirse en un loro-diccionario de trucos: El truco est&aacute; ah&iacute; y todo el mundo puede escucharlo, pero repetirlo cada vez que lo preguntan es algo contranatura: si el truco interesa el usuario se acuerda, y en caso contrario puede seguir haci&eacute;ndolo como siempre.</li><li>Pulular sin rumbo.  Mejor estar sentado leyendo alg&uacute;n informe o un documento antes que pasear sin m&aacute;s.</li><li>Ser un formador puro y duro. Su papel est&aacute; en el <em>learning by doing</em> de los usuarios.  La estandarizaci&oacute;n se construir&aacute; por la misma organizaci&oacute;n (sobreviven las tareas m&aacute;s &uacute;tiles), y no en un manual.</li><li>Hacer la tarea por el usuario, salvo que las circunstancias obliguen (urgencia, imprevistos, potencial p&eacute;rdida de datos, riesgo de seguridad, etc.).</li><li>Ser generador de estigmas (burl&aacute;ndose de los errores ajenos) o convertirse en el &quot;vigilante de los ineptos&quot;.</li><li>Posicionarse como experto o gur&uacute;.  Es m&aacute;s, creo que el mejor perfil de TP puede ser el de un usuario avanzado que ha superado las fases de aprendizaje &uacute;tiles para el resto.<br /></li></ul>Creo que con esto es suficiente para definir los rasgos principales.  Mantener el perfil sencillo permite desarrollarlo seg&uacute;n evolucione cada caso concreto.<br /><br /><h2>Consecuencias, ciclos y evoluci&oacute;n</h2><p>No me cabe duda que la introducci&oacute;n de este perfil ayudar&iacute;a en muchas organizaciones a mejorar la productividad.  Pero la productividad es un fin que tambi&eacute;n pasa por la motivaci&oacute;n, el inter&eacute;s, los conocimientos y la organizaci&oacute;n del trabajo.<br /><br />En caso de conseguir que la mayor&iacute;a de miembros de una organizaci&oacute;n se impliquen en la iniciativa, las mejoras no tardar&aacute;n en llegar. Quien quiere aprender cuestiones &uacute;tiles de la inform&aacute;tica, aprende r&aacute;pido dentro de sus posibilidades.  Tardar la mitad de tiempo en realizar una tarea mon&oacute;tona es un incentivo suficiente (siempre que el objetivo no sea perder el tiempo).<br /><br />Despu&eacute;s de conseguir estas mejoras b&aacute;sicas pero palpables, la funci&oacute;n y los objetivos del TP pueden diluirse.  A&uacute;n definiendo un plan a medio plazo, la vistosidad de los primeros cambios disminuye. En ese momento alguien puede preguntarse para qu&eacute; necesitan saber m&aacute;s, si con lo aprendido ya han mejorado.<br /><br />Este ciclo de aceleraci&oacute;n-freno es natural, y puede ser interesante consolidar lo aprendido aplic&aacute;ndolo a servicios de ocio (utilizar la tecnolog&iacute;a en el plano personal), utilidades del &aacute;mbito personal, o similares.  Aumentar las formas de uso de una utilidad mejora el h&aacute;bito y refuerza la memoria de uso.<br /><br />A largo plazo, el papel del TP se integrar&aacute; tanto en la organizaci&oacute;n que desaparecer&aacute; o bien se implicar&aacute; directamente en las tareas internas.  Lo primero puede suceder si la organizaci&oacute;n tiene profesionales sobradamente competentes en su actividad, y que han asimilado lo necesario para reforzar sus habilidades t&eacute;cnicas.  Lo segundo puede suceder si la direcci&oacute;n se percata de lo valioso que puede ser alguien que ha visto trabajar a los empleados y los conoce muy de cerca. Los casos que no buscan lo mejor para todos no merecen ser mencionados.<br /></p><p>Lo que no creo que sea beneficioso es que este perfil se institucionalice indefinidamente, ya que en ese momento perder&aacute; la espontaneidad. La proximidad con el resto de usuarios desaparecer&aacute;, siendo este factor el m&aacute;s importante para el TP.<br /><br />Por desgracia, no veo cerca la introducci&oacute;n formal de este perfil en el mercado laboral, por lo que es posible que todos aquellos que han asumido informalmente estas funciones lo sigamos haciendo.  &iexcl;Qu&eacute; l&aacute;stima! Seguiremos teniendo ratos de total improductividad, aunque a veces muy enriquecedores ;-).</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26816/tecnico-proximidad</link><pubDate>Wed, 04 Feb 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[Del gestor de contenidos al gestor de publicaciones (I)]]></title><description><![CDATA[En uno de esos (pocos) ratos libres que he tenido &uacute;ltimamente, he tratado de analizar los elementos clave que diferencian un gestor de contenidos (<a href="http://es.wikipedia.org/wiki/Cms" target="_blank" title="Wikipedia: CMS">Content Management System - CMS</a> ) de un gestor de publicaciones (Publication Management System - PMS).<br /><br />Creo que a medida que el entorno web vaya madurando como canal de difusi&oacute;n y promoci&oacute;n, el primero ceder&aacute; terreno al segundo, aunque seguramente convivir&aacute;n. Lo que explico a continuaci&oacute;n es un peque&ntilde;o an&aacute;lisis de las caracter&iacute;sticas que creo que puede tener un PMS con vistas a medio plazo. No llega a ser un an&aacute;lisis funcional, se queda en las puertas. De todos modos, si ahorra un poco de trabajo a alguien, habr&aacute; tenido utilidad publicarlo.<br /> <h2>&iquest;CMS + Empaquetamiento = PMS?<br /></h2><br />Entiendo el CMS en su concepto m&aacute;s extendido, que no el m&aacute;s formal.  Para el caso que me ocupa, entiendo el gestor de contenidos como una herramienta de producci&oacute;n, organizaci&oacute;n y difusi&oacute;n de contenidos que por lo general se encuentra tras la parte visible de un sitio web.  Estos procesos suelen tener lugar bajo intervenci&oacute;n humana, aplicando unos criterios de control para su publicaci&oacute;n o despublicaci&oacute;n. El centro del gestor de contenidos es cada unidad de contenido (noticias, art&iacute;culos, encuestas, etc.).<br /><br />Claro que esta definici&oacute;n incluye sitios tan dispares estructuralmente como pueden ser los grandes portales o los blogs.  A nivel de organizaci&oacute;n humana ambos casos pueden ser muy distintos, pero a nivel funcional son sistemas bastante similares. Suele suceder que a ra&iacute;z de lo primero se a&ntilde;ada capas de control y complejidad a lo segundo, pero al fin y al cabo, la esencia es la misma.<br /><br />El gestor de publicaciones (siempre bajo mi punto de vista) da un paso m&aacute;s all&aacute;.  Para empezar, el centro del gestor de publicaciones son las publicaciones mismas.  Entiendo las publicaciones como el resultado de empaquetar y agregar los contenidos seg&uacute;n criterios editoriales, de tem&aacute;tica o seg&uacute;n tipos de contenido (no tanto por el formato sino por la forma de uso: texto, sonido, imagen, o audiovisual, con/sin interacci&oacute;n, etc.).<br /><br />Este concepto de publicaci&oacute;n tambi&eacute;n tiene un sentido muy amplio, incluyendo a portales en general, microsites, RSS, alertas o boletines. Tampoco estoy diferenciando respecto al formato final de la publicaci&oacute;n ni el canal de difusi&oacute;n. De hecho, planteo el concepto de la gesti&oacute;n de publicaciones como una generalizaci&oacute;n de la gesti&oacute;n de contenidos (incluir lo que tiene un CMS, y a&ntilde;adir funcionalidades encima).<br /><br />Por ejemplo, en un CMS puede ser habitual aplicar restricciones de acceso a contenidos concretos.  Estas restricciones se realizan por el control de acceso de usuarios, que pueden tener o no una fecha de caducidad.  Pero esa posibilidad se convierte en caracter&iacute;stica casi b&aacute;sica en un PMS, y habitualmente est&aacute; relacionada con la gesti&oacute;n de suscripciones (especialmente cuando se env&iacute;a por e-mail), e indicadores (en el mismo caso del env&iacute;o de e-mail, est&aacute; el ratio de retornos de email o los mensajes no abiertos por el destinatario).<br /><br /><h2>Entrada+Proceso+Salida = Fuentes+(Selecci&oacute;n &oacute; Producci&oacute;n)+Difusi&oacute;n</h2>Hay algo m&aacute;s que puede diferenciar al gestor de publicaciones en relaci&oacute;n a un gestor de contenidos: publicar en varios sitios a la vez, disponiendo de un sistema de difusi&oacute;n centralizado.  Un PMS no es s&oacute;lo un sistema de empaquetamiento de contenidos, sino un sistema de difusi&oacute;n general.<br /><br />La combinaci&oacute;n de este sistema centralizado y una difusi&oacute;n multicanal, con variedad de formatos (desde HTML hasta PDF, RSS, XML o incluso impresi&oacute;n), y protocolos (HTTP/Web, e-mail, SOAP/XMLRPC) permitir&iacute;a adaptar un PMS a una gran variedad de estrategias de producci&oacute;n de contenidos.<br /><br />Otro paso m&aacute;s all&aacute; que se deriva del anterior: &iquest;Qui&eacute;n dice que un sistema de publicaciones ha de referirse a &quot;mis publicaciones&quot; y no a las publicaciones de terceros? Creo que un completo sistema de publicaciones ha de incluir un sistema de captura y agregaci&oacute;n de contenidos externos.  Los entornos de producci&oacute;n de contenidos no deben ser necesariamente un punto de partida: la creaci&oacute;n de contenidos a menudo surge de procesar y rumiar informaci&oacute;n. Integrando la captura de informaci&oacute;n en el mismo espacio donde luego creamos nuevos contenidos simplifica las tareas de referenciar, enlazar, revisar y organizar.<br /><br /><h2>Destinatarios de un PMS</h2><br />Ante estas caracter&iacute;sticas, el PMS se convierte en una herramienta apta para muchos p&uacute;blicos.  Desde luego est&aacute;n los p&uacute;blicos tradicionales, que ya utilizan un CMS y que quieran dar un paso m&aacute;s.  Pero se pueden incluir otros perfiles que no utilizan un CMS porque su actividad en Internet es mucho m&aacute;s fragmentaria que mantener un solo sitio, o bien porque no se centran s&oacute;lo en difundir, sino tambi&eacute;n en seleccionar, organizar y gestionar.  Por poner algunos ejemplos de perfiles interesados en estas funcionalidades, se me ocurren los siguientes:<br /><ul><li><strong>Periodistas independientes</strong>, o <strong>productores de contenido</strong> para empresas ajenas que quieren organizar su producci&oacute;n en un solo entorno, para luego enviarlo a cada uno de sus clientes.</li><li><strong>Newsmasters</strong> (<a href="http://www.masternewmedia.org/2004/02/19/the_birth_of_the_newsmaster.htm" target="_blank" title="MasterNewMedia: Newsmasters">ese flamante perfil profesional</a> ), que trabajan filtrando y seleccionando noticias para varios sitios.</li><li><strong>Servicios de agregaci&oacute;n</strong> y <strong>alertas personalizadas</strong>.</li><li><strong>Agencias de publicidad y comunicaci&oacute;n</strong>, que promocionan productos de sus clientes a trav&eacute;s de microsites, boletines &oacute; e-mail marketing.</li><li><strong>Grupos de comunicaci&oacute;n</strong> (desde prensa &quot;tradicional&quot; hasta redes de blogs) que desean centralizar su gesti&oacute;n interna en un mismo entorno de trabajo.</li><li>Servicios de <a href="http://es.wikipedia.org/wiki/Inteligencia_empresarial" title="Wikipedia: Inteligencia empresarial (Business Intelligence)">inteligencia competitiva</a>  que precisen la captura de informaci&oacute;n y la realizaci&oacute;n de &quot;reports&quot;.<br /></li></ul>En estos perfiles presentan caracter&iacute;sticas que determinan los requerimientos del gestor de publicaciones:<br /><ul><li>Disponer de lo necesario para la producci&oacute;n interna de contenidos.</li><li>Poder gestionar la selecci&oacute;n y filtrado de fuentes externas, para combinarlo con la producci&oacute;n propia.</li><li>Aplicar la herramienta para el uso interno de una organizaci&oacute;n o bien para dar servicios a terceros.</li><li>Disociar la gesti&oacute;n de contenidos (la trastienda) de su difusi&oacute;n (la tienda) y su presentaci&oacute;n (el escaparate) desde el punto de vista org&aacute;nico: quien trabaja con los contenidos no necesariamente debe diferenciar el trabajo seg&uacute;n el canal de difusi&oacute;n o sobre c&oacute;mo se presentar&aacute;n.</li><li>Incluir los criterios de filtro y agrupaci&oacute;n de usuarios como un elemento clave en los criterios de difusi&oacute;n.</li></ul>Con estos criterios es posible empezar a profundizar en un an&aacute;lisis m&aacute;s a fondo. <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26814/gestor-contenidos-gestor-publicaciones-i</link><pubDate>Tue, 27 Jan 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[Del gestor de contenidos al gestor de publicaciones (II)]]></title><description><![CDATA[<h2>Caracterizar o etiquetar los tipos de publicaciones</h2><br />La flexibilidad de la difusi&oacute;n es el factor que m&aacute;s puede determinar las capacidades de un PMS as&iacute;.  Es f&aacute;cil dejarse llevar por definiciones generales sobre los tipos de publicaciones. Pero es dif&iacute;cil que eso concuerde con una realidad (especialmente en el canal on-line), porque cada caso es distinto y la personalizaci&oacute;n est&aacute; en el orden del d&iacute;a.<br /><br />Aunque los par&aacute;metros que configuran una publicaci&oacute;n se repiten en muchos casos, a veces pueden ser imprescindibles y en otros superfluos, y que unas peque&ntilde;as variaciones sobre estos par&aacute;metros configuran una publicaci&oacute;n totalmente diferente.<br /><br />Al analizar el desarrollo de una aplicaci&oacute;n as&iacute;, podemos tomar la realidad que conocemos y utilizar &quot;tipos&quot; de publicaciones, o bien desglosar estos &quot;tipos&quot;, detectar sus par&aacute;metros y analizar c&oacute;mo pueden variar.<br /><br />La primera alternativa tiene la ventaja de ser m&aacute;s r&aacute;pida de conseguir (ergo m&aacute;s barata si hay que desarrollar una aplicaci&oacute;n), y el inconveniente que puede conducir a una soluci&oacute;n r&iacute;gida y poco adaptable a los cambios.  La segunda alternativa tiene un punto de partida m&aacute;s complejo, corre el riesgo de obviar alguna caracter&iacute;stica importante, y de no ser exhaustivo, pero a su vez permite mejorar la flexibilidad del resultado final.<br /><br />No hay soluci&oacute;n &uacute;nica, depende de cada caso.  Yo escojo la segunda.<br /> <h2>Par&aacute;metros b&aacute;sicos</h2><br />Observando los ejemplos que corren por donde he llegado, y combinando esto con los casos que he vivido de cerca, creo que hay una lista de par&aacute;metros clave. No pretende ser una lista exhaustiva, pero s&iacute; significativa en la mayor&iacute;a de casos.<br /><br /><ul><li>Respecto al sistema de empaquetado:</li><ul><li>Sin empaquetado. Los contenidos van por libre en un listado continuo.</li><li>Empaquetado de portada/resumen, con acceso al detalle o listado de contenidos no encapsulados (archivo de contenidos).</li><li>Empaquetado por entrega (<em>issue</em>).</li></ul><li>Qui&eacute;n establece el criterio de selecci&oacute;n</li><ul><li>Decisi&oacute;n editorial/interna.</li><li>Personalizaci&oacute;n del usuario.</li><li>Combinaci&oacute;n de ambas.</li></ul><li>C&oacute;mo se establece el criterio de selecci&oacute;n</li><ul><li>L&iacute;nea editorial</li><li>Tem&aacute;tica</li><li>Filtros por otros campos (autor&iacute;a, coincidencia full-text, etc)</li></ul><li>Periodicidad de actualizaci&oacute;n</li><ul><li>Flujo continuo: en cuanto el contenido est&aacute; disponible se difunde (a modo de stream)</li><li>Cronol&oacute;gica (cada X horas/d&iacute;as/semanas/meses...)</li><li>Seg&uacute;n el volumen (cuando al menos hay X contenidos disponibles).</li><li>Sin periodicidad: Sitios est&aacute;ticos que no actualizan sus contenidos.</li></ul><li>Niveles de acceso (cada nivel debe combinarse con un criterio de control de acceso):</li><ul><li>Publicaci&oacute;n general / portada.</li><li>Secci&oacute;n / Apartado / Tem&aacute;tica.</li><li>Detalle del contenido.</li><li>Archivo/hemeroteca de contenidos antiguos.</li></ul><li>Criterios de control de acceso (deben combinarse con los niveles de acceso):</li><ul><li>Totalmente abierto (usuarios an&oacute;nimo).</li><li>Restricci&oacute;n de acceso por cuentas de usuario.</li><li>Restricci&oacute;n de acceso por perfiles de usuario.</li><li>Restricci&oacute;n por caducidad (suscripciones gratuitas o de pago)</li><li>Restricci&oacute;n por pago (pay per view)</li></ul><li>Organizaci&oacute;n de los contenidos:</li><ul><li>L&iacute;neas editoriales / Secciones.</li><li>Formatos o tipos de contenidos.</li><li>Tem&aacute;tica (categor&iacute;as, etiquetas, etc).</li><li>Otros elementos y campos (fuente, autor&iacute;a, coincidencia full-text, etc)</li></ul><li>Canal de difusi&oacute;n/distribuci&oacute;n:</li><ul><li>HTTP (Web,RSS,etc): visualizaci&oacute;n en el navegador o similar.</li><li>e-mail: visualizaci&oacute;n en el cliente de correo.</li><li>SOAP/XMLRPC (visualizaci&oacute;n determinada por el solicitante)</li><li>Impresi&oacute;n.</li><li>Otros (La lista puede ser muy larga)</li></ul><li>Formato:</li><ul><li>HTML</li><li>RSS (+HTML)</li><li>PDF u otros formatos binarios</li><li>Impreso</li></ul><li>Destinatarios (target):</li><ul><li>Usuarios visitantes (difusi&oacute;n pasiva).</li><li>Suscriptores aceptados.</li><li>Clientes potenciales (con o sin filtro de segmentaci&oacute;n)</li></ul><li>An&aacute;lisis de la interacci&oacute;n:</li><ul><li>Ning&uacute;n an&aacute;lisis (al raro hoy en d&iacute;a).</li><li>An&aacute;lisis b&aacute;sico: Uso de variables b&aacute;sicas como p&aacute;ginas vistas, Visitas, Usuarios &uacute;nicos, tasas de rebote...</li><li>An&aacute;lisis por segmentos: Combinaci&oacute;n de variables b&aacute;sicas para identificar tipolog&iacute;as de usuarios.</li><li>Objetivos de navegaci&oacute;n: Visita a una p&aacute;gina determinada sin necesidad de realizar acciones adicionales.</li><li>Objetivos por acciones: Alta de suscripci&oacute;n, respuesta a encuestas, rellenado de un formulario, compra de producto...</li></ul><li>Posibilidad de personalizaci&oacute;n:</li><ul><li>Ninguna personalizaci&oacute;n.</li><li>Personalizaci&oacute;n general basada en contenidos, l&iacute;neas editoriales, tem&aacute;ticas u otra informaci&oacute;n del sistema.</li><li>Segmentaci&oacute;n general por grupos de personas.</li><li>Personalizaci&oacute;n sin datos hist&oacute;ricos por usuario.</li><li>Personalizaci&oacute;n con datos hist&oacute;ricos del usuario (tasas de impacto en difusiones anteriores).<br /></li></ul></ul><p>Repasando los aspectos m&aacute;s habituales de lo que me he encontrado en distintos sitios, y tambi&eacute;n en proyectos en los que he trabajado, creo que las caracter&iacute;sticas anteriores forman el n&uacute;cleo de par&aacute;metros necesarios para configurar casi cualquier tipo de publicaci&oacute;n.</p><p>Tomando como base esta aproximaci&oacute;n, una publicaci&oacute;n se crea a partir de la combinaci&oacute;n de caracter&iacute;sticas anteriores (y otras que no est&eacute;n aqu&iacute;).  El nombre que recibe al final es una simple an&eacute;cdota.</p><p>No todos los factores pueden combinarse de forma indiscriminada.  Por ejemplo, es complejo  (y seguramente nada c&oacute;modo) utilizar el control de acceso por suscripciones si el formato de difusi&oacute;n es RSS. Al establecer los par&aacute;metros b&aacute;sicos lo que se permite es que la configuraci&oacute;n sea flexible, tras lo cual hay que establecer restricciones para casos concretos como el del ejemplo.<br /></p><h2>Otros aspectos <br /></h2><p>Hay aspectos que no considero cr&iacute;ticos en la configuraci&oacute;n de una publicaci&oacute;n pero que son importantes en el resultado final.<br /><br />Por ejemplo, he descartado la posibilidad de analizar los criterios de dise&ntilde;o y maquetaci&oacute;n de una publicaci&oacute;n.  En este caso, lo m&aacute;s habitual es trabajar sobre una plantilla general que se desglosa en cajas.  </p><p>Sobre este punto creo que para tener una base s&oacute;lida, la aplicaci&oacute;n debe diferenciar el aspecto visual en <em>vistas</em> (por utilizar la terminolog&iacute;a del <a href="http://es.wikipedia.org/wiki/Modelo_Vista_Controlador" target="_blank" title="Wikipedia: Modelo Vista Controlador">MVC</a> ).  Este detalle y la decisi&oacute;n sobre qu&eacute; campos mostrar en cada nivel de la publicaci&oacute;n deben depender de la gesti&oacute;n de vistas, y no del control interno.  Evidentemente determinan el resultado final de la publicaci&oacute;n, pero no configuran la publicaci&oacute;n como bloque de trabajo.</p><p>Adem&aacute;s puede ser inter&eacute;s trabajar con diferentes vistas para una misma publicaci&oacute;n (un caso t&iacute;pico son los <em>themes</em> que tienen aplicaciones como Wordpress o Joomla), o introducir vistas predeterminadas que luego sean configurables (algo por ejemplo disponible en Drupal, donde es posible cambiar los colores principales en los temas que lo permiten). </p><p>Otros aspectos que hay que tener en cuenta en el nivel de la vista es la posibilidad de  incrustar widgets y otras cajas con contenidos/servicios externos (si el objetivo implica un mashup).  El caso m&aacute;s obvio es el de la publicidad.  No deber&iacute;a ser necesario generar un tipo de contenido &quot;banner&quot; teniendo opciones libres como <a href="www.openx.org" title="OpenX">OpenX</a> , o bien opciones conocidas como AdSense. Tambi&eacute;n ser&iacute;a interesante <a href="http://www.human-computer.net/blog/2009/01/27/pintar-datos/" title="HCNet: Pintar datos">pintar datos</a> utilizando <a href="http://www.sopadebits.com/extranet/content/view/open-flash-chart-graficos-estadisticos-open-source" title="Sopa de Bits: Open Flash Chart - Gr&aacute;ficos estad&iacute;sticos Open Source">gr&aacute;ficos estad&iacute;sticos</a>  que dependan de aplicaciones externas.<br /></p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26815/gestor-contenidos-gestor-publicaciones-ii)</link><pubDate>Tue, 27 Jan 09 00:00:00 +0100</pubDate></item><item><title><![CDATA[La asimilaci&oacute;n de informaci&oacute;n en la era digital]]></title><description><![CDATA[<p>Lo leo a menudo.&nbsp; Parece que es una cuesti&oacute;n general y he de aceptar que en parte a m&iacute; tambi&eacute;n me sucede.&nbsp; Pero en el fondo no estoy de acuerdo.</p><p>Me refiero a la t&oacute;nica general de afirmar que <strong>el entorno digital debilita nuestra capacidad de leer pacientemente un libro o, en general, de asimilar nuevos conocimientos</strong>. En el contexto de esta afirmaci&oacute;n <a href="http://listserv.rediris.es/cgi-bin/wa?A2=ind0808c&amp;L=iwetel&amp;D=1&amp;T=0&amp;O=D&amp;P=1103" title="Iwetel: Sera que Google nos est&aacute; volviendo est&uacute;pidos">acostumbra a aparecer la palabra Google como parte de la causa</a> .</p><p>De acuerdo con que el acceso a tanta informaci&oacute;n es algo que nos ha afectado en la forma de asimilar la informaci&oacute;n.&nbsp; Sin embargo, el ruido ambiental no nos debe dejar necesariamente sordos, especialmente cuando podemos filtrarlo. Si el ruido informacional es el r&iacute;o revuelto, todos somos pescadores de nuestra potencial ganancia...<br /></p> <h2>Asimilaci&oacute;n y usabilidad</h2><p>Entiendo que asimilar o aprender es usar la informaci&oacute;n de forma que resuelva un conflicto cognitivo a cualquier nivel.&nbsp; Y aunque pueda parecer un abuso del lenguaje, yo deduzco que <strong>asimilar implica analizar la usabilidad de un conocimiento para nuestros objetivos</strong>.</p><p>La relevancia es una de las herramientas que hay que saber usar para aprender. Lo que sucede es que hasta el momento la relevancia ha aparecido como algo muy inherente a la unidad informativa (el documento) y a un canal de distribuci&oacute;n muy concreto (el proceso editorial).</p><p>Ahora hay m&aacute;s palancas que calibrar en el momento de valorar la relevancia de un contenido.&nbsp; Una informaci&oacute;n llega estructurada y ponderada de mil formas diferentes, por gran variedad de fuentes y canales, y con enfoques a veces dif&iacute;ciles de conciliar.</p><p><strong>La estructura de red a trav&eacute;s de la cual se est&aacute; difundiendo la informaci&oacute;n no garantiza que &eacute;sta nos llegue antes ni mejor: s&oacute;lo aumenta la garant&iacute;a de que nos llegar&aacute;</strong>.&nbsp; Al romperse la cadena lineal de la edici&oacute;n y producci&oacute;n de contenidos, la primera cuesti&oacute;n a plantearse no creo que sea si la calidad de &eacute;stos disminuye (aunque tambi&eacute;n lo hagamos), sino la cantidad de informaciones que se han perdido cuando los canales de difusi&oacute;n eran tan reducidos.</p><p>Es por eso que el contexto en el que esa informaci&oacute;n se ha creado afecta mucho m&aacute;s que anta&ntilde;o. Pero no tanto por el hecho que exista un autor original que la crea, sino por el potencial de difusi&oacute;n que tiene esa informaci&oacute;n en la nueva situaci&oacute;n. Y de ello se deriva la <strong>dificultad de ponderar la relevancia en un ambiente ruidoso</strong>.</p><p>Si el movimiento se demuestra andando, la asimilaci&oacute;n se demuestra escribiendo y releyendo.</p><h2>Para el lector infoxicado: escribe y relee</h2><p>Bea ya lo comentaba hace un tiempo: <a href="http://elprincipiodeincertidumbre.net/blog/2008/06/06/blog-por-prescripcion-medica/" title="El principio de incertidumbre: blog por prescripci&oacute;n m&eacute;dica">escribir forma parte de la terapia</a> . Quiz&aacute; no sea desde el punto de vista que ella lo enfoca, porque tampoco es necesario convertirse en blogger para superar un trauma.&nbsp; Pero estoy convencido que escribir ayuda a asimilar mejor la informaci&oacute;n.</p><p>El hecho de escribir conlleva entender la dificultad de estructurar una idea de modo que sea inteligible para uno mismo y para los dem&aacute;s.&nbsp; Leer lo escrito nos hace entender lo complejo que es salir de nosotros para aportar algo (no s&oacute;lo a los dem&aacute;s, sino a uno mismo) y comprobar que siempre hay lagunas. Por encima de todo tambi&eacute;n nos obliga a escoger lo necesario y descartar lo superficial: <strong>la verborrea le&iacute;da es mucho m&aacute;s indigesta si la crea uno mismo</strong>.</p><p>Lo m&aacute;s importante de todo, es que este ejercicio nos traslada al <em>tempo</em> de quien escribe.&nbsp; Si lees este art&iacute;culo y no escribes a menudo, quiz&aacute; te sorprenda saber que lo que t&uacute; lees en apenas tres minutos, yo he tardado sesenta en escribirlo. Los pensamientos que se tienen en tres minutos o en sesenta son tan diferentes (especialmente si cambiamos del ritmo de escribir al de leer) que es obvia la dificultad de asimilar.</p><p>Releer lo propio nos transporta al tempo de escribir: quiz&aacute; as&iacute; sepamos asimilar mejor.&nbsp; No es necesario leer al ritmo que se escribe, pero s&iacute; es necesario asimilar con ese ritmo. El eco de la lectura es como el movimiento para separar la paja del grano: un movimiento hacia arriba, y que las cosas caigan por su propio peso. Se puede repetir el movimiento tanto como apetezca, pero a un ritmo suficientemente lento como para no acabar hundidos en un pajar.</p><h2>Filtrar es cuesti&oacute;n de tiempo</h2><p>Al cambiar ese ritmo tambi&eacute;n sucede algo inesperado: nos damos cuenta que quiz&aacute; lo que leemos no merezca tanto nuestro tiempo. El tiempo es escaso, quiz&aacute; lo &uacute;nico realmente escaso para aprender: el saber no ocupa lugar, pero ocupa tiempo. Si esa sensaci&oacute;n de perder el tiempo se tiene a menudo para una misma fuente o canal, ya tenemos una conclusi&oacute;n: la fuente no es interesante para nuestro conocimiento.</p><p>Escribir y releer es la base para mejorar la usabilidad de nuestro conocimiento <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-wink.gif" border="0" alt="Gui&ntilde;o" title="Gui&ntilde;o" />.</p><p>Todo lo comentado es una reflexi&oacute;n personal, a la que desde luego me gustar&iacute;a adjuntar vuestros comentarios... aunque sea para decir que no vali&oacute; la pena perder vuestro tiempo <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-cry.gif" border="0" alt="Llorando" title="Llorando" />.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26813/asimilacion-informacion-era-digital</link><pubDate>Fri, 19 Sep 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[An&aacute;lisis web com Piwik y GNU R (II)]]></title><description><![CDATA[<p>En el anterior post he comentado los conceptos b&aacute;sicos de las anal&iacute;ticas web y los condicionantes principales sobre estas anal&iacute;ticas que permiten o dificultan su obtenci&oacute;n.&nbsp; Por otro lado introduje los elementos b&aacute;sicos del tratamiento de anal&iacute;ticas web con Piwik. <br /></p><p>En este post voy a comentar una serie de consultas SQL sobre la base de datos de Piwik que servir&aacute;n para obtener informaci&oacute;n b&aacute;sica sobre los datos recopilados por la aplicaci&oacute;n.</p> <h2>Consideraciones previas</h2><p>El tratamiento de datos viene precedido por una fase de trastienda que consiste en la limpieza de datos. Esta limpieza de datos no consiste en eliminar lo que no queramos saber: se trata de s&oacute;lo escoger los datos que son necesarios para los objetivos que se plantea el an&aacute;lisis.</p><p>Incluso en la colecci&oacute;n de datos que nos interesa, es habitual encontrar datos defectuosos fruto de la recogida de informaci&oacute;n (el trabajo de campo) que tambi&eacute;n deben ser eliminados para conseguir una mayor fiabilidad de la informaci&oacute;n.</p><p>En el siguiente ejemplo descarto datos de acuerdo con los objetivos que me planteo, pero no hago una limpieza posterior, con una doble intenci&oacute;n: comprobar que es necesario, y ver que los datos err&oacute;neos tambi&eacute;n tienen unas caracter&iacute;sticas propias, que son detectables con m&eacute;todos estad&iacute;sticos b&aacute;sicos. <br /></p><h2>Objetivos</h2><p>El objetivo principal de la extracci&oacute;n de datos es analizar la afluencia de tr&aacute;fico que se generan a partir de los enlaces que pongo en los posts, y verificar si hay variaciones substanciales entre enlaces.</p><p>Este an&aacute;lisis podr&iacute;a dar paso a b&uacute;squedas posteriores para determinar si existe alguna relaci&oacute;n entre tales enlaces y sus caracter&iacute;sticas propias (n&uacute;mero de palabras del enlace, t&eacute;rminos utilizados en el enlace) como ajenas (posici&oacute;n en el conjunto del texto, posici&oacute;n dentro del p&aacute;rrafo, posici&oacute;n en una frase). De todos modos este estudio m&aacute;s complejo que dejo al margen para otras ocasiones. <br /></p><h2>Extrayendo datos de Piwik</h2><br />Con una consola o cliente de MySQL se pueden recuperar los datos anteriores.&nbsp; Vale la pena (obviamente) realizar el an&aacute;lisis en una m&aacute;quina diferente a la que almacena los datos, si es que la m&aacute;quina est&aacute; totalmente en funcionamiento.<br /><br />Por ahora vamos a extraer una serie de datos para tener una idea de la informaci&oacute;n que hay almacenada en la base de datos.<br /><br />Empezaremos por comprobar cu&aacute;ntas salidas genera el blog hacia otros sitios. Para ello, ejecuto la consulta:<br /><br />SELECT pla.name,count(*) salidas FROM `piwik_log_visit` plv inner join piwik_log_action pla on plv.visit_exit_idaction=pla.idaction WHERE pla.name like &#39;http%&#39; and pla.name not like &#39;%sopadebits.com%&#39; group by visit_exit_idaction order by salidas desc<br /><br />La consulta selecciona los nombres de los sitios que han recibido visitas desde un enlace en mi blog.&nbsp; Para detectar los sitios externos, filtro los datos teniendo en cuenta que el campo name de la tabla piwik_log_action empiece por &quot;http&quot; [pla.name like &#39;http%&#39;] y que no contengan el dominio del post [pla.name not like &#39;%sopadebits.com%&#39;]. Ordeno el resultado seg&uacute;n la cantidad de visitas (de m&aacute;s a menos):<br /><br />El resultado es parecido a:<br /><br /><table border="1" cellpadding="0" width="596" height="199"><tbody><tr><td>idaction <br /></td><td>&nbsp;URL</td><td>Visitas <br /></td></tr><tr><td>&nbsp;6</td><td>http://teethgrinder.co.uk/open-flash-chart</td><td>&nbsp;27</td></tr><tr><td>&nbsp;24</td><td>http://www.um.es/dp-lengua-espa/revista/vol7/relevancia.pdf</td><td>&nbsp;6</td></tr><tr><td>&nbsp;31</td><td>http://articles.techrepublic.com.com/5100-10877_11-6160661.html</td><td>&nbsp;5</td></tr><tr><td>&nbsp;135</td><td>http://jlibrary.sourceforge.net</td><td>&nbsp;3</td></tr><tr><td>&nbsp;106</td><td> http://www.vectorsite.net/tsawk_3.html</td><td>&nbsp;3</td></tr><tr><td>&nbsp;11</td><td>http://jlibrary.sourceforge.net/12/screencast3.html</td><td>&nbsp;2</td></tr><tr><td>&nbsp;53</td><td>http://espanol.answers.yahoo.com/question/index?qid=20070723132213AA3U5yy</td><td>&nbsp;2</td></tr><tr><td>&nbsp;107</td><td>&nbsp;http://www.deakialli.com/2007/09/13/bibliotecas-publicas-servicios-electronicos-de-informacion-y-web-social</td><td>&nbsp;2</td></tr><tr><td>&nbsp;</td><td>&nbsp;...</td><td>&nbsp;...</td></tr></tbody></table><p>Ahora quiero comprobar si alguno de los enlaces m&aacute;s solicitados est&aacute; recibiendo una relaci&oacute;n de salidas m&aacute;s alta que los otros. Es decir, quiero medir el&nbsp; <a href="http://en.wikipedia.org/wiki/Click-through_rate" title="Wikipedia English: click-through rate">ratio de click-through</a>. Para eso voy a hacer dos consultas: primero, averiguar qu&eacute; p&aacute;ginas de mi blog dirigen hacia estos enlaces, y luego consultar el n&uacute;mero de visualizaciones de estas p&aacute;ginas.</p><p>Dividiendo el n&uacute;mero de visualizaciones por el n&uacute;mero de salidas, tendr&eacute; el ratio de click-through. El primer paso se consigue con la consulta siguiente: </p><p align="left"><em>select distinct pllva.idaction_ref,pllva.idaction from piwik_log_action pla inner join piwik_log_link_visit_action pllva on pla.idaction=pllva.idaction_ref where pllva.idaction in (6, 24, 31, 135, 106, 11, 53, 107)</em></p><p>Ahora tenemos que los enlaces anteriores salen de las siguientes p&aacute;ginas:</p><table border="1" id="table_results"><thead><tr><th align="left">name </th><th> idaction_ref </th><th class="condition"> idaction </th></tr> </thead>         <tbody>     <tr class="odd">     <td>content/view/open-flash-chart-graficos-estadisticos-open-source</td>     <td class="nowrap" align="right">5</td>     <td class="condition nowrap" align="right">6</td> </tr>                  <tr class="even">     <td>content/view/jlibrary-gestor-documental-open-source</td>     <td class="nowrap" align="right">10</td>     <td class="condition nowrap" align="right">11</td> </tr>                  <tr class="odd">     <td>content/view/organizacion-de-la-informacion-personal-eliminando-archivos-duplicados</td>     <td class="nowrap" align="right">30</td>     <td class="condition nowrap" align="right">31</td> </tr>                  <tr class="even">     <td>content/view/normalizacion-distancias-normalizadas</td>     <td class="nowrap" align="right">7</td>     <td class="condition nowrap" align="right">53</td> </tr>                  <tr class="odd">     <td>content/view/teoria-de-la-relevancia-en-linguistica</td>     <td class="nowrap" align="right">8</td>     <td class="condition nowrap" align="right">24</td> </tr>                  <tr class="even">     <td>http://www.um.es/dp-lengua-espa/revista/vol7/relevancia.pdf</td>     <td class="nowrap" align="right">24</td>     <td class="condition nowrap" align="right">24</td> </tr>                  <tr class="odd">     <td>content/view/www.themedicieffect.com</td>     <td class="nowrap" align="right">61</td>     <td class="condition nowrap" align="right">107</td> </tr>                  <tr class="even">     <td>content/view/efecto-medici-innovacion-interdisciplinar</td>     <td class="nowrap" align="right">27</td>     <td class="condition nowrap" align="right">107</td> </tr>                  <tr class="odd">     <td>content/view/trabajando-con-subversion-y-awk</td>     <td class="nowrap" align="right">12</td>     <td class="condition nowrap" align="right">106</td> </tr>                  <tr class="even">     <td>http://www.vectorsite.net/tsawk_3.html</td>     <td class="nowrap" align="right">106</td>     <td class="condition nowrap" align="right">106</td> </tr>                  <tr class="odd">     <td>content/view/jlibrary-gestor-documental-open-source</td>     <td class="nowrap" align="right">10</td>     <td class="condition nowrap" align="right">135</td> </tr>                  <tr class="even">     <td>content/view/descargas</td>     <td class="nowrap" align="right">17</td>     <td class="condition nowrap" align="right">6</td> </tr>                  <tr class="odd">     <td>extranet/content/view/open-flash-chart-graficos-estadisticos-open-source</td>     <td class="nowrap" align="right">144</td>     <td class="condition nowrap" align="right">6</td></tr></tbody></table><p>En esta tabla, <em>idaction_ref</em> es el id de la p&aacute;gina de origen, e i<em>daction</em> se corresponde con los enlaces externos.&nbsp; Por lo tanto, tenemos que las p&aacute;ginas del blog que enlazan a los recursos anteriores tienen los id de acci&oacute;n [5,10,30,7,8,24,61,27,12,106,10,17,144]. </p><p>De todos modos, en estos datos nos encontramos con dos temas:</p><ul><li>vemos que las acciones 5 y 144 son equivalentes.</li><li>Vemos que las acciones 24 y 106 vuelven a ellas mismas, lo que sin duda es un error (quiz&aacute; debido a un doble click del usuario mientras se procesa la consulta o algo por el estilo).</li></ul><p>Las acciones 5 y 144 se tratar&aacute;n pues como una sola entrada, mientras que&nbsp; las acciones&nbsp; 24 y 106 deben eliminarse de la lista. Esto indica que un proceso de limpieza deber&iacute;a eliminar los datos cuyos valores de <em>idaction</em> e <em>idaction</em>_ref coinciden.</p><p>Nos quedamos entonces con los &iacute;tems&nbsp; [5,10,30,7,8,61,27,12,10,17,144].&nbsp; Ahora queda ejecutar la consulta para las p&aacute;ginas vistas de cada &iacute;tem:</p><p align="left"><em>select pla.idaction,pla.name,count(*) paginas_vistas from piwik_log_link_visit_action pllva inner join piwik_log_action pla on pllva.idaction=pla.idaction where pla.idaction in (5,10,30,7,8,61,27,12,10,17,144) group by pla.name order by paginas_vistas desc </em><br /></p><p>La consulta devuelve un resultado como el siguiente (agrupando las acciones 5 y 144):</p><table border="1" id="table_results">         <tbody>     <tr><td><strong>&nbsp;idaction</strong></td><td><strong>name</strong></td><td><strong>&nbsp;paginas_vistas</strong></td></tr><tr class="odd">     <td>&nbsp;5+144</td><td>content/view/open-flash-chart-graficos-estadistico...</td>     <td class="nowrap" align="right">354</td> </tr>                  <tr class="even">     <td>&nbsp;7</td><td>content/view/normalizacion-distancias-normalizadas</td>     <td class="nowrap" align="right">158</td> </tr>                  <tr class="odd">     <td>&nbsp;30</td><td>content/view/organizacion-de-la-informacion-person...</td>     <td class="nowrap" align="right">149</td> </tr>                  <tr class="even">     <td>&nbsp;8</td><td>content/view/teoria-de-la-relevancia-en-linguistic...</td>     <td class="nowrap" align="right">97</td> </tr>                  <tr class="odd">     <td>&nbsp;12</td><td>content/view/trabajando-con-subversion-y-awk</td>     <td class="nowrap" align="right">96</td> </tr>                  <tr class="even">     <td>&nbsp;27</td><td>content/view/efecto-medici-innovacion-interdiscipl...</td>     <td class="nowrap" align="right">56</td> </tr>                  <tr class="odd">     <td>&nbsp;10</td><td>content/view/jlibrary-gestor-documental-open-sourc...</td>     <td class="nowrap" align="right">44</td> </tr>                  <tr class="even">     <td>&nbsp;17</td><td>content/view/descargas</td>     <td class="nowrap" align="right">42</td> </tr>                                    <tr class="even">     <td>&nbsp;61</td><td>content/view/www.themedicieffect.com</td>     <td class="nowrap" align="right">8</td> </tr>                                    </tbody></table><p>Combinando esta tabla y la de visitas por URL, tenemos un ratio de click-through entre p&aacute;ginas y enlaces:</p><p>&nbsp;            <!--   @page { size: 21cm 29.7cm; margin: 2cm }   P { margin-bottom: 0.21cm }  -->    <table border="1" cellspacing="0" cellpadding="2" width="606" height="289">            <tbody><tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;<strong>idaction</strong></p>   </td>   <td width="324">    <p align="left"><strong>name</strong></p>   </td>   <td width="95">    <p align="left">&nbsp;<strong>pag_vistas</strong></p>   </td>   <td width="117">    <p align="left"><strong>enlaces_salientes</strong></p>   </td>   <td width="82">    <p align="left"><strong>%CTR</strong></p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;5</p>   </td>   <td width="324">    <p align="left">content/view/open-flash-chart-graficos-estadistico...</p>   </td>   <td width="95">    <p align="right">354</p>   </td>   <td width="117">    <p align="right">29</p>   </td>   <td width="82">    <p align="right">8,19%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;7</p>   </td>   <td width="324">    <p align="left">content/view/normalizacion-distancias-normalizadas</p>   </td>   <td width="95">    <p align="right">158</p>   </td>   <td width="117">    <p align="right">3</p>   </td>   <td width="82">    <p align="right">1,90%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;30</p>   </td>   <td width="324">    <p align="left">content/view/organizacion-de-la-informacion-person...</p>   </td>   <td width="95">    <p align="right">149</p>   </td>   <td width="117">    <p align="right">5</p>   </td>   <td width="82">    <p align="right">3,36%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;8</p>   </td>   <td width="324">    <p align="left">content/view/teoria-de-la-relevancia-en-linguistic...</p>   </td>   <td width="95">    <p align="right">97</p>   </td>   <td width="117">    <p align="right">6</p>   </td>   <td width="82">    <p align="right">6,19%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;12</p>   </td>   <td width="324">    <p align="left">content/view/trabajando-con-subversion-y-awk</p>   </td>   <td width="95">    <p align="right">96</p>   </td>   <td width="117">    <p align="right">3</p>   </td>   <td width="82">    <p align="right">3,13%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;27</p>   </td>   <td width="324">    <p align="left">content/view/efecto-medici-innovacion-interdiscipl...</p>   </td>   <td width="95">    <p align="right">56</p>   </td>   <td width="117">    <p align="right">2</p>   </td>   <td width="82">    <p align="right">3,57%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;10</p>   </td>   <td width="324">    <p align="left">content/view/jlibrary-gestor-documental-open-sourc...</p>   </td>   <td width="95">    <p align="right">44</p>   </td>   <td width="117">    <p align="right">6</p>   </td>   <td width="82">    <p align="right">13,64%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;17</p>   </td>   <td width="324">    <p align="left">content/view/descargas</p>   </td>   <td width="95">    <p align="right">42</p>   </td>   <td width="117">    <p align="right">0</p>   </td>   <td width="82">    <p align="right">0,00%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;61</p>   </td>   <td width="324">    <p align="left">content/view/www.themedicieffect.com</p>   </td>   <td width="95">    <p align="right">8</p>   </td>   <td width="117">    <p align="right">2</p>   </td>   <td width="82">    <p align="right">25,00%</p>   </td>  </tr> </tbody></table> </p><p>De lo anterior hay que sacar muchas conclusiones, pero especialmente una: antes de tratar con datos estad&iacute;sticos es necesario hacer una purga que s&oacute;lo nos deje con los datos necesarios de acuerdo con unos objetivos. </p><p>Por ejemplo, el enlace 61 es claramente un error, probablemente debido a un error en la introducci&oacute;n del enlace.&nbsp; El click-through que presenta puede ser debido a que el usuario trata de accede r repetidas veces al enlace. Es probable que se pudiera unificar con la acci&oacute;n 27 (el post sobre el efecto Medici), y que los dos clicks fueran porque el usuario vuelve a intentar el enlace. </p><p>El c&aacute;lculo aporta informaci&oacute;n interesante, aunque no significativa.&nbsp; De lo anterior s&oacute;lo&nbsp; los tres primeros enlaces tienen datos suficientes como para sacar alguna conclusi&oacute;n. Entre ellos cabe destacar en positivo el enlace de open-flash-chart y en negativo el de las distancias normalizadas.</p><p>Sobre el resto, precisamente el enlace del Medici Effect aporta informaci&oacute;n interesante...&nbsp; pero <strong>para corregir errores</strong>. Esto en s&iacute; mismo es interesante porque el detectar que el ratio&nbsp; var&iacute;a bastante (aunque es poco significativo por los pocos datos). &Eacute;ste es un caso determinado nos induce a pensar que algo sucede. Pero no era el objetivo de estas consultas.</p><p>Tambi&eacute;n cabe comentar que todo este proceso podr&iacute;a haberse realizado con una sola consulta, m&aacute;ximo dos.&nbsp; En cualquier caso estas consultas no ser&iacute;an eficientes en un servidor a pleno rendimiento. <br /></p>El siguiente paso (en otro art&iacute;culo) ser&aacute; extraer datos globales de las relaciones entre enlaces para realizar un an&aacute;lisis basado en cadenas de Markov. Para eso utilizaremos el paquete estad&iacute;stico GNU R. <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26811/analisis-web-com-piwik-gnu-r-ii</link><pubDate>Tue, 16 Sep 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[An&aacute;lisis web com Piwik y GNU R (I)]]></title><description><![CDATA[<p>Las anal&iacute;ticas web son un recurso cada vez m&aacute;s valorado en los proyectos web que se precian, en el sentido m&aacute;s estricto del t&eacute;rmino.&nbsp; Cuando existe un objetivo econ&oacute;mico (aunque no siempre monetario), cualquier informaci&oacute;n sobre la conducta del usuario es de valor.</p><p>Las herramientas de anal&iacute;ticas web recogen estos datos en base a la informaci&oacute;n proporcionada desde el servidor y el cliente (navegador).&nbsp; En el lado del servidor se recopilan datos relativos a la petici&oacute;n (desde la fecha y la p&aacute;gina solicitada, hasta la IP o el navegador del usuario), mientras que en el lado del servidor se almacenan algunos datos del equipo del usuario (tama&ntilde;o de pantalla, colores, plugins del navegador) y la conducta del usuario (tiempo en la p&aacute;gina)... <br /></p> <p>La principal debilidad en el lado del cliente es que la recogida de estos datos funciona con javascript, por lo que si el navegador lo tiene desactivado, estos datos no se recogen. (Ref. a diferencias entre log servidor y cliente).</p><p>Para organizar esta informaci&oacute;n, normalmente se estructura en base a usuarios, visitas, y p&aacute;ginas vistas.&nbsp; Hay <a href="http://www.webanalyticsassociation.org/attachments/committees/5/WAA-Standards-Analytics-Definitions-Volume-I-20070816.pdf" title="Web Analytics Association - Definitions">un documento con definiciones muy bien planteadas (PDF)</a>&nbsp; para esta informaci&oacute;n b&aacute;sica en el <a href="http://www.webanalyticsassociation.org/" title="Web Analytics Association">sitio de la Web Analytics Association</a>.&nbsp; Para estructurar esta informaci&oacute;n se utiliza como elemento base el c&oacute;digo de sesi&oacute;n. Este c&oacute;digo es un valor &uacute;nico que el navegador del usuario almacena en su <a href="http://es.wikipedia.org/wiki/Cookie" title="Wikipedia en Espa&ntilde;ol: cookie">cookie</a> .</p><p>Normalmente el servidor elimina los datos de sesi&oacute;n al cabo de un tiempo despu&eacute;s del a &uacute;ltima petici&oacute;n del usuario (pocos minutos por lo general), mientras que el navegador puede borrar la cookie cuando caduque o cuando el usuario lo solicite.&nbsp; La diferencia entre la informaci&oacute;n a nivel cliente y servidor es el quebradero de cabeza para desglosar usuarios y visitas.&nbsp; Sabemos con bastante fiabilidad cu&aacute;ndo se inicia o se acaba una visita, pero no podemos tener claro si una nueva visita se corresponde con un usuario anterior si la cookie se ha borrado.</p><p>En cambio, si la cookie existe, volver&aacute; a enviar el c&oacute;digo de la &uacute;ltima visita.&nbsp; El gestor de anal&iacute;ticas habr&aacute; almacenado este c&oacute;digo para poder identificar a ese usuario, y aunque le asigne un c&oacute;digo nuevo, ya dispondr&aacute; de una relaci&oacute;n entre dos visitas.</p><p>A este embrollo hay que a&ntilde;adir que un equipo no se corresponde con un usuario.&nbsp; Los cibercaf&eacute;s, los PCs en centros acad&eacute;micos y el ordenador &quot;de la familia&quot; son ejemplos claros de este hecho.&nbsp; Por lo tanto, la fiabilidad de los usuarios &uacute;nicos es relativa, mientras que las p&aacute;ginas vistas y las visitas son datos mucho m&aacute;s fiables.</p><p>Con estos tres niveles de datos se pueden extraer informaciones interesantes.&nbsp; Algunas de ellas son indicadores de sobra conocidos, como las p&aacute;ginas por visita, tiempo entre dos visitas de un usuario, p&aacute;ginas m&aacute;s vistas, etc.<br /> <br /> Hasta aqu&iacute; la teor&iacute;a b&aacute;sica de las anal&iacute;ticas web.&nbsp; Hay muchos recursos al respecto, el problema es filtrar qu&eacute; recursos son m&aacute;s interesantes.</p><h2>Uso de Piwik</h2><p> El siguiente paso es tener acceso a estos datos.&nbsp; Hay variedad de formas, aunque los m&aacute;s conocidos son el an&aacute;lisis de logs del servidor (an&aacute;lisis transaccional). Dado que puede interesar disponer de m&aacute;s informaci&oacute;n que la que proporciona el servidor, yo voy a utilizar los datos que proporciona la aplicaci&oacute;n Piwik, una herramienta de c&oacute;digo abierto desarrollada con PHP y con licencia GPL que permite acceder a esta informaci&oacute;n ya estructurada en una base de datos MySQL.</p><p>Visto lo anterior, escojo <a href="http://piwik.org/" title="Piwik">Piwik</a>  como herramienta de anal&iacute;tica web porque me permite acceder de forma estructurada a los datos, pero hay otras que tambi&eacute;n permiten esas funcionalidades. Est&aacute; por ejemplo <a href="http://www.phpmyvisites.us/" title="PHPMyVisites">PHPMyVisits</a> , que incluye adem&aacute;s una funcionalidad para obtener el <em>heatmap</em> de clics de los usuarios (integrando <a href="http://www.labsmedia.com/clickheat/index.html" title="Labsmedia: Clickheat">ClickHeat</a>  desarrollado por <a href="http://www.labsmedia.com/" title="LabsMedia">labsmedia</a> ).</p><p>Volviendo a Piwik, su web proporciona una imagen sencilla de su _esquema de la base de datos_ que almacena la informaci&oacute;n de la aplicaci&oacute;n.&nbsp; En este esquema, hay que destacar tres tablas, que son las que almacenan los datos de navegaci&oacute;n como tales:<br /></p><ul><li><strong>piwik_log_visit</strong>: Almacena los datos relativos a una visita.&nbsp; Dado que se espera que cada visita mantenga los par&aacute;metros de equipo y navegador, no es necesario generar redundancia a cada clic del usuario.&nbsp; Esta tabla incluye datos sobre cookie, localizaci&oacute;n, p&aacute;gina de origen (<a href="http://en.wikipedia.org/wiki/Referer" title="Wikipedia en ingl&eacute;s: HTTP Referer">referer</a> ), opciones del navegador y del equipo, etc.</li><li><strong>piwik_log_link_visit_action</strong>: Almacena los datos de la p&aacute;gina vista.&nbsp; Esto incluye un c&oacute;digo &uacute;nico de URL actual (lo comento en la siguiente tabla), c&oacute;digo de URL de origen, y el tiempo de estancia en esta p&aacute;gina.&nbsp; Esta tabla ser&aacute; importante en el momento de realizar un an&aacute;lisis de la navegaci&oacute;n.&nbsp; <br /></li><li><strong>piwik_log_action</strong>: Es una tabla auxiliar donde se almacenan las URL solicitadas, un registro por URL.<br /></li></ul><p>A todo esto hay que decir que Piwik genera tablas-resumen mensuales de los datos.&nbsp; Estas tablas se tienen el formato <em>piwik_archive_numeric_A&Ntilde;O_MES</em> y <em>piwik_archive_blob_A&Ntilde;O_MES</em>. Estas tablas ayudan a mantener un tama&ntilde;o reducido de las tablas anteriores, y siguen permitiendo el acceso a los datos b&aacute;sicos de fechas (tablas ..._numeric_...) o a los datos completos (tablas ..._blob_...).</p><p>Con todo esto, s&oacute;lo queda a&ntilde;adir que el prefijo piwik de todas las tablas viene por defecto pero es posible cambiarlo en la fase de instalaci&oacute;n de la aplicaci&oacute;n.</p><p>La raz&oacute;n de existencia de la &uacute;ltima tabla es que evita la redundancia de p<em>iwik_log_link_visit_action</em>. Teniendo en cuenta que esta es la tabla que almacenar&aacute; m&aacute;s datos, esto es importante para la agilizaci&oacute;n en la inserci&oacute;n de datos.</p><p>Analizando m&aacute;s a fondo la tabla <em>piwik_log_visit</em>, podemos ver que existen los campos <em>visitor_idcookie</em> y <em>visitor_returning</em>.&nbsp; Estos datos nos permiten relacionar visitas para identificar a los &quot;usuarios &uacute;nicos&quot;, siempre teniendo en cuenta las consideraciones que comentaba antes.<br /> <br /> Con estas tres tablas tenemos la estructura usuario-visita-p&aacute;gina, necesaria para empezar a extraer informaci&oacute;n de forma estructurada.</p><p>En el pr&oacute;ximo post empiezo a comentar las consultas SQL para extraer datos, los objetivos del an&aacute;lisis y su aplicaci&oacute;n en GNU R.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26810/analisis-web-com-piwik-gnu-r-i</link><pubDate>Mon, 15 Sep 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[Mejoras y agradecimientos]]></title><description><![CDATA[<h2>Menos cosas pendientes <br /></h2><p>Poco a poco voy introduciendo las mejoras pendientes.&nbsp; De los temas que mencion&eacute; en el anterior post, ya he activado los comentarios y he inclu&iacute;do un sencillo sistema de captcha para salir del paso, aunque lo ir&eacute; mejorando porque tampoco es dif&iacute;cil de sortear.</p><p>Tambi&eacute;n he inclu&iacute;do la secci&oacute;n de recursos,que servir&aacute; para cargar los archivos y otros detalles que yo pongo a disposici&oacute;n.&nbsp; Y s&oacute;lo faltar&aacute; el apartado de enlaces, con informaci&oacute;n relativa a recursos disponibles en otros sitios.</p><h2>Agradecimientos</h2><p>En la explicaci&oacute;n sobre los cambios en el dise&ntilde;o de Sopa de bits dej&eacute; conscientemente a un lado el comentar el dise&ntilde;o visual por s&iacute; mismo. </p><p>Y es que el dise&ntilde;o gr&aacute;fico cumple una funci&oacute;n importante en cualquier web: no es lo mismo ir vestido que vestir un buen conjunto. No es cuesti&oacute;n de dinero, sino de gusto.</p><p>El m&eacute;rito que este blog tenga tan buen gusto visual es total y exclusivamente de <a href="http://www.xing.com/profile/Albert_Biarnes" title="Albert Biarn&eacute;s en Xing">Albert Biarn&eacute;s</a>. Albert es un Ingeniero T&eacute;cnico Multimedia que actualmente trabaja en la filial de un grupo farmac&eacute;utico como web developer. Sin embargo, el nombre del cargo no hace justicia a su perfil.</p><p>En realidad, Albert conjuga como pocos dos valores muy apreciados actualmente: creatividad y conocimientos t&eacute;cnicos.&nbsp; Adem&aacute;s de lo anterior, se ha formado en temas relacionados con la comunicaci&oacute;n, por lo que tiene todos los conocimientos necesarios para coordinar proyectos tecnol&oacute;gicos que planteen objetivos en la comunicaci&oacute;n de una marca, su imagen y sus valores.</p><p>Estoy convencido que un perfil como el de Albert se va a encontrar muy a gusto en la nueva generaci&oacute;n de servicios web 2.0, m&aacute;s enfocados a empresas.<br /></p><p>Despu&eacute;s del resultado de esta versi&oacute;n del dise&ntilde;o, s&oacute;lo me queda agradecerle el esfuerzo absolutamente desinteresado por lavarle la cara al blog y hacer este espacio m&aacute;s agradable para mis posts. Gr&agrave;cies Albert!&nbsp; </p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26809/mejoras-agradecimientos</link><pubDate>Mon, 08 Sep 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[Nuevo dise&ntilde;o en sopa de bits]]></title><description><![CDATA[<p>Esta ma&ntilde;ana he estado actualizando el dise&ntilde;o de Sopadebits, ya que veo que el funcionamiento se muestra suficientemente estable. Eso no quiere decir que la versi&oacute;n quede cerrada ni que est&eacute;n todas las funcionalidades a la vista. Comento por encima las mejoras del nuevo dise&ntilde;o y los temas pendientes.</p><h2>Mejoras introducidas</h2><h3>Nuevo aspecto visual</h3><p>Esto era quiz&aacute; lo m&aacute;s evidente: partiendo de un dise&ntilde;o simple (por no utilizar otros adjetivos) se ha cambiado el tono sin modificar el mensaje&nbsp; de fondo.&nbsp; Los tonos utilizados mejoran el rastreo visual, ayudan a detectar la estructura de los contenidos, y por lo tanto mejoran notablemente la interacci&oacute;n y usabilidad del sitio.</p><p>Aparte de los tonos, la tipograf&iacute;a y la estructura general, me gustar&iacute;a destacar tambi&eacute;n la caja de categor&iacute;as y palabras clave que se puede ver en la parte derecha de cada POST.&nbsp; Me apetec&iacute;a situar esta informaci&oacute;n en un lugar destacado pero sin interferir en el contenido como tal.</p><p><img src="http://sopadebits.com/extranet/gallery/download/4490/box-categorias.png" alt="Captura: caja de categorias en cada post" title="Captura: caja de categorias en cada post" align="middle" /> <br /></p><p>El resultado me parece satisfactorio, y no descarto poner ah&iacute; m&aacute;s informaci&oacute;n, como por ejemplo el n&uacute;mero de comentarios realizados. </p><h3>Tags y categor&iacute;as</h3><p>Otro aspecto que faltaba, important&iacute;simo bajo mi punto de vista.&nbsp; Navegar por el archivo de postsha sido sencillo debido a que hab&iacute;a pocos posts.&nbsp; Pero desde luego no era agradable.&nbsp; Con la nueva funcionalidad, es posible acceder a los contenidos a trav&eacute;s de posts y categor&iacute;as.</p><p>Esta funcionalidad no tiene mucho m&aacute;s que explicar, salvo que el tag cloud implementa el a<a href="http://sopadebits.com/extranet/content/view/sistema-tagging-nube-etiquetas" title="Sistema de Tagging: nube de etiquetas - Sopa de bits">lgoritmo de generaci&oacute;n de nubes</a>  que coment&eacute; hace un tiempo.<br /></p><p>Los tags y categor&iacute;as se combinar&aacute;n con otro servicio implantado pero pendiente de activar: los RSS y alertas de e-mail para contenidos. Esto lo explico m&aacute;s adelante.</p><h3>Timeline en el archivo de posts</h3><p>Esto es m&aacute;s un experimento que una funcionalidad.&nbsp; <a href="http://elprincipiodeincertidumbre.net/blog/" title="El principio de incertidumbre">Beukis</a>  me coment&oacute; la existencia del <a href="http://simile.mit.edu/" title="Simile Project - MIT">proyecto SIMILE del MIT</a>, empec&eacute; a probar y qued&eacute; encantado con las funcionalidades que proporcion.&nbsp; Adem&aacute;s del timeline existen varios proyectos que van enfocados a mejorar la visualizaci&oacute;n de la informaci&oacute;n y a su tratamiento sem&aacute;ntico.</p><p><img src="http://sopadebits.com/extranet/gallery/download/4491/simile-timeline.png" alt="Muestra de cronograma con simile timeline" title="Muestra de cronograma con simile timeline" /> <br /></p><p>Esta funcionalidad mejorar&aacute; quiz&aacute; un poco, incluyendo una entradilla en el bocadillo que aparece al clicar sobre una entrada, aunque dado el espacio, el texto ser&aacute; limitado.&nbsp; Tambi&eacute;n introducir&eacute; un enlace hacia el post.</p><h2>Temas pendientes</h2><h3>Comentarios<br /></h3><p>Por lo pronto, falta activar los comentarios.&nbsp; Quiero implantar/desarrollar un sencillo sistema de captchas textuales para evitar las formas m&aacute;s <em>rastreras</em> de SPAM, pero sin poner en aprietos a los usuarios (nada de captchas visuales). </p><p>La herramienta servir&aacute; para indicar un sencillo enunciado corto de un sencillo problema matem&aacute;tico, o bien de l&oacute;gica simple.Lo tengo en mente y casi analizado: se tratar&aacute; de una barrera de entrada simple, por lo tanto no infalible.&nbsp; De todos modos, entre esto y el RSS de los comentarios deber&iacute;a ser suficiente para atajar las entradas de SPAM.</p><h3>Alertas v&iacute;a e-mail</h3><p>Otro de los temas que tengo pendiente es activar un servicio para configurar sistemas de alerta. El servicio servir&aacute; para que el usuario pueda generar su propio RSS, alerta o ambos. </p><p>En una segunda fase, tengo intenci&oacute;n de <em>publicar</em> estas alertas si el usuario lo permite, de modo que el resto pueda utilizar el filtro de los usuarios que lo hayan aplicado </p><p>La intenci&oacute;n es que esta funcionalidad ser&aacute; accesible a trav&eacute;s de la caja <em>Fuentes RSS</em>, y permitir&aacute; acceder a un peque&ntilde;o espacio para activar este servicio.</p><h3>Ampliaci&oacute;n del apartado de recursos</h3><p>Aunque creo que debo sintetizar m&aacute;s mis posts, tengo claro que no me apetece hacer rese&ntilde;as de dos l&iacute;neas. A esto se suma que quiero dar un impulso mayor al apartado de descargas (que no est&aacute; activado).</p><p>Por eso mi intenci&oacute;n es generar un espacio de recursos en su sentido m&aacute;s amplio, incluyendo los archivos que yo cargue, los enlaces de inter&eacute;s que apunte y posts de otros blogs que haya considerado interesantes.</p><p>De este modo diferencio lo que son aportaciones principalmente m&iacute;as y lo que son referencias externas.&nbsp; Dado que puedo integrar estas funcionalidades, incluir esta funcilonalidad mejora otra debilidad en este blog: la falta de enlaces en los posts.&nbsp; Al disponer en la base de datos de un listado de recursos, me es posible matar varios p&aacute;jaros de un tiro:</p><ul><li>Tener m&aacute;s a mano los enlaces a noticias que he le&iacute;do e integrarlos en un post.</li><li>Valorar estas noticias en base a las referencias en los posts.<br /></li><li>Integrar el sistema de categorizaci&oacute;n e indizaci&oacute;n de los contenidos propios y ajenos, para as&iacute; poder adaptar mejor el enfoque tem&aacute;tico.</li></ul>Creo que con esto basta por hoy.&nbsp; Vamos a ver qu&eacute; tal queda un nuevo post en el cronograma <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-wink.gif" border="0" alt="Gui&ntilde;o" title="Gui&ntilde;o" />.  <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26805/nuevo-diseno-sopa-bits</link><pubDate>Sat, 06 Sep 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[Las cinco tendencias en el tagging]]></title><description><![CDATA[<p>Sac&aacute;ndole minutos al sue&ntilde;o me permito rese&ntilde;ar una noticia que he le&iacute;do sobre una conferencia que tuvo lugar el pasado 30 de Abril de 2008 en la <a href="http://iasummit.org/2008/about.html" title="IA Summit 2008">IA SUMMIT 2008</a>.</p><p>El comentario en s&iacute; viene a ra&iacute;z de <a href="http://www.iasummit.org/proceedings/2008/tagging_five_emerging_trends" title="Tagging: five emerging trends">Tagging: five emerging trends</a>.</p><p>Yendo al grano: </p><ul><li>El mercado quiere (por no decir &quot;necesita&quot;) estructura. Es decir, seg&uacute;n el mercado, las mejores etiquetas son las que representan mejor la estructura (las menos ambiguas).</li><li>Hay espacio para todos los grados de estabilidad y obsolescencia.  Es decir, tienen que haber conjuntos de t&eacute;rminos y conceptos que permitan establecer una base s&oacute;lida, mientras que otros conjuntos de t&eacute;rminos ser&aacute;n vol&aacute;tiles y estar&aacute;n m&aacute;s enfocados a la innovaci&oacute;n. Estas capas de actividad, m&aacute;s que cohabitar, se integran y son moderadamente permeables.</li><li>Combinaci&oacute;n de lo humano y lo autom&aacute;tico. Ninguno de los extremos es adecuado.</li><li>La comunidad (y lo que comparte) determina el uso de los tags y por lo tanto es un factor importante a tener en cuenta para definir los tags.</li><li>Los tags son una fuente de innovaci&oacute;n por la capacidad de interacci&oacute;n que dan a los usuarios.<br /></li></ul><p>Desde luego, suena a algo, &iquest;no? Algunos dicen que se ha <a href="http://freerangelibrarian.com/2008/05/21/ebony-and-ivory-tagging-and-taxonomies/" title="Ebony and Ivory: Tagging and Taxonomies">reinventado la catalogaci&oacute;n</a> como quien reinventa la rueda. </p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26804/cinco-tendencias-tagging</link><pubDate>Sat, 31 May 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[Un a&ntilde;ito]]></title><description><![CDATA[<p>Con prisas y poco tiempo para escribir, as&iacute; es la temporada que me ha acercado al primer a&ntilde;ito de vida de este blog.   Lejos queda este hito para los veteranos de la bibliogosfera como <a href="http://www.catorze.com/blog/un-lustro-son-cinco-anos/" title="Catorze: Un lustro son cinco a&ntilde;os">catorze</a> o <a href="http://feeds.feedburner.com/~r/deakialli/com/~3/251954136/" title="Deakialli: 5 a&ntilde;os de Deakialli">deakialli</a> (entre muchos otros), y bajo es mi ritmo de producci&oacute;n (esto ya lo comentaba hace seis meses, y no ha mejorado). </p><p>En demograf&iacute;a existe un <a href="../../../../../../content/view/indicadores-el-ajo-dorado" title="Sopadebits: Indicadores">indicador</a>   que sirve como referencia para conocer la calidad del sistema de salud de un pa&iacute;s.  Ese indicador se basa en el n&uacute;mero de <strong>muertes de ni&ntilde;os antes del a&ntilde;o de vida</strong>: se supone que cuanta menor es la proporci&oacute;n de muertes en esa franja de edad, mejor es la calidad asistencial en esa zona.  As&iacute; que por ahora, el ni&ntilde;o crece con ganas, aunque es algo remol&oacute;n. </p><p>Los indicadores tienen esa mezcla &uacute;nica de lo anecd&oacute;tico y lo profundo que resulta tan atractiva: ese es el objetivo que quiero para lo que escribo aqu&iacute;. No trato de exponer con precisi&oacute;n acad&eacute;mica, pero tampoco me apatece comentar cosas porque s&iacute;. Para eso me voy a tomar una cerveza o simplemente miro la tele.  Estos son mis criterios de info-sostenibilidad para este blog.</p><h2>Estad&iacute;sticas </h2><p>La frecuencia de escritura me ha llevado a un total de 66 posts.  No es para lanzar cohetes.  Hay un cierto comp&aacute;s sincopado en el ritmo de publicaci&oacute;n: entre otras cosas, se debe a un cambio de aires a nivel laboral y a todo lo que ello comporta. Tambi&eacute;n se debe a un cambio de vivienda, con el traslado... Que en estas circunstancias el blog haya sobrevivido a esto, creo que ya marca la intenci&oacute;n firme de continuar.</p><p>Esta discreta producci&oacute;n ha provocado un total de 1060 p&aacute;ginas vistas... mensuales.  Echando a un vistazo a sitios como OJD interactiva, uno baja a la realidad de golpe, pero me siento satisfecho de superar la cifra psicol&oacute;gica del milenio.</p><p>Las visitas vienen dirigidas principalmente con Google.  Digo principalmente por no decir exclusivamente, aunque Google representa un 80% al 90% de mis fuentes de tr&aacute;fico. Con eso est&aacute; casi todo dicho.</p><p>Digo casi todo porque entre los generadores de tr&aacute;fico entrante me queda comentar a <a href="http://www.human-computer.net/blog/" title="HCNet">human-computer.net (HCNet)</a>, que me gener&oacute; un tr&aacute;fico adicional muy de agradecer, especialmente por <a href="http://www.human-computer.net/blog/2008/02/21/recomendacion-sopa-de-bits/" title="HCNet - Recomendaci&oacute;n: sopa de bits">su recomendaci&oacute;n hacia este blog</a>. A corte de an&eacute;cdota, vale la pena comentar que gener&oacute; m&aacute;s tr&aacute;fico hacia <a href="http://www.marioalberich.com">marioalberich.com</a> que hacia sopadebits ;-). </p><h2>Enfoque y objetivos</h2><p>A pesar de la satisfacci&oacute;n, uno tiene una serie de objetivos para con este espacio. Algunos son de car&aacute;cter conceptual, y otros de m&aacute;s nivel operativo.</p><ul><li>El primer objetivo es <strong>cambiar la imagen del blog</strong>.  Hace m&aacute;s de cuatro meses que tengo en el caj&oacute;n una maqueta, y creo que no falta mucho para cambiarla.</li><li>Espero que el nuevo dise&ntilde;o pueda ir acompa&ntilde;ado ya por la <strong>nueva versi&oacute;n de la herramienta</strong> que llevo utilizando desde hace medio a&ntilde;o para otros proyectos. Esta herramienta es una versi&oacute;n ampliada del Framework CakePHP. Dado que este framework ya incorpora gran cantidad de funcionalidades, bibliotecas, utilidades y dem&aacute;s, me ser&iacute;a m&aacute;s f&aacute;cil <strong>incorporar categor&iacute;as, etiquetas, comentarios, demos y otras virguer&iacute;as varias</strong>. </li><li>Espero poder mostrar algunos casos de proyectos que est&eacute; llevando por ahora.  La teor&iacute;a est&aacute;  muy bien, pero si miro a mi experiencia personal, no hay nada m&aacute;s enriquecedor (ahora hablo de inform&aacute;tica) que los ejemplos y casos concretos. En esto tambi&eacute;n incluyo alguna que otra utilidad para funcionalidades b&aacute;sicas, otros archivos de descarga, etc.</li></ul><p>Se acab&oacute; el tiempo. Debo volver a lo m&iacute;o.</p><p>A modo de final lacrim&oacute;geno, s&oacute;lo me queda agradecer a quienes dedican sus ratos de lectura a mi blog y a quienes dedican sus ratos a escribir en los suyos propios, dando m&aacute;s ideas de lectura, enlaces y aprendiendo.  Esto ya forma parte de mi vida.</p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26803/un-anyito</link><pubDate>Tue, 01 Apr 08 00:00:00 +0200</pubDate></item><item><title><![CDATA[Navegaci&oacute;n social utilizando el tagging - 3]]></title><description><![CDATA[<p>En esta tercera y &uacute;ltima parte se concretan los fundamentos te&oacute;ricos y se analizan aplicaciones pr&aacute;cticas e indicadores. En una cuarta parte de la tesis se entra en detalle sobre las caracter&iacute;sticas t&eacute;cnicas del framework.</p><p>No comentar&eacute; la cuarta parte, ya que su objetivo principal es traducir el marco conceptual desarrollado hasta aqu&iacute; en un marco operativo para desarrollar una aplicaci&oacute;n inform&aacute;tica. </p> <h2>Construcci&oacute;n del marco de trabajo</h2><p>El sistema trata de actuar en las siguientes fases:</p><ul><li>Estructuraci&oacute;n de recursos individuales en base al etiquetado de recursos.</li><li>Mapeado de intereses y focos individuales.</li><li>Proposici&oacute;n de red social en base a las similitudes detectadas.</li><li>Canalizar las recomendaciones y el feed-back.<br /></li></ul><p>Uno de los temas de inter&eacute;s de este apartado es el proceso de clustering. Para ello se analiza el grado de similitud entre dos recursos A y B, que se simboliza como S<sub>AB</sub>. Se propone la siguiente f&oacute;rmula para el c&aacute;lculo de la similitud:<br />S<sub>AB</sub> = CT<sub>AB</sub> / (OT<sub>AB</sub> - CT<sub>AB</sub>)<br />Donde:</p><ul><li>CT<sub>AB</sub> = Tags que hay tanto en A como en B (interesecci&oacute;n intersecci&oacute;n) </li><li>OT<sub>AB</sub> = Todos los tags, coincidentes o no (uni&oacute;n de conjuntos)  </li></ul><p>Analizando superficialmente la f&oacute;rmula podemos detectar que puede tomar valores entre 0 y <strong>&infin;</strong>, y que el valor es mayor cuanta mayor proporci&oacute;n de tags coinciden.</p><p>Las similitudes entre cada par de recursos se puede representar una matriz NxN que permite analizar distancias y representaciones de distancias entre recursos. Esta matriz de similitudes puede poner de relieve las diferencias de criterios de etiquetado para un mismo recurso, lo que <a href="../../../../../../../content/view/reutilizar-intercambiar-intereses-tagging" title="Sopa de bits: Reutilizar e intercambiar intereses mediante el tagging">pone en riesgo la capacidad de intercambio y reutilizaci&oacute;n</a>.  En el momento que se comprueba que un recurso aislado se etiqueta de forma muy diferente, un sistema de recomendaci&oacute;n puede <strong>proponer tags que cohesionen al usuario etiquetador  </strong>dentro de un grupo de inter&eacute;s.  De este modo se aisla el <em>loosely tagging</em> que provocado por el etiquetado poco consistente de recursos.  Si el sistema proporciona estas funcionalidades y se combinan con herramientas de manipulaci&oacute;n de recursos (reetiquetado, por ejemplo), es posible pensar en llegar a un mayor grado de homogeneinizaci&oacute;n (con la motivaci&oacute;n de los usuarios).</p><p>Otro caso es el de las etiquetas como &quot;to_read&quot; o &quot;cool&quot;, que son gen&eacute;ricas y ajenas a un foco tem&aacute;tico, por lo que deben tratarse en base a <a href="../../../../../../../content/view/propuestas-sistema-tagging-2" title="Sopa de bits: Propuestas para un sistema de tagging - 2">criterios operativos y no conceptuales</a>.</p><p>Otra aproximaci&oacute;n puede ser el an&aacute;lisis de la calidad de los clusters en base a las referencias cruzadas entre usuarios.  Aunque el estudio no se plantea como objetivo la revisi&oacute;n &quot;manual&quot; de clusters, s&iacute; considera factible marcarlos para su revisi&oacute;n.</p><h2>Creaci&oacute;n de focos</h2><p>La creaci&oacute;n de focos se basa en la identificaci&oacute;n de tags m&aacute;s utilizados (por t&eacute;rmino medio) en un subconjunto de datos.  Esta mayor conccentraci&oacute;n determina el foco.  La similitud entre elementos de un cluster viene determinada por la similitud de rangos entre tags (Esto es una nota al margen: <a href="http://en.wikipedia.org/wiki/Mann-Whitney_U" title="Test U de Mann-Whitney">Test U de Mann-Whitney</a> y <a href="http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test" title="Test de Wilcoxon">Test de Wilcoxon</a>, por si tienen alguna aplicaci&oacute;n v&aacute;lida).</p><p>Para establecer una m&eacute;trica de similitud entre clusters se considera analizar los tags comunes seg&uacute;n su rango dentro del conjunto y se propone la siguiente f&oacute;rmula:</p><p>&nbsp;</p><p>S<sub>tag</sub> = [R1 / (R1-R2)] / F</p><p>Donde:</p><ul><li>S<sub>tag</sub> = Similitud entre tags.</li><li>R1, R2 = Rango del tag en los clusters 1 y 2.</li><li>F: equivale a una medida de &quot;amistad&quot; entre ambos clusters [se refiere a recursos o a miembros?]<br /></li></ul><p>Con el c&aacute;lculo del conjunto de distancias se puede obtener una medida de distancia entre clusters:</p><p>D = distancia entre clusters = OS/OT - OD/OT = (OS-OD)/OT<br /><br />Donde:</p><ul><li>OT = Total de tags principales de ambos clusters (uni&oacute;n de tags principales).</li><li>OS = Tags principales que coinciden en ambos clusters (intersecci&oacute;n de tags principales).</li><li>OD = Tags principales que no coinciden entre ambos clusters (no-intersecci&oacute;n de tags principales).<br /></li></ul><p>El valor de D puede tomar valores en el intervalo [-1,1].  Este valor se <a href="../../../../../../../content/view/normalizacion-distancias-normalizadas" title="Sopa de bits: Normalizaci&oacute;n y distancias normalizadas">normaliza</a> para que tome valores en el rango [0,1].</p><p>Se espera que un foco estable tenga un modelo de distribuci&oacute;n de tags ajustable a una ley potencial [power law]. Adem&aacute;s de ello se propone el an&aacute;lisis de sus atributos:</p><ul><li>Tama&ntilde;o: N&uacute;mero de miembros.</li><li>Amplitud (breadth): Cantidad de sub-temas (pocos tags principales conllevan un tag estrecho).</li><li>Altura (height): Ratio recursos/tags. Muchos tags/recursos conllevan un foco &quot;bajo&quot;, mientras que un ratio de pocos tags por recurso conllevan un foco &quot;alto&quot;.</li><li>Actividad: N&uacute;mero de recursos nuevos por d&iacute;a [podr&iacute;a ser generalizable a recursos por unidad temporal seg&uacute;n el entorno y el n&uacute;mero de usuarios.</li><li>Madurez: Relaci&oacute;n de todo lo anterior con la antig&uuml;edad del foco.<br /></li></ul><p>Tambi&eacute;n es importante identificar qu&eacute; tiempo consume cada foco para un usuario concreto, ya que esto tambi&eacute;n determina su importancia.</p><h2>Proposici&oacute;n de red social</h2><p>Se propone la creaci&oacute;n de una red social basada inicialmente en la interacci&oacute;n indirecta, identificando intereses comunes seg&uacute;n el etiquetado.</p><p>A trav&eacute;s de este an&aacute;lisis se estudian las relaciones entre miembros de un foco (relaciones within o intrafocales) y entre focos (relaciones between o interfocales).  Las relaciones intrafocales se consideran analizando la fortaleza de los &quot;arcos&quot; [tie strength], que se define con la siguiente f&oacute;rmula:<br /><br />TS<sub>AB</sub> = I<sub>AB</sub> &middot; 0,5 + K<sub>AB</sub> = Fortaleza de la relaci&oacute;n entre los individuos A y B.</p><p>Donde:</p><ul><li>K<sub>AB</sub> = F &middot; 0,25 + M &middot; 0,25</li><li>I<sub>AB</sub> = Intensidad de la interacci&oacute;n entre A y B.</li><li>F = Nivel de &quot;amistad&quot;.</li><li>M = Multiplexidad (n&uacute;mero de focos comunes de los individuos A y B).</li></ul><p>La interacci&oacute;n indirecta servir&aacute; de base pero deber&aacute; dejar paso a la interacci&oacute;n directa, ya que proporciona informaci&oacute;n de m&aacute;s valor al sistema.</p><p>La matriz NxN de relaciones entre individuos es asim&eacute;trica, ya que las relaciones entre individuos no necesariamente son igual de intensas de A a B que de B a A (como caso extremo encontramos el fen&oacute;meno &quot;fan&quot;).</p><p>El an&aacute;lisis del cluster de esta matriz proporciona informaci&oacute;n sobre la persona m&aacute;s &quot;central&quot; en el grupo (betweenness centraliy), de modo que se identifica al n&uacute;cleo de usuarios de referencia, que pueden servir de base (o ponderaci&oacute;n) para los mecanismos de recomendaci&oacute;n.</p><h3>Relaciones entre focos<br /></h3><p>Tambi&eacute;n se quiere evaluar la posibilidad de establecer puentes entre focos, ya que esto puede facilitar la evoluci&oacute;n de las redes sociales.</p><p>Una posibilidad es crear puentes aleatorios.  Este proceso aleatorio requiere de un feed-back del usuario que recibe la recomendaci&oacute;n.  En caso que no exista este feed-back, la recomendaci&oacute;n aleatoria desaparece.</p><h3>Sistemas de recomendaci&oacute;n</h3><p>Los sistemas de recomendaci&oacute;n funcionan de forma similar a la comparaci&oacute;n de individuos en base a tags.  Este criterio de comparaci&oacute;n proporciona un valor entre 0 y 1.</p><p>En cualquier caso, si se quiere potenciar la existencia de focos entre los puentes interfocales, los sistemas de recomendaci&oacute;n deber&aacute;n ponderar la &quot;proximidad&quot;  (valorar m&aacute;s las recomendaciones intrafocales). Sin embargo hay que tener en cuenta que las recomendaciones interfocales pueden ser favorables para que los focos con poco volumen o riesgo de isolaci&oacute;n reciban &quot;aire fresco&quot;.  Esta din&aacute;mica normalmente se establece de focos grandes hacia peque&ntilde;os, por lo que a medio-largo plazo puede llevar a procesos de fusi&oacute;n/absorci&oacute;n.</p><h3>Feed-back</h3><p>El feed-back, como la navegaci&oacute;n social, puede entenderse en dos v&iacute;as: impl&iacute;cito y expl&iacute;cito.  A nivel de un entorno como el que plantea el documento, el feedback impl&iacute;cito se gestiona a trav&eacute;s del sistema, mientras que el expl&iacute;cito lo es por el usuario.</p><blockquote>Adem&aacute;s, el feed-back directo refleja las relaciones sociales, mientras que el indirecto explicita las relaciones de inter&eacute;s.</blockquote><p>Una cuesti&oacute;n que surge en los mecanismos de feed-back es determinar qui&eacute;n debe recibir el feed-back. El sistema almacenar&aacute; la respuesta del destinatario de la recomendaci&oacute;n, pero quien realiza la recomendaci&oacute;n recibe tambi&eacute;n feed-back? Lo hace el primer miembro de la cadena de recomendaci&oacute;n? </p><p>El sistema de gesti&oacute;n del feed-back considera tres acciones indicativas: lectura, archivado y valoraci&oacute;n [reading, archiving and rating].  Para el caso de la lectura, puede ser interesantes no s&oacute;lo por el n&uacute;mero de lecturas sino por el tiempo de estas lecturas.</p><h3>Conciencia social [social awareness]</h3><ul><li>&iquest;C&oacute;mo puedo utilizar los componentes de la aplicaci&oacute;n para actuar socialmente?</li><li>&iquest;C&oacute;mo puedo hacer que la gente sea consciente que act&uacute;a socialmente?</li></ul><p>Deben existir incentivos para utilizar las capacidades de la navegaci&oacute;n social y los mecanismos de feed-back.  La comunicaci&oacute;n entre miembros de un foco es clave porque activa la memoria transactiva, lo que conlleva a una mayor cohesi&oacute;n del grupo.</p><h2>Conclusiones</h2><p>El documento contin&uacute;a entrando en detalles sobre la implantaci&oacute;n del framework para gestionar todos estos recursos.  Lo que viene despu&eacute;s de lo comentado ya son detalles t&eacute;cnicos que no vienen al caso si no se desea implementar.  Lo que reflejan los detalles de la implantaci&oacute;n son la traducci&oacute;n a lenguaje t&eacute;cnico de todo lo explicado.</p><p>En la fuente original hay una gran cantidad de gr&aacute;ficos y esquemas que ayudan a asimilar algunos conceptos importantes en la operativa, los c&aacute;lculos y las caracter&iacute;sticas de la red.  Sus referencias bibliogr&aacute;ficas tambi&eacute;n aportar&aacute;n de buen seguro detalles sobre todo lo comentado.  Tambi&eacute;n es probable que existan estudios que citen a este documento, por lo que probablemente existir&aacute;n mejoras para introducir o ampliar.</p><p>Leer documentos como este es un verdadero lujo. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26801/navegacion-social-utilizando-tagging-3</link><pubDate>Wed, 05 Mar 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Navegaci&oacute;n social utilizando el tagging - 2]]></title><description><![CDATA[<p>En esta segunda parte comento lo relacionado con los mecanismos de la navegaci&oacute;n social (tema central de la tesis) y tambi&eacute;n en los mecanismos de recomendaci&oacute;n y feed-back. </p> <h2>Navegaci&oacute;n social</h2><p>La navegaci&oacute;n social puede entenderse como el proceso de <strong>acceder a objetos de informaci&oacute;n en base a lo que los individuos cercanos han hecho</strong>.</p><p>Disponer de <em>vecinos tem&aacute;ticos</em> ayuda a reducir al m&aacute;ximo la distancia entre individuos para generar este proceso de intercambio de la forma m&aacute;s fluida posible. Adem&aacute;s, permite obtener informaci&oacute;n sobre las novedades m&aacute;s r&aacute;p&igrave;damente. </p><h3>Navegaci&oacute;n directa e indirecta</h3><p>En este aspecto, los entornos de tagging social inicialmente son entornos de navegaci&oacute;n social indirecta, ya que s&oacute;lo permiten navegar utilizando los resultados de la actividad de otros usuarios, m&aacute;s que en una relaci&oacute;n directa entre individuos. En pocas palabras: los usuarios navegan al relacionarse con la informaci&oacute;n generada por otros <strong>pero no</strong> en la relaci&oacute;n con los otros usuarios. </p><p>Estos dos tipos de navegaci&oacute;n son perfectamente compatibles, y adem&aacute;s complementarios.  Por un lado la navegaci&oacute;n indirecta no precisa de una relaci&oacute;n entre individuos, lo que favorece a iniciar una relaci&oacute;n con la informaci&oacute;n sin necesidad de conocer a terceros.  La proximidad de intereses y el intercambio de informaci&oacute;n relevante es una posible v&iacute;a para establecer relaciones con otros individuos.  En esta segunda parte entra en juego la navegaci&oacute;n directa.</p><blockquote>Dieberger (2000) y H&ouml;&ouml;k (2003a) proponen cuatro efectos de la navegaci&oacute;n social: filtrado, calidad, predisposici&oacute;n social [social affordance] y la evoluci&oacute;n de la estructura y la funcionalidad a trav&eacute;s del uso que se hace de &eacute;sta.</blockquote><p>El filtrado y la calidad obtienen un <strong>valor por el uso</strong>, no s&oacute;lo del individuo, sino del grupo.  El hecho de seleccionar el &iacute;tem y guardarlo en &quot;mis favoritos&quot; ya constituye una <strong>recomendaci&oacute;n impl&iacute;cita</strong>, de lo que se deriva un efecto de filtrado (positivo porque se recomienda) y una valoraci&oacute;n de calidad.</p><p>La evoluci&oacute;n en los <strong>patrones</strong> de navegaci&oacute;n social provocan la <strong>evoluci&oacute;n de la funcionalidad</strong>.  Por ejemplo, el etiquetado puede ir dirigido a personas concretas, por lo que este etiquetado refleja el cambio de funcionalidad del etiquetado mismo.</p><h3>Sistemas transparentes</h3><p>Seg&uacute;n Ericksom (2003), los sistemas que quieran proporcionar medios transparentes para la navegaci&oacute;n social deben proporcionar:</p><ul><li>Visibilidad (Ver a otros).</li><li>Presencia (Ser visto por otros)</li><li>Contabilidad [Accountability]: Derivada de las dos anteriores que sirve para valorar y penalizar.<br /></li></ul><h2>Recomendaci&oacute;n</h2><p>El proceso de filtrado colaborativo puede entenderse como la obtenci&oacute;n de beneficios por el consenso entre usuarios.  Este proceso de filtrado colaborativo se inici&oacute; de forma manual (seg&uacute;n Kostan 2002 puede llamarse <strong>pull-active</strong>) y actualmente se ha convertido en un proceso m&aacute;s o menos automatizado basado en mecanismos de reputaci&oacute;n que permiten generalizar el modelo en comunidades m&aacute;s numerosas.</p><p>Al introducir el proceso de filtrado autom&aacute;tico, <strong>el sistema es el que se convierte en pull-active y el usuario pasa a a ser push-active</strong>.  Por lo general se aplican estrategias mixtas para que el usuario pueda ser pull-active en un sistema push-active (que le simplifique la faena).</p><p>El proceso de filtrado colaborativo trata de conectar las valoraciones de otros usuarios con el usuario receptor.  Esta valoraci&oacute;n se pondera en base a la red social del individuo, ya sea por relaciones entre usuarios o bien por la similitud de valoraciones entre individuos.  Un ejemplo de algoritmo para el primer caso es el del <em>nearest-neighbor</em> (aplica criterios de memoria) mientras que en el segundo caso podemos hablar de <a href="http://en.wikipedia.org/wiki/Data_clustering" title="Wikipedia: Data clustering">t&eacute;cnicas de clustering</a>.</p><p>Estas medidas topan con dos aspectos complementarios de las grandes redes: escala y dispersi&oacute;n.  Por un lado es complejo ponderar y analizar grandes conjuntos de datos.  Por otro, es conocido que estos entornos se dan niveles altos de dispersi&oacute;n, por lo que el intercambio efectivo de informaci&oacute;n se da en un n&uacute;cleo muy denso, y no trasciende a los nodos m&aacute;s externos.</p><p>Para evitar el segundo aspecto, se plantea la posibilidad de incorporar mecanismos como &quot;filter bots&quot; que generen recomendaciones autom&aacute;ticas para evitar el aislamiento y el &quot;inicio en fr&iacute;o&quot; [cold start]. Por poner un ejemplo mundano, los <em>filter bots</em> hacen de anfitriones al nuevo miembro, para integrarlo en la red de intereses. Si el miembro <em>entabla relaci&oacute;n</em> con otros miembros, entra a formar parte de alg&uacute;n foco.</p><p>Sin embargo los mecanismos de recomendaci&oacute;n conlleva <strong>indicadores impl&iacute;citos</strong>, y no tanto a los <strong>expl&iacute;citos</strong>. Para poner un ejemplo de ambos tipos de indicadores, se puede ver el caso de <a href="http://www.last.fm/" title="last.fm">last.fm</a>: el indicador impl&iacute;cito es el tiempo que el usuario escucha la canci&oacute;n, mientras que un indicador expl&iacute;cito es la decisi&oacute;n del usuario de &quot;penalizar&quot; la canci&oacute;n para no volverla a escuchar.</p><p>En t&eacute;rminos generales es mucho m&aacute;s deseable una valoraci&oacute;n expl&iacute;cita, pero no es de esperar que un usuario sea proclive a realizar gran cantidad de valoraciones.  En cambio, si se pueden extraer valoraciones fiables en base a la actividad del usuario, el sistema dispondr&aacute; de mucha m&aacute;s informaci&oacute;n para recomendar mejor.</p><p>A otro nivel tambi&eacute;n se puede afirmar que las <strong>circunstancias</strong>, como la actividad y el estado de &aacute;nimo <strong>afectan a la valoraci&oacute;n</strong>, por lo que los sistemas de recomendaci&oacute;n deben tener en cuenta que existen aspectos circunstanciales que no son tan generalizables como opiniones m&aacute;s objetivas (es muy diferente un &quot;no me gusta&quot; que un &quot;ahora no me apetece&quot; o &quot;no estoy de humor&quot;).</p><p>Para que el usuario pueda analizar el valor de la recomendaci&oacute;n, es necesario que el sistema proporcione informaci&oacute;n tal como:</p><ul><li>Fecha/hora.</li><li>Usuarios con intereses similares.</li><li>Proximidad (grado de acuerdo) con tales miembros a lo largo del tiempo.</li><li>Valoraciones de &quot;los vecinos&quot;.</li><li>Consistencia/Acuerdo en las valoraciones entre vecinos a lo largo del tiempo.</li></ul><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26800/navegacion-social-utilizando-tagging-2</link><pubDate>Tue, 04 Mar 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Clustering en recursos corporativos y generalistas]]></title><description><![CDATA[<p>Pueden existir diferencias notables entre colecciones de recursos etiquetados a nivel corporativo y los que han sido etiquetado en un &aacute;mbito m&aacute;s generalista.  Actualmente, con el uso de feeds y la profusi&oacute;n de servicios de bookmarking social, puede tener lugar la golosa alternativa de fagocitar recursos ya etiquetados por otros dentro de la colecci&oacute;n corporativa. </p><p>Lo que pasa es que las caracter&iacute;sticas internas de un conjunto de recursos etiquetados pueden variar seg&uacute;n su origen, enfoque y la variedad de usuarios que lo utilizan. </p><p>El art&iacute;culo <a href="http://www.hpl.hp.com/techreports/2007/HPL-2007-190.html" title="Clustering Tags in Enterprise and Web Folksonomies">clustering tags in enterprise and web floksonomies</a> (Simpson, 2008) explora esas posibilidades considerando dos colecciones paradigm&aacute;ticas, y dos algoritmos de clustering. </p><p>&nbsp;</p> <h2>Colecciones y algoritmos</h2><p>la colecci&oacute;n corporativa generada por unos pocos usuarios (denominado Labbies), y una selecci&oacute;n de recursos etiquetados en del.icio.us, que se tomar&aacute; como muestra de colecci&oacute;n externa.</p><p>Se quiere analizar dos algoritmos que en &uacute;ltimo t&eacute;rmino deber&iacute;an permitir la selecci&oacute;n de etiquetas para facilitar la navegaci&oacute;n por los recursos.</p><p>Los dos algoritmos utilizados se denominan tag <em>co-ocurrence divisive clustering</em> y <em>betweenness centrality clustering</em>.</p><p>En el primer caso se puede entender la co-ocurrencia como una correlaci&oacute;n que hay entre dos tags (cuanto m&aacute;s coinciden en el etiquetado de recursos, m&aacute;s correlacionados est&aacute;n).  Este algoritmo tiene efectos sobre entornos tem&aacute;ticamente relacionados, y no entra a fondo en la estructura general de la colecci&oacute;n.</p><p>Al aplicar el algoritmo de la coocurrencia, las correlaciones inferiores a un determinado umbral (un valor m&iacute;nimo) quedan descartadas por ser muy d&eacute;biles.  Tras este proceso de selecci&oacute;n de relaciones, ya se puede visualizar la relaci&oacute;n entre etiquetas, e identificar los subgrupos (clusters).</p><p>En el segundo caso se aplica un algoritmo que analiza el conjunto de <strong>caminos entre nodos</strong>.  Dentro de estos caminos se seleccionan los arcos que forman parte de un mayor n&uacute;mero de <strong>rutas m&aacute;s cortas</strong>, lo que impl&iacute;citamente supone que son los m&aacute;s bien vinculados del conjunto.  Computacionalmente, este segundo algoritmo es mucho m&aacute;s costoso, aunque existen m&eacute;todos para la reducci&oacute;n de esta complejidad. A diferencia del algoritmo de coocurrencia, en este caso se prima m&aacute;s la <strong>visi&oacute;n de conjunto</strong>.</p><p>Seleccionando un tema de inter&eacute;s (en este caso, el uso del tag <em>dspace</em>) se recogen los datos de ambas fuentes.  En el caso de del.icio.us se crea un subconjunto de datos fruto de un proceso de limpieza que consiste en tareas de homonimia/sinonimia y la eliminaci&oacute;n de tags inherentemente ruidosos</p><h2>Resultados para Labbies</h2><p>Aplicando el algoritmo de co-ocurrencia se comprueba que el algoritmo prioriza la detecci&oacute;n de tags relacionados o similares.  Por lo tanto la &quot;similitud&quot; es el factor clave.</p><p>Por otro lado se identifica un conjunto de tags no afiliados completamente a un cluster, sino que m&aacute;s bien est&aacute;n a medio camino entre dos clusters diferentes.  Estos tags normalmente se identifican con t&eacute;rminos gen&eacute;ricos o ambiguos.</p><p>En el caso del algoritmo betweenness centrality se verifica que hay un grado menor de disgregaci&oacute;n (menos clusters) pero tambi&eacute;n mayor homogeneidad de tama&ntilde;o entre ellos.</p><p>No se puede determinar si hay uno de los dos algoritmos que sea m&aacute;s potente que el otro de cara a aumentar la recuperaci&oacute;n de informaci&oacute;n en este entorno corporativo.</p><h2>Resultados con del.icio.us</h2><p>Al disponer de un n&uacute;mero mayor de datos, el proceso de c&aacute;lculo y visualizaci&oacute;n de los clusters de del.icio.us fue m&aacute;s largo y complejo.</p><p>Adem&aacute;s de eso, se produce una generalizaci&oacute;n en la tem&aacute;tica de cada cluster, incluyendo relaciones que sem&aacute;nticamente est&aacute;n alejadas.</p><h3>Coocurrencia en del.icio.us</h3><p>El resultado de aplicar este algoritmo es que se generan grandes clusters, que adem&aacute;s presentan relaciones d&eacute;biles.  Esto viene dado por un efecto de &quot;coche escoba&quot;: los &iacute;tems raros se acaban afiliando a una gran masa que acaba formando un cluster principal.</p><p>Para evitar este efecto, y con la ayuda de t&eacute;cnicas de visualizaci&oacute;n se aplica un umbral de co-ocurrencia de 0,142, que genera una agrupaci&oacute;n mejorada, aunque conlleva el sacrificio de una gran cantidad de tags.</p><p>Este coeficiente demostr&oacute; ser diferente para cada conjunto de datos (Labbies, del.icio.us y del.icio.us limpiado), lo que implica una mayor generalizaci&oacute;n.</p><h3>Betweenness centrality en del.icio.us</h3><p>En el caso de este algoritmo se gener&oacute; un gran cluster que no se pudo desmembrar ni siquiera con t&eacute;cnicas de filtrado.</p><p>La principal consecuencia es que es mucho m&aacute;s complejo producir cluster de un tama&ntilde;o adecuado para ser visualizables y favorecer a la navegaci&oacute;n por tags como medio para la recuperaci&oacute;n de informaci&oacute;n. Por lo tanto el algoritmo de betweenness centrality no es la mejor opci&oacute;n para <em>descuartizar</em> colecciones de etiquetas.</p><h2>Enfoque futuro</h2><p>El principal problema de la aplicaci&oacute;n de algoritmos de clustering es que se generan grandes subgrupos.  Esto representa un problema para la navegaci&oacute;n del usuario.  Por lo tanto, es interesante profundizar en las t&eacute;cnicas de divisi&oacute;n de estos macro-clusters. Conseguirlo permitir&iacute;a una navegaci&oacute;n m&aacute;s sencilla y una interficie menos cargada de informaci&oacute;n. </p><p>No lo apuntan los autores, pero quiz&aacute; exista la posibilidad de aplicar iterativamente ambos algoritmos: betweenness a alto nivel y coocurrencia en clusters grandes).  Quiz&aacute; con una m&iacute;nima heur&iacute;stica se podr&iacute;a llegar m&aacute;s al fondo de la cuesti&oacute;n. </p><p>Otro aspecto interesante al que se apunta es a la definici&oacute;n de <strong>jerarqu&iacute;as de clusters</strong>, lo que permitir&iacute;a un primer nivel de macro-navegaci&oacute;n (en forma de &aacute;reas tem&aacute;ticas generales), y luego profundizar en clusters tem&aacute;ticamente m&aacute;s delimitados.</p><p>M&aacute;s all&aacute; del contenido del art&iacute;culo, lo m&aacute;s interesante de este tipo de estudios es comprobar hasta qu&eacute; punto afecta la selecci&oacute;n de uno u otro algoritmo para la organizaci&oacute;n de la informaci&oacute;n (y en este caso a su recuperaci&oacute;n). Como ejemplo aplicado a las colecciones de recursos, creo que es muy pedag&oacute;gico.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26798/clustering-recursos-corporativos-generalistas</link><pubDate>Mon, 03 Mar 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Navegaci&oacute;n social utilizando el tagging - 1]]></title><description><![CDATA[<p>Hac&iacute;a algunos meses que estaba en mi lista de tareas pendientes leer y profundizar en la tesis <a rel="nofollow" href="http://bielenberg.info/thesis.pdf" title="http://bielenberg.info/thesis.pdf" class="external text">Groups in Social Software: Utilizing Tagging to Integrate Individual Contexts for Social Navigation</a> que voy a comentar.  Un vistazo a su contenido promet&iacute;a obtener una visi&oacute;n estructurada de las diferentes &aacute;reas que desembocan en el fen&oacute;meno del tagging.</p><p>M&aacute;s all&aacute; del contenido y la estructura, lo que me ha sorprendido es lo bien que se desarrolla el hilo argumental y lo atractiva que ha resultado su lectura. Trat&aacute;ndose de una tesis, es un logro.  Lo digo principalmente por la evoluci&oacute;n y transformaci&oacute;n de los argumentos que se desarrollan desde el principio y que culminan en la explicaci&oacute;n de un marco de trabajo (framework) para el etiquetado social.</p> <h2>Aspectos remarcados y descartados</h2> <p>Dada la longitud del documento, mi intenci&oacute;n ha sido extraer los aspectos esenciales y dividirlos en unos pocos posts.  Por lo tanto no pretendo realizar un resumen completo ni tampoco entrar en detalle con conceptos conocidos tanto en el mundo de la inform&aacute;tica como en el de la documentaci&oacute;n y la recuperaci&oacute;n de la informaci&oacute;n.</p> <p>Si despu&eacute;s de leer los siguientes posts hay inter&eacute;s por saber m&aacute;s, creo que el salto l&oacute;gico es al menos hojear el documento, porque realmente su autor se lo merece.</p><h2>Enfoque del proyecto</h2><p>Aunque el punto de partida es el uso de los metadatos generados por los usuarios, el objetivo se centra en analizar los m&eacute;todos por los que los usuarios con <strong>intereses, opiniones y actividades parecidas</strong> puedan identificarse y localizarse.</p><p>En un segundo nivel est&aacute; el inter&eacute;s por identificar los puntos de conexi&oacute;n entre <strong>grupos tem&aacute;ticamente distantes</strong> pero susceptibles de intercambiar informaci&oacute;n.</p><blockquote>Se debe entender el contexto como un tipo de informaci&oacute;n que caracteriza el entorno individual y social, y que puede emerger de la actividad propia de la interacci&oacute;n persona-entorno.</blockquote><p>Estos dos niveles permiten concentrar contextos individuales para conformar grupos de inter&eacute;s.</p><p>Por ello el estudio considera que contenido y contexto es inseparable, de modo que se adopta una perspectiva fenomenol&oacute;gica de la informaci&oacute;n.  Esto determina el enfoque del resto del estudio, y lo distancia de la ortodoxia de los lenguajes documentales, donde contexto y contenido se disocian.</p><h2>Semi&oacute;tica, psicolog&iacute;a u sociolog&iacute;a</h2><h3>Semi&oacute;tica: sintaxis, sem&aacute;ntica y pragm&aacute;tica</h3><p>La interpretaci&oacute;n de un signo se da a tres niveles distintos: <strong>sintaxis, sem&aacute;ntica y pragm&aacute;tica</strong> (esta &uacute;ltima ya comentada en relaci&oacute;n a la teor&iacute;a de la relevancia).  La primera establece la relaci&oacute;n entre signos; la segunda entre signos y objetos; y la tercera entre signos, objetos y el individuo.</p><p>El contexto individual es pues aplicable al &aacute;mbito de la pragm&aacute;tica, que es el nivel que describe la visi&oacute;n personal.</p><p>Tambi&eacute;n se crea un contexto compratido al mismo nivel de la pragm&aacute;tica (jerga), tras lo cual se da un salto desde la folksonom&iacute;a (centrado en los signos y la sintaxis) hacia la etnoclasificaci&oacute;n (los signos distintivos de una &quot;tribu&quot;).</p><h3>Psicolog&iacute;a: Memorias transactivas</h3><p>Seg&uacute;n Wegner (1987), la interacci&oacute;n social es la base de creaci&oacute;n  de una <strong>memoria colectiva</strong>.  Esta memoria compartida tiene lugar preferentemente en grupos cohesionados que generan &quot;etiquetas&quot; (o jergas) que sirven como denominador com&uacute;n del grupo.</p><p>Un aspecto clave en las memorias transactivas es que es necesario saber qui&eacute;n es experto en qu&eacute; para que la informaci&oacute;n fluya y se convierta en parte cohesionadora del grupo.</p><h3>Sociolog&iacute;a</h3><p>La aportaci&oacute;n en este campo viene dada por Harper (1999). Este autor analiz&oacute; el acceso, evaluaci&oacute;n y proceso de informaci&oacute;n seg&uacute;n la motivaci&oacute;n y la relevancia.</p><p>Por ejemplo, es importante valorar c&oacute;mo afecta la autoridad del responsable de la informaci&oacute;n, si hay una revision del contenido, y la actividad del revisor.</p><p>Al conocer el contexto social (motivaci&oacute;n y actividad de autores e intermediarios) en el que se ha desarrollado la informaci&oacute;n, el receptor asigna un valor a &eacute;sta, no directamente por su contenido.</p><h2>Redes sociales</h2><h3>Caracter&iacute;sticas de las redes sociales</h3><p>Despu&eacute;s de analizar los conceptos te&oacute;ricos anteriores, el autor describe los elementos y procesos que describen las redes sociales. </p><p><strong>Atributos</strong>: densidad, centralidad, estructura, y puentes/transitividad.</p><p>De lo anterior vale la pena describir brevemente la <strong>transitividad</strong>, ya que interesa su aplicaci&oacute;n en sistemas de reputaci&oacute;n social.  Se debe entender la transitividad como la m&aacute;xima &quot;los amigos de mis amigos son mis amigos&quot;.  Desde luego esta m&aacute;xima no siempre tiene lugar, ya que depende de relaciones entre nodos que previamente son muy densas (muchas relaciones entre nodos).</p><h3>Teor&iacute;as en redes sociales</h3><blockquote>Seg&uacute;n Wellman (1990) describe tres caracter&iacute;sticas para definir la fortaleza de una relaci&oacute;n: intimidad (amistad), voluntariedad de la interacci&oacute;n (interacci&oacute;n) y participaci&oacute;n en contextos sociales comunes (multiplexidad).</blockquote><p>&nbsp;</p><p>Al analizar el conjunto de las relaciones entre miembros de la red, podemos llegar a la identificaci&oacute;n de focos de inter&eacute;s.  Estos focos pueden venir determinados por cuestiones psicol&oacute;gicas, sociales, legales o actividades comunes.  La probabilidad de relaci&oacute;n de dos personas con temas en com&uacute;n es mucho mayor.  Interesa identificar estos grupos para generar un mayor grado de recomendaci&oacute;n y facilitar el intercambio de conocimiento basado en las relaciones (memorias transactivas).</p><p>El an&aacute;lisis de estos focos diferencia entre relaciones intrafocales (micro-integraci&oacute;n) e interfocales (macro-integraci&oacute;n).  Mientras que las relaciones intrafocales fortalecen los grupos tem&aacute;ticos, las relaciones interfocales favorecen la interdisciplinariedad y limitan el riesgo de isolaci&oacute;n de nodos. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26799/navegacion-social-utilizando-tagging-1</link><pubDate>Mon, 03 Mar 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Las tareas y la motivaci&oacute;n]]></title><description><![CDATA[<p>&iquest;Podr&iacute;a este ordenador valorar la motivaci&oacute;n para tu lista de tareas? La respuesta es que quiz&aacute;s s&iacute;. El sistema no se basa en analizar la velocidad del tecleo ni de tu agilidad para cambiar de ventanas con el Alt+Tab.  Eso es t&eacute;cnica, y no motivaci&oacute;n.</p><p>Por aquella m&aacute;xima que dice que <em>hay que saber escuchar el silencio</em>, parece ser que la respuesta est&aacute; en los lapsos de tiempo entre tareas, o al menos as&iacute; lo afirma el an&aacute;lisis de la gesti&oacute;n de tareas en base a la motivaci&oacute;n... </p> <h2>Fundamentos te&oacute;ricos </h2><p>Tradicionamente, el proceso de resoluci&oacute;n de tareas se ha modelizado utilizando la denominada <a href="http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_Poisson" title="Wikipedia: Distribuci&oacute;n de Poisson">Ley de Poisson</a>, y que consiste en suponer que el n&uacute;mero de eventos que suceden dentro de una unidad temporal (llamadas a un tel&eacute;fono por hora, clientes por minuto en el cajero del supermercado), con un intervalo de tiempo entre eventos que sigue una <a href="http://es.wikipedia.org/wiki/Distribuci%C3%B3n_exponencial" title="Wikipedia: Distribuci&oacute;n Exponencial">Ley Exponencial</a>.</p><p>A nivel de an&aacute;lisis del proceso, la resoluci&oacute;n de tareas se modeliza aplicando la <a href="http://es.wikipedia.org/wiki/Teor%C3%ADa_de_colas" title="Wikipedia: Teor&iacute;a de colas">teor&iacute;a de colas</a>. Lo que plantea esta teor&iacute;a es que hay uno o m&aacute;s individuos (servidores) que procesa peticiones (clientes) uno tras el otro. Hay diferentes variantes en base al establecimiento de prioridades, si dos servidores colaboran o son independientes, etc. Aunque en general, si no se comenta lo contrario, el proceso de las peticiones se realiza seg&uacute;n el m&eacute;todo <a href="http://es.wikipedia.org/wiki/FIFO" title="Wikipedia: FIFO">FIFO</a>.</p><h2>De la gesti&oacute;n de tareas a la gesti&oacute;n de la motivaci&oacute;n</h2><p>El proceso explicado hasta aqu&iacute; es todo lo matem&aacute;tico que se puede esperar. Sin embargo hay una caracter&iacute;stica de la distribuci&oacute;n exponencial que la hace <em>demasiado racional</em>: Se considera que la distribuci&oacute;n exponencial <strong>no tiene memoria</strong>, es decir, que su probabilidad condicionada (el lapso de espera hasta el pr&oacute;ximo evento sabiendo el tiempo del anterior lapso) es igual a su probabilidad incondicionada.</p><p>Utilizando t&eacute;rminos m&aacute;s llanos: un proceso o una persona que se modeliza utilizando la ley exponencial no se cansar&iacute;a, ni se aburrir&iacute;a, ni se motivar&iacute;a.  Simplemente resolver&iacute;a seg&uacute;n la <em>dificultad racional</em> de la tarea.  Esta premisa quiz&aacute; sea aplicable a entornos de trabajo con alta mecanizaci&oacute;n de tareas, pero en entornos informacionalmente intensivos, el criterio no est&aacute; tan claro.</p><p>Ante este escenario, el Art&iacute;culo <a href="http://arxiv.org/abs/0711.0741" title="Arxiv: Human Dynamics with adaptive interest">Human Dynamics with Adaptive Interest</a> propone un cambio de paradigma para encontrar soluciones m&aacute;s ajustadas a la realidad, escogiendo el modelo basado en el inter&eacute;s (<em>interest-based model</em>) enfrente al orientado a tareas (<em>task based</em>). </p><h2>An&aacute;lisis y metodolog&iacute;a<br /></h2><p> La metodolog&iacute;a seguida en el estudio es el de la simulaci&oacute;n estad&iacute;stica del proceso, introduciendo el factor de motivaci&oacute;n como una variable m&aacute;s, y extrayendo de los resultados el nuevo modelo estad&iacute;stico de periodicidad en la resoluci&oacute;n de tareas.</p><p>Este cambio de modelo matem&aacute;tico trata de analizar el cambio del concepto <em>habilidad de resoluci&oacute;n</em> enfrente a <em>motivaci&oacute;n de la resoluci&oacute;n</em> de las tareas encomendadas. Sin &aacute;nimo de grandilocuencia, se podr&iacute;a decir que este cambio equivale al paso de la inteligencia racional a la inteligencia emocional. </p><p>El resultado de la simulaci&oacute;n demuestra que las fases m&aacute;s activas se concentran mucho m&aacute;s y las inactivas se dilatan dando lugar a fases fren&eacute;ticas (con niveles intensos de interacci&oacute;n) seguidas de fases m&aacute;s largas de inactividad (poca motivaci&oacute;n). Se entiende que son <em>m&aacute;s largas</em> <strong>en relaci&oacute;n a</strong> lo que cabr&iacute;a esperar aplicando los modelos Poisson-Exponencial.</p><h2>Conclusiones</h2><p>El estudio afirma que el modelo matem&aacute;tico que se ajusta a esta nueva circunstancia es una <a href="http://es.wikipedia.org/wiki/Ley_potencial" title="Wikipedia: Ley potencial">ley potencial</a> con exponente -1 para modelizar el tiempo entre eventos.</p><p>Esta conclusi&oacute;n puede ser de inter&eacute;s para analizar los patrones de fen&oacute;menos tan dispares como la navegaci&oacute;n web, el zapping, y en general cualquier tarea que implique motivaci&oacute;n.  Dos &aacute;reas de aplicaci&oacute;n que pueden ser interesantes son el an&aacute;lisis del tiempo en estudios de interacci&oacute;n persona-ordenador (para identificar el grado de usabilidad del sistema cuando existe motivaci&oacute;n por el usuario), y a un nivel m&aacute;s concreto, los estudios de b&uacute;squeda y recuperaci&oacute;n de la informaci&oacute;n, para obtener una m&eacute;trica de motivaci&oacute;n en el tiempo entre eventos.</p><p>A pesar de lo interesante del modelo, los autores apuntan algunas limitaciones de &eacute;ste, ya que existen muchos ingredientes que intervienen en la motivaci&oacute;n humana, varios de los cuales ni siquiera se han estudiado a fondo a nivel psicol&oacute;gico. Es un estudio que llevar&aacute; tiempo, para el que las conclusiones del estudio (que adem&aacute;s son simulaciones y no un trabajo de campo)  pueden servir de base para otros an&aacute;lisis.</p><p>Volviendo a la pregunta inicial, el ordenador no tiene toda la informaci&oacute;n necesaria para poder extraer conclusiones. Por ejemplo, el ordenador no tiene informaci&oacute;n sobre si est&aacute;s hablando por tel&eacute;fono o alguien te interrumpe a mitad de una tarea. Pero podr&iacute;a empezar a disponer de indicadores objetivos (matem&aacute;ticos) que le indicaran que te est&aacute; bajando la moral.</p><p>Y... &iquest;Qui&eacute;n lo sabe? Quiz&aacute; se est&aacute; creando un nicho de mercado para salvapantallas motivadores ;-).  </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26797/tareas-motivacion</link><pubDate>Thu, 21 Feb 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Reutilizar e intercambiar intereses con el tagging]]></title><description><![CDATA[<p>De los entornos comunitarios que han surgido con la web social, quiz&aacute; el que m&aacute;s ha cuajado en todos los niveles es el del etiquetado social.  Desde luego en el sector de los profesionales de la informaci&oacute;n es un tipo de aplicaci&oacute;n que ha despertado gran inter&eacute;s.</p><p>Y tambi&eacute;n es curioso que a menudo se ha percibido como una amenaza a la profesi&oacute;n, como muchas de las mejoras de acceso a la informaci&oacute;n que han llegado con la irrupci&oacute;n de Internet (con los buscadores la frente).</p><p>Teniendo todos los usuarios al alcance de la mano estas herramientas de bookmarking social, &iquest;qu&eacute; papel juegan los bibliotecarios y documentalistas? Probablemente esto depende de la utilidad que se extraiga del servicio. Esa utilidad depende a corto plazo del uso personal, pero a largo plazo depende de lo que podamos compartir con otros.</p><p>&iquest;Compartimos mucho a trav&eacute;s de los sitios de <em>social bookmarking</em>? Un estudio sugiere que no...</p> <h2>Motivaci&oacute;n y fuentes de datos </h2> <p>El art&iacute;culo <a href="http://arxiv.org/abs/0711.4142" title="Content Reuse and Interest Sharing in Tagging Communities">Content Reuse and Interest Sharing in Tagging Communities</a> recoge datos obtenidos a partir de los sitios <a href="http://www.citeulike.org/" title="CiteULike">CiteULike</a> y <a href="http://www.connotea.org/" title="Connotea">Connotea</a>.  Ambos parecen servicios m&aacute;s orientados a ambientes acad&eacute;micos y cient&iacute;ficos. Al menos lo parecen m&aacute;s que del.icio.us.</p><p>El estudio se centra en estudiar el grado de colaboraci&oacute;n, y analiza el nivel de reutilizaci&oacute;n de los contenidos, y la compartici&oacute;n de intereses.</p><p>En el estudio se cita a (Wu et al., 2006) en referencia a los mecanismos que debe incluir una comunidad de etiquetado social para convertirse en una buena herramienta de gesti&oacute;n del conocimiento: identificaci&oacute;n de la comunidad, recomentaci&oacute;n de usuarios/documentos, y generaci&oacute;n de ontolog&iacute;a.  Tambi&eacute;n se cita el grado de colaboraci&oacute;n como una herramienta eficiente que permitir&iacute;a complementar algoritmos como el <a href="http://es.wikipedia.org/wiki/PageRank" title="Wikipedia: Pagerank">PageRank</a> para la recuperaci&oacute;n de resultados.</p><p>Las citas se hacen argumentando que el &eacute;xito de implantaci&oacute;n de estas tres herramientas depende del grado de colaboraci&oacute;n de la comunidad, por lo que el an&aacute;lisis posterior viene a deducir la viabilidad de implantaci&oacute;n de tales servicios. </p> <h2>An&aacute;lisis</h2> <p>Se extraen datos de los dos sitios indicados antes y se analizan dos m&eacute;tricas: Reutilizaci&oacute;n de contenido (en base a la repetici&oacute;n de tags y conjuntos de tags). Una vez analizada la reutilizaci&oacute;n de etiquetas, es posible analizar el grado en que dos usuarios diferentes comparten intereses.</p><p>Para realizar el an&aacute;lisis se utilizan dos f&oacute;rmulas:</p> <ul><li>Relaci&oacute;n entre usuarios y recursos (User-Item): Dados dos usuarios distintos, se obtiene un cociente entre el n&uacute;mero de recursos que ambos han etiquetado (intersecci&oacute;n) y la suma de los recursos diferentes etiquetados por cada uno (uni&oacute;n).</li><li>Relaci&oacute;n entre usuarios y etiquetas (User-tag): An&aacute;logamente al anterior ratio, se divide el n&uacute;mero de etiquetas en las que ambos usuarios coinciden (intersecci&oacute;n), por el total de etiquetas diferentes de ambos usuarios (Uni&oacute;n).</li></ul> <p>Las conclusiones que se extraen utilizando ambos indicadores es que hay pocos usuarios que compartan recursos y a&uacute;n menos que compartan etiquetas.</p><p>En referencia a compartir recursos, el estudio apunta a que es posible que los usuarios empiecen a compartir, pero que no hay acuerdo en los tags utilizados para describir un &iacute;tem. No se apuntan causas para entender el por qu&eacute; de la diferencia. </p><h2>La estructura de los intereses compartidos</h2><p>El estudio diferencia tres niveles de intercambio, que recuerdan mucho a los estudios que analizan poblaciones con estructuras relacionadas con la Power law. En general los tres niveles se establecen en base a los dos ratios anteriores, pero por lo comentado antes, es m&aacute;s significativo el ratio de compartici&oacute;n de contenidos que el de etiquetas compartidas:</p><ul><li>Una mayor&iacute;a de usuarios (53% de los nodos) aislados, sin relaci&oacute;n con otros, o al menos con preferencias muy distanciadas del conjunto. </li><li> Una cantidad considerable (15% de los nodos) de subcomunidades pr&aacute;cticamente disjuntas entre ellas. Estas comunidades se agrupan principalmente en base a los recursos etiquetados, y una &iacute;nfima minor&iacute;a por las etiquetas compartidas. </li><li>Un n&uacute;cleo denso en el que se comparte establece un ratio medio de 0,66 para los recursos compartidos y un 0,17 para los tags compartidos.</li></ul><p>El estudio avisa que estas conclusiones est&aacute;n limitadas por el hecho de haber analizado s&oacute;lo dos de las comunidades de este tipo, aunque a&ntilde;aden que la representatividad de la muestra es suficiente para un an&aacute;lisis previo como este.</p><p>La principal conclusi&oacute;n es que <strong>debido a estos bajos niveles de colaboraci&oacute;n, est&aacute; teniendo lugar un bajo nivel de aprovechamiento de la inteligencia colectiva [social knowledge] que se produce</strong>.</p><p>Finalmente, se a&ntilde;aden algunos comentarios y mejoras para las comunidades de etiquetado:</p><ul><li>La colaboraci&oacute;n no surge de forma natural, y el efecto en estas comunidades es que los usuarios de estos servicios perciben m&aacute;s utilidad en su gesti&oacute;n personal que en la capacidad de agregaci&oacute;n de conocimiento.</li><li>Los sistemas de recomendaci&oacute;n se basan en la similitud de intereses entre usuarios, pero dado que hay poco nivel de similitud en el uso de las etiquetas y (a menor nivel) de recursos, el potencial de los sistemas de recomendaci&oacute;n en las comunidades analizadas es bajo. En cambio el grado de &eacute;xito de los sistemas de recomendaci&oacute;n llegan al 90% cuando se restringe las predicciones a &iacute;tems reutilizados. </li><li>Se comentan los sistemas de reputaci&oacute;n, que tambi&eacute;n se ven afectados debido a que la dispersi&oacute;n comentada favorece a la infiltraci&oacute;n de contenido pernicioso, que son dif&iacute;cilmente detectables debido a la poca densidad de relaciones de este entorno social (se asemeja al feudalismo informacional). Por otro lado, no es posible establecer una reputaci&oacute;n para los usuarios que no tienen un m&iacute;nimo nivel de reutilizaci&oacute;n de recursos.</li></ul><h2>Tagging disperso para profesionales de la informaci&oacute;n</h2><p>Es interesante comprobar que las circunstancias de aislamiento se pueden producir en un entorno cl&aacute;sico de organizaci&oacute;n de la informaci&oacute;n y en una red social de etiquetado.  A pesar que <a href="http://www.terremoto.net/tipologias-y-estlos-en-el-etiquetado-social/" title="Tipolog&iacute;as y estilos en el etiquetado social">hay una gran variedad de estilos de etiquetado</a>, hay un espacio en la oferta de servicios para usuarios que quieren aprovechar el esfuerzo de otros e integrarse sin la necesidad de ser pioneros. Incluso es importante entender que muchos usuarios ni siquiera se dan cuenta del potencial de compartir y analizar lo que otros indexan.<br /> </p><p>En ese gran espacio entre el n&uacute;cleo, las subcomunidades y los usuarios usuarios aislados, es posible que el profesional de la informaci&oacute;n pueda encontrar muchos espacios-nicho en los cuales analizar los usuarios con intereses cercanos a su nicho, agregarlos, seleccionar los recursos y reetiquetarlos para hacerlos llegar a otros usuarios.</p><p>El profesional se puede convertir en un catalizador de la comunidad (estoy seguro que la expresi&oacute;n no es nueva). Sus etiquetas pueden tener una estructura m&aacute;s est&aacute;ndar. Esta estandarizaci&oacute;n puede servir de puente para conectar las etiquetas de las fuentes y los destinatarios, explicitando a&uacute;n m&aacute;s el grado de reutilizaci&oacute;n.</p><p>El valor a&ntilde;adido es alto: </p><ul><li>S&oacute;lo buscas la mitad del tiempo, y parte de la otra mitad se dedica a evaluar los contenidos recibidos.</li><li>Si los recursos encontrados no convencen, es probable que aporten ideas sobre qu&eacute; buscar y qu&eacute; no. </li><li>El profesional puede actuar como referencista para dirigir al usuario hacia otros miembros de la comunidad que tengan intereses o recursos cercanos al que busca.</li></ul><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26796/reutilizar-intercambiar-intereses-tagging</link><pubDate>Tue, 19 Feb 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[patrones organizativos y gesti&oacute;n de informaci&oacute;n]]></title><description><![CDATA[<h2>Punto de partida </h2><p>Una de las cosas que m&aacute;s tranquilizan al iniciar un proyecto de desarrollo es tener a mano los resultados de experiencias anteriores.  Da igual si se consigue mediante el benchmarking o con el intercambio de experiencia entre profesionales: conocer un caso de &eacute;xito es importante porque permite descartar cien casos de no-&eacute;xito (que no fracaso). </p><p>Cuando eso no se tiene en el entorno pero se analizan varios proyectos con caracter&iacute;sticas comunes, es  probable que se puedan identificar patrones organizativos entre varias organizaciones diferentes. </p><p>Salvando las diferencias de tama&ntilde;o o volumen de negocio, los productos o servicios determinan parcialmente la organizaci&oacute;n interna. Ello se debe tanto a las caracter&iacute;sticas del producto como a los recursos humanos especializados en esa tarea, las condiciones de producci&oacute;n, y las estrategias comerciales de cada sector.</p><p>A pesar de ello, acostumbra a haber un cierto grado de libertad en la creaci&oacute;n de la estructura y el organigrama, y en cualquier caso tambi&eacute;n depende de din&aacute;micas internas (econ&oacute;micas, sociales y de poder) que determinan siempre diferencias. </p> <h2>Patrones organizativos y de comportamiento<br /></h2><p>En el caso de organizaciones con un perfil muy centrado en el tratamiento de la informaci&oacute;n, acostumbran a tener algo en com&uacute;n: producen, capturan, filtran y ofertan informaci&oacute;n. No lo hacen como herramienta de soporte a su negocio, sino <strong>como fuente de negocio</strong>. Aunque se puedan dedicar a sectores muy distintos, comparten esa caracter&iacute;stica en com&uacute;n.</p><p>Uno de los aspectos que m&aacute;s ha variado en los &uacute;ltimos tiempos es la percepci&oacute;n del potencial de las TIC para conseguir una mayor productividad, cuando antes preponderaba la mejora de imagen y la sensaci&oacute;n de mayor control interno.</p><p>Eso supone un cambio de mentalidad respecto a lo que hab&iacute;a hace cinco a&ntilde;os. Por entonces se pod&iacute;a empezar un proyecto y saber que el cliente lo quiere &ldquo;porque hay que hacerlo&rdquo; o &ldquo;porque toda la competencia lo est&aacute; haciendo&rdquo;. No es raro ese planteamiento, lo que sucede es que no favorece a una implicaci&oacute;n de la gerencia. El mayor riesgo del proyecto era morir por inanici&oacute;n, si es que llegaba a finalizarse.</p><p>Ahora eso ha cambiado, y cada vez es m&aacute;s transparente la relaci&oacute;n entre los objetivos de negocio y las implantaciones TIC. No trato de generalizar, y adem&aacute;s estoy convencido que en esa percepci&oacute;n interviene las experiencias que he tenido. Pero s&iacute; es cierto que cuanto m&aacute;s proyectos salen a la luz, m&aacute;s se empieza a perfilar el por qu&eacute; de los beneficios (en un sentido amplio) de la introducci&oacute;n de la empresa en la Red.</p><p>Por muy abstracto que sea un concepto, siempre se echa mano de casos concretos para poder fijar mejor las ideas. Para el objetivo actual, las organizaciones que tengo en mente son organizaciones que pueden dedicarse a producir informaci&oacute;n interna, pero que tambi&eacute;n se dedican a capturar, filtrar y reprocesar informaci&oacute;n externa para ofrecer productos informacionales a sus clientes.</p><p>Uno se da cuenta que existe una coincidencia de patrones en la forma de producir informaci&oacute;n, seleccionar las fuentes, filtrarlas, y ofertarlas. Esas coincidencias no parecen ser superficiales:</p><ul><li>Problem&aacute;tica com&uacute;n al capturar y procesar informaci&oacute;n. Esto se refiere tanto a temas relacionados con el copyright, como temas t&eacute;cnicos (formatos y protocolos principalmente). La fuentes externas de informaci&oacute;n no son necesariamente de la web abierta, ya que tambi&eacute;n pueden proceder de fuentes de pago, etc. Pero las fuentes m&aacute;s complejas de tratar son las derivadas de la web social abierta o web-2.0. Se podr&iacute;a resumir que <strong>captar, procesar y adecuar informaci&oacute;n externa consume una gran cantidad de recursos</strong>.<br /></li></ul><ul><li>Fruto de esta heterogeneidad en las fuentes, acostumbra a existir un conflicto entre la asignaci&oacute;n de las tareas autom&aacute;ticas y las manuales en el proceso de filtrado, selecci&oacute;n y procesado. <strong>Es clave encontrar un equilibrio entre la eficiencia y la calidad en el filtrado de la informaci&oacute;n</strong>. Como en cualquier sistema de informaci&oacute;n hay muchas tareas automatizables, pero no existe la varita m&aacute;gica. Hay que valorar cada fuente, la relaci&oacute;n ruido-se&ntilde;al y el coste de ese filtrado en relaci&oacute;n al beneficio.</li></ul><ul><li>La forma de trabajar, o al menos en c&oacute;mo ha tenido que variar para adaptarse al nuevo entorno. Quiz&aacute; por ser informaci&oacute;n el principal activo, <strong>se tienen los ojos m&aacute;s abiertos hacia afuera de la organizaci&oacute;n</strong>.  Y tambi&eacute;n porque se toma conciencia de lo importante de mantener una pol&iacute;tica de acceso a la informaci&oacute;n adecuada.</li></ul><ul><li>El crecimiento de esta actividad viene acompa&ntilde;ado de un <strong>conflicto a nivel de recursos humanos</strong>: no tanto por capacidades del personal interno, sino <strong>por captar nuevos profesionales capacitados para el nuevo enfoque</strong>. En proyectos y portales web, es muy complejo encontrar personas todoterreno con conocimientos (no digo que dominen, pero s&iacute; que se defiendan) sobre XHTML y CSS, bases de datos, que escriban bien, sepan organizar la informaci&oacute;n y tengan un m&iacute;nimo gusto para el grafismo y la estructura visual, etc. S&oacute;lo dominando uno o dos de estos campos, y mantener una conversaci&oacute;n m&iacute;nima sobre el resto, un profesional as&iacute; tiene trabajo asegurado.</li></ul><ul><li>El abrirse a la Red como fuente de informaci&oacute;n y di&aacute;logo despierta el <strong>inter&eacute;s por incluir novedades de la web social en su modelo organizativo</strong>, tanto a nivel operativo como de negocio. En un momento u otro los miembros de estas organizaciones prueban nuevos servicios y extraen ideas interesantes para su tarea diaria o su relaci&oacute;n con los clientes.</li></ul><ul><li>Coincidencia en las caracter&iacute;sticas de los <strong>esquemas de pago para sus modelos de negocio</strong> con productos documentales. Se barajan estrategias que van desde el pago por elemento (<em>pay per view</em>) hasta el acceso por subscripci&oacute;n, que incluyen servicios de valor a&ntilde;adido, e incluso la incrustaci&oacute;n de contenidos en los portales corporativos de los clientes. Sobre esto s&oacute;lo apuntar las posibilidades que brindan los micropagos, aunque por la tarificaci&oacute;n y los m&aacute;rgenes que actualmente me constan, me parece un timo. </li></ul><p>Cada cual habr&aacute; identificado sus patrones organizativos, y probablemente exista gran cantidad de literatura al respecto. Pero me ha parecido interesante aportar un granito de arena en base a mi experiencia profesional.</p><p>En base a esta informaci&oacute;n he indagado sobre la estructura interna de la organizaci&oacute;n, la forma como se relaciona cada elemento con el conjunto, y el papel de la Red en todo esto. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26794/patrones-organizativos-gestion-informacion</link><pubDate>Sat, 09 Feb 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Empresas informacionales: del 2003 al 2008]]></title><description><![CDATA[<p>A partir de lo comentado en el <a href="../../../../../../content/view/patrones-organizativos-gestion-informacion" title="Sopa de bits: patrones organizativos y gesti&oacute;n de informaci&oacute;n">post sobre patrones organizativos para mejorar la gesti&oacute;n de la informaci&oacute;n</a>, he buscado fuentes b&aacute;sicas para ubicar esos patrones en la estructura interna de las empresas.</p><p>Aunque sigue siendo v&aacute;lida la distinci&oacute;n entre informaci&oacute;n ambiental, interna y corporativa, esos l&iacute;mites cada vez se difuminan y se equilibran m&aacute;s.  No s&eacute; si <a href="http://es.wikipedia.org/wiki/Osmosis" title="Wikipedia: Osmosis">&oacute;smosis</a> ser&iacute;a el t&eacute;rmino m&aacute;s descriptivo de este fen&oacute;meno, en cualquier caso se acerca bastante: la informaci&oacute;n como solvente es el agente que equilibra el exterior y el interior de la empresa-c&eacute;lula.</p><p>Despu&eacute;s de ese proceso de introducci&oacute;n de los nutrientes necesarios, la c&eacute;lula debe saber procesarlos, para lo cual es imprescindible disponer de <a href="../../../../../../content/view/cadena-trofica-fagocitar-rumiar-digerir-informacion" title="Sopa de bits: rumiar">los medios necesarios para digerir</a>...</p> <p>El art&iacute;culo &ldquo;<a href="http://www.uoc.edu/dt/20138/index.html" title="La gesti&oacute; del coneixement en la nova economia">La gesti&oacute; del coneixement en la nova economia&rdquo;</a> <a href="http://www.uoc.edu/dt/20133/index.html" title="La gesti&oacute;n del conocimiento en la nueva econom&iacute;a">[en castellano</a>](2003) muestra como conclusi&oacute;n la creaci&oacute;n de los siguientes elementos clave dentro de las empresas dedicadas intensivamente al conocimiento</p><ul><li><strong>Servicio de Informaci&oacute;n corporativa (EIS)</strong>: Se trata de un sistema que debe proveer a la organizaci&oacute;n de toda la informaci&oacute;n de car&aacute;cter ambiental. <strong>El servicio de informaci&oacute;n corporativa incluye la informaci&oacute;n con una estructura documental</strong> (no se trata de datos data-centric sino document-centric).  En general se podr&iacute;a afirmar que este bloque es el que se refiere a lo conocido como Inteligencia competitiva.</li><li><strong>Repositorio de datos (Data warehouse)</strong>: Repositorio de <em>datos estructurados</em> dentro de la organizaci&oacute;n que pueden ser objeto de an&aacute;lisis y de soporte a la toma de decisiones.  Se puede tratar mayoritariamente de datos generados internamente (controles de calidad, cifras de ventas de productos, precios...) pero tambi&eacute;n pueden incluirse datos generados externamente (estad&iacute;sticas de un sector, mercado de valores, etc.). Por lo general se pueden aplicar t&eacute;cnicas de <strong>data mining</strong> para <strong>organizar y estructurar los datos </strong>del modo m&aacute;s rentable posible.</li><li><strong>Gestor de la relaci&oacute;n con los clientes (CRM)</strong>: Es la aplicaci&oacute;n que aglutina toda la documentaci&oacute;n sobre las <em>acciones comerciales</em>, informaci&oacute;n <strong>sobre los clientes</strong>, estudios de satisfacci&oacute;n y mercado, y tambi&eacute;n oportunidades de negocio. Por lo general se debe entender como un sistema de <strong>recopilaci&oacute;n del feed-back del entorno</strong> en referencia a los productos o servicios que la organizaci&oacute;n ofrece.</li><li><strong>Entorno de conocimiento (Knowledge Space)</strong>: Se trata de un dep&oacute;sito de documentos o archivos utilizados por la empresa, ya sean generados interna o externamente a esta.  Se supone que en la organizaci&oacute;n de este entorno la fuente constar&aacute; de alg&uacute;n modo. Este espacio ha recibido otros nombres como <em>knowledge base</em>, aunque en general se puede entender como un sistema de organizaci&oacute;n, almacenamiento y  recuperaci&oacute;n de la informaci&oacute;n (en forma de documentos).</li><li><strong>Red de intercambio (Sharing Network)</strong>: Se trata de un espacio de intercambio de ideas entre miembros de la organizaci&oacute;n. Principalmente se habla de medios para comunicar, o compartir.<br /></li><li><strong>Cultura organizativa innovadora:</strong> Se trata de el nexo de uni&oacute;n entre los cuatro aspectos anteriores.  Lo considero imprescindible, pero dado que profundizar en estos aspectos est&aacute; lejos del inter&eacute;s de este post, lo indicar&eacute; aqu&iacute; sin entrar m&aacute;s a fondo.</li></ul><p>El esquema que se presenta en ese documento tiene un enfoque principalmente conceptual, por lo que no establece el contexto ni la operativa de la relaci&oacute;n entre los anteriores elementos.</p><p>Tratando de entender m&aacute;s a fondo la operativa de una organizaci&oacute;n eficiente en la gesti&oacute;n de la informaci&oacute;n he reorganizado el esquema y lo he ampliado incorporando otros &iacute;tems de su entorno para contextualizarlo mejor.</p><p>Con el esquema ampliado me planteo incorporar los siguientes elementos:</p><ul><li>La forma que presentan las <strong>fuentes externas</strong>, tanto si se refieren a las caracter&iacute;sticas de los clientes como del resto del mercado y el entorno.</li><li>Los <strong>puntos de contacto </strong>entre los cuatro elementos anteriores.</li><li>Su <strong>relaci&oacute;n con las funciones de soporte</strong> (funciones transversales que se pueden encontrar en cualquier empresa) <strong>y de negocio</strong> (las funciones que generan valor y que se centran en los objetivos de la organizaci&oacute;n).<br /></li></ul><p>Siguiendo estas premisas, he desarrollado un esquema que trata de seguir siendo del a&ntilde;o 2003:</p><p align="center">&nbsp;</p><div style="text-align: center"><img src="/extranet/gallery/download/4476" alt="Esquema 2003" title="Esquema 2003" width="468" height="300" /></div><div align="justify" style="text-align: center"> </div> <p>El esquema es una aproximaci&oacute;n a algo m&aacute;s concreto que el esquema del art&iacute;culo indicado.  Desde luego, cuando se trata de implantar un sistema corporativo de informaci&oacute;n, las cosas no son as&iacute; de f&aacute;ciles.   Para el objetivo de este post es suficiente, pero desde luego habr&aacute; que seguir profundizando.</p><p>Los datos obtenidos por el EIS pueden provenir de fuentes ya estructuradas, pero tambi&eacute;n obtenidos por procesos de <strong>crawling</strong>, capturando agregadores RSS o parecido.  Se trata de recoger informaci&oacute;n sobre todos los factores susceptibles de alterar la adaptaci&oacute;n al entorno. Son documentos valorados por su contenido.</p><p>Los datos recopilados por el EIS se almacenan en el repositorio de documentos y archivos (<em>knowledge space</em>). Para facilitar la recuperaci&oacute;n posterior interesa poder aplicar herramientas documentales como tesauros o taxonom&iacute;as.</p><p>De forma complementaria, el repositorio de datos almacena informaci&oacute;n sistem&aacute;tica, principalmente datos tabulares. Se trata de una fuente que requiere un tratamiento previo antes de generar informaci&oacute;n.</p><p>Teniendo en cuenta el esquema datos-informaci&oacute;n-conocimiento, puede parecer que el repositorio de datos est&aacute; un paso por debajo del repositorio de documentos, pero es importante, porque es una fuente de datos primarios, de la que <strong>se pueden derivar documentos primarios</strong> con un valor elevado, a cualquier nivel de la organizaci&oacute;n.</p><p>La mayor&iacute;a de la informaci&oacute;n recopilada por el CRM se almacena en el data warehouse, ya que se trata de an&aacute;lisis de satisfacci&oacute;n, compra de productos, etc.  Toda esta informaci&oacute;n tiene un formato estructurado y por ello almacenable en un repositorio de datos. </p><p>Siempre hay informaci&oacute;n de car&aacute;cter cualitativo que debe ser almacenada en forma de documentos, ya sean en forma de art&iacute;culos, transcripciones de focus groups o informes sobre reclamaciones y quejas.<br />Quiz&aacute; lo menos definitivo sea la forma como se conecta el knowledge space, el data warehouse y el sharing network con las funciones de soporte y de negocio.  En general todos los datos se utilizan a nivel de las funciones de soporte.</p><p>Este esquema sigue estando anclado en un esquema organizativo poco orientado al trabajo colaborativo y en red.  Y probablemente ese nuevo modelo de trabajo y organizaci&oacute;n puede aportar mucho al modelo tradicional. </p><h2>El cambio del modelo organizativo</h2><p>Tratando de mantener al m&aacute;ximo los &iacute;tems del esquema anterior, he tratado de aproximar lo que podr&iacute;a ser la evoluci&oacute;n hacia lo que podr&iacute;a llamarse (perd&oacute;n por la pomposidad) la empresa 2.0.</p><p>No se trata de un esquema completo, sino m&aacute;s bien centrado en el papel de la gesti&oacute;n de la informaci&oacute;n y el conocimiento en la organizaci&oacute;n:</p><p align="center">&nbsp;</p><div align="justify" style="text-align: center"><img src="/extranet/gallery/download/4477" alt="Esquema 2008" title="Esquema 2008" width="452" height="176" /></div><div style="text-align: center"> </div><p align="center">El esquema deja bastante claro lo que bajo mi punto de vista ha primado:  el intercambio y la colaboraci&oacute;n.  Los contenidos forman parte imprescindible del conjunto, pero el potencial de la colaboraci&oacute;n en la empresa es mucho m&aacute;s alto. Incluso el CRM debe compartir protagonismo en la relaci&oacute;n con el cliente. </p><p align="center">La informaci&oacute;n siempre sufre del mal de obsolescencia, mientras que el intercambio tiene un factor inherente de actualidad. Situar en el centro de la organizaci&oacute;n el proceso de intercambio permite crear un ecosistema donde compartir equivale a reducir tiempo (filtrar la informaci&oacute;n externa, por ejemplo). Pero adem&aacute;s permitir&iacute;a detectar la informaci&oacute;n que se est&aacute; quedando obsoleta o la que tiene un peso central.</p><h2>Conclusiones </h2><p align="center">En todo este esquema s&oacute;lo a&ntilde;adir&iacute;a un concepto: la cadena de aprovisionamiento o <em>supply chain</em>. El <a href="http://en.wikipedia.org/wiki/Supply_chain_management" title="Wikipedia: Supply Chain Management">Supply Chain Management</a> fue uno de esos t&eacute;rminos que tanto sonaron en la primera burbuja. Al margen de esa euforia, es un t&eacute;rmino que lleg&oacute; para quedarse: s&oacute;lo hay que ver el papel tan importante que juega la log&iacute;stica en la actualidad.  Probablemente las empresas centradas en la informaci&oacute;n puedan extraer ideas de todo lo que supone la log&iacute;stica.  </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26795/empresas-informacionales-2003-2008</link><pubDate>Sat, 09 Feb 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Aspectos clave del 2008 - Publicidad]]></title><description><![CDATA[<p>No ha sido el motor pero quiz&aacute;s si el lubricante. El modelo de los ingresos por publicidad ha sido el m&aacute;s utilizado y quiz&aacute; la esperanza m&aacute;s cercana de ingresos para muchas startups de la web 2.0.</p><p>Con Google y su Adwords (y luego doubleclick) como l&iacute;der en  el sector, y Yahoo! (habr&iacute;a que decir ya Microsoft?) rezagado; con Facebook y su proyecto Beacon, el papel de la publicidad no parece ser el de un actor secundario. </p><h2>Los conceptos b&aacute;sicos<br /></h2><p>No me puedo reconocer como un experto en el tema.  Por suerte hay bastantes documentos disponibles, por ejemplo la <a href="http://www.iab.net/iab_products_and_industry_services/1421" title="IAB - Standards, Guidelines &amp; Best Practices">Internet Advertising Bureau</a>, donde se puede encontrar referencias para temas b&aacute;sicos como los conceptos elementales, hasta las t&eacute;nicas de mejora del rendimiento de publicidad en medios m&oacute;viles, v&iacute;deos, etc.</p><p>Los conceptos b&aacute;sicos de la publicidad en Internet parten de lo que ya existe, aunque al ser un canal diferente y tener medios diferentes ha sido necesario adaptarlo a un entorno interactivo, para pasar de la difusi&oacute;n a la conversaci&oacute;n.</p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26793/aspectos-clave-2008-publicidad</link><pubDate>Sat, 02 Feb 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Cuatro aspectos clave para el 2008 (I)]]></title><description><![CDATA[<p>Ahora que ya ha pasado la esperanza de los Reyes Magos para que nos traigan el regalito esperado, quiz&aacute; sea un buen momento para evaluar tendencias y reconocer factores clave.</p><p>Limitar&eacute; mi perspectiva al munto de la Red, y especialmente a la tecnolog&iacute;a web. La selecci&oacute;n tiene un claro hilo conductor y estoy convencido que sufre el sesgo de mi percepci&oacute;n, por eso cada cual puede hacer su lista.</p><p>En realidad me interesa especialmente todo lo que est&aacute; por venir en lo referente a modelos de negocio e ingresos por servicios. El 2008 se prepara como el a&ntilde;o en el que se empiece a vislumbrar lo que dar&aacute; ingresos, y lo que no. Tanto proyecto nuevo y tanta dispersi&oacute;n no tiene sentido. Si Internet es una aldea, est&aacute; saturada de actividad comercial, y aunque el tiempo de atenci&oacute;n de los internautas haya aumentado, no creo que haya muchos que se pasen el d&iacute;a mirando las novedades. </p><p>Bajo esa visi&oacute;n, los puntos clave que yo percibo son: Identidad, Redes Sociales, Microformatos y Publicidad. He optado por esta selecci&oacute;n teniendo en cuenta no s&oacute;lo la cantidad de informaci&oacute;n vertida sobre estos temas, sino lo esencial que tienen &eacute;stos para modelos de negocio derivados.</p><p>Comentar&eacute; los cuatro temas en cuatro posts separados, as&iacute; la lectura se har&aacute; m&aacute;s llevadera... </p> <h2>Identidad</h2> <p>Cuando todas las partes est&aacute;n interesadas en contactar abiertamente, m&aacute;s vale ponerle cara a la gente. Internet seguir&aacute; siendo un espacio de fantaseo y creaci&oacute;n de identidades irreales, pero a esto se deber&aacute; a&ntilde;adir su consolidaci&oacute;n como canal de difusi&oacute;n de la identidad personal y profesional.</p> <p>En los &uacute;ltimos a&ntilde;os han surgido varias tecnolog&iacute;as y est&aacute;ndares relacionados con la identidad del individuo en la red. Y quiz&aacute; sea importante diferenciar entre dos &aacute;reas de creaci&oacute;n de identidad en la red: la parte de la identidad que se forja para el individuo mismo, y la que se crea para el exterior. </p> <h3>Identidad personal &quot;para m&iacute;&quot; </h3> <p>Para la primera parte, la clave es que el usuario pueda crear una identidad disponiendo de una especie de <em>campo base</em>: un espacio localizado en la red (un nodo) que le permita unificar toda la actividad que desarrolla en la red.  Se trata de un espacio en el que se puede centralizar esa gesti&oacute;n de la identidad digital.</p> <p>Esta gesti&oacute;n se traduce generalmente en la gesti&oacute;n de los siguientes recursos:</p> <ul><li>la creaci&oacute;n de un curr&iacute;culum o presentaci&oacute;n personal, <br /></li><li>la <a href="http://www.error500.net/evolucion-blogging-convergencia-redes-sociales" title="La evoluci&oacute;n del blogging y la convergencia con las redes sociales. Tendencia 2008">producci&oacute;n de contenidos propios</a>, <br /></li><li>Herramientas de gesti&oacute;n de la informaci&oacute;n personal (tareas, documentos personales, calendario, anotaciones, etc.)<br /></li><li>selecci&oacute;n y agregaci&oacute;n de informaci&oacute;n procedente de fuentes externas, y<br /></li><li>Acceso a los medios de comunicaci&oacute;n necesarios para contactar con aquellos que nos interese, <a href="http://blogoscoped.com/archive/2007-12-28-n34.html" title="Google Blogoscoped: My social network">formen parte o no de nuestra red social</a>.</li></ul> <p>Independientemente del entorno en el que se gestione esta identidad (no s&oacute;lo estoy pensando en el software de redes sociales), el tipo de informaci&oacute;n var&iacute;a poco. Lo que s&iacute; var&iacute;a es el uso que se hace: es manifiesto que hay diferencias notables de objetivos entre la gesti&oacute;n para usos profesionales o para ocio. </p> <p>Unificar en un solo entorno nuestras gestiones e informaciones supone un aumento de potencial en cualquier sentido. Pero en cualquier caso permite que personas ajenas nos identifiquen (hasta cierto punto) con ese espacio.</p> <h3>Identidad persona &quot;para los otros&quot; </h3> <p>A partir de ese punto, el aspecto clave es garantizar a los dem&aacute;s que <em>yo soy quien digo que soy</em>. En este punto entramos en el mundo de la certificaci&oacute;n, la firma electr&oacute;nica o mecanismos de autenticaci&oacute;n. Y entre ellos destaco a <a href="http://openid.net/" title="OpenID">OpenId</a>.</p> <p>OpenId es un sistema distribuido para la gesti&oacute;n de la identidad digital <em>para los otros</em>. El objetivo principal es poder identificarse en varios portales y sitios distintos sin tener que crear continuamente nuevos usuarios con sus consabidas contrase&ntilde;as y todo lo dem&aacute;s. </p> <p>Creo que la creaci&oacute;n de una identidad en un solo sitio que se <em>difunda</em> en caso de necesidad es una herramienta muy potente si queremos disponer de un entorno personal de gesti&oacute;n de la identidad.  OpenId proporciona un punto de acceso a la identidad personal, mientras que el sistema en el que trabaje la persona deber&aacute; poder incorporar sistemas de <em>entrada de informaci&oacute;n</em>.</p> <p>Lo anterior incluye utilizar APIs de servicios en los que el usuario se ha registrado con OpenId. Por otro lado, aparte de los contenidos que el usuario ha generado en servicios externos, tambi&eacute;n est&aacute;n otro tipo de registros de actividad de &eacute;ste usuario en la red: por ejemplo, aportaciones en foros o comentarios en blogs, que son informaciones dispersas. &iquest;No estar&iacute;a bien poder mostrar estos datos en nuestro sitio?</p>  <h3>La s&iacute;ntesis: evoluci&oacute;n hacia la red social</h3>  <p>En la s&iacute;ntesis de los dos movimientos (<em>para m&iacute;</em> y <em>para los dem&aacute;s</em>) se puede localizar el concepto de red social.  Y de ese concepto nace el software de redes sociales, que presenta una tendencia de crecimiento notable para el 2008.   <br /> </p> <p>Como apunte final, s&oacute;lo comentar un aspecto ligado a la identidad: el uso de la informaci&oacute;n sobre la actividad del usuario empieza a introducir cuestiones relativas a privacidad. Alegorizando un poco, los espacios como el software de redes sociales han pasado de alquilarnos una habitaci&oacute;n donde invitar a los contactos, a ofrecernos una mesa en pleno espacio p&uacute;blico, con un micr&oacute;fono en el florero de la mesita, y con vendedores ambulantes alrededor. La combinaci&oacute;n de <a href="http://elprincipiodeincertidumbre.net/blog/2007/12/09/datos-usuarios-y-redes-sociales/" title="Datos, usuarios y redes sociales">datos usuarios y redes</a> promete dar para mucho. </p><p>&nbsp;</p><p>&nbsp;</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26788/aspectos-clave-2008-identidad</link><pubDate>Thu, 24 Jan 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Aspectos clave 2008 - Redes Sociales]]></title><description><![CDATA[<p>Como continuaci&oacute;n de la creaci&oacute;n de la identidad, comento el segundo punto, relativo a las redes sociales... </p><p>&nbsp;</p> <h2>Redes sociales</h2> <p>Siempre han estado ah&iacute;, pero nunca como ahora hab&iacute;an tenido tanto protagonismo. Forman parte de la identidad de los individuos y en cierto modo interact&uacute;an con esa identidad. Lo que el PageRank trat&oacute; de identificar en los contenidos, las plataformas redes sociales tratan de deducirlo de sus miembros.</p> <p>Se puede entender a la red social como algo ajeno a Internet. Mi red social existe, est&eacute; o no en mi cuenta de Gmail, Facebook o cualquier otra plataforma.</p>  <p>La combinaci&oacute;n red-plataforma es algo clave para entender los peque&ntilde;os detalles (por ejemplo, lo dif&iacute;cil que es a veces exportar los datos introducidos). Y es clave porque afecta al futuro de la gesti&oacute;n de la identidad personal hacia los dem&aacute;s. Claro que la decisi&oacute;n la toma cada usuario, y se entiende que los usuarios no t&eacute;cnicos escojan opciones m&aacute;s preparadas como Facebook o Google OpenSocial. </p>  <p>Hasta cierto punto voy a mezclar la velocidad con el tocino, pero prefiero OpenId antes que el <a href="http://developers.facebook.com/" title="Facebook Developers">API de Facebook</a>, o el <a href="http://code.google.com/apis/opensocial/" title="Google OpenSocial API">API de OpenSocial</a> (y parece que <a href="http://yhoo.client.shareholder.com/press/releasedetail.cfm?ReleaseID=287698" title="Yahoo! Announces support for OpenID">no soy el &uacute;nico</a>). Los dos primeros son servicios creados alrededor de una red concreta, y eso es ineficiente para la creaci&oacute;n de la identidad. Si miramos al mundo real, cada cual tiene un espacio p&uacute;blico y otro privado. En estas redes sociales esto se diluye un poco.</p> <p>Siguiendo con el esquema <em>para los otros - para m&iacute;</em>, la informaci&oacute;n generada en estas redes sociales cerradas (por mucha API que tengan, exportar los datos es un drama) queda para el uso del responsable de la plataforma. El uso que haga de esta informaci&oacute;n viene justificado por el coste de uso que los usuarios hacen. En <a href="http://feeds.feedburner.com/~r/DataMining/~3/211186586/chris-anderson.html" title="Chris Anderson: Free but at what cost?">Data Mining citan una charla de Chris Anderson y lo explican introduciendo el concepto econ&oacute;mico de &quot;externalidad&quot;</a>. En el momento que alguien puede imponer un <em>para m&iacute;</em>, el nuestro desaparece. </p>  <p>Es por eso que hay que entender las consecuencias de trabajar con un proveedor concreto de red social, y compararlo con OpenID como est&aacute;ndar abierto e independiente de proveedor. No tengo nada contra los dos primeros, s&oacute;lo que ante la dificultad encontrada a menudo por salir (en contraste con la facilidad para entrar) uno a&uacute;n desconf&iacute;a. </p>  <p>Con los tres se puede establecer un modelo de negocio basado en la figura de intermediario (para la demanda) y distribuidor (para la oferta), y recogiendo informaci&oacute;n sobre la actividad de ese usuario identificado. Sin embargo un est&aacute;ndar abierto no necesariamente tiene que vincularse a fiscalizar la actividad del usuario para conseguir un gran volumen de datos y segmentar exhaustivamente los <em>targets</em> vendibles a anunciantes. M&aacute;s all&aacute; de esto, no me resisto a citar el <a href="http://www.documenea.com/story.php?id=37269" title="Facebook y los neoconservadores">art&iacute;culo aparecido en documen&eacute;ame</a> sobre <a href="http://www.guardian.co.uk/technology/2008/jan/14/facebook" title="The Guardian: With friends like these ..."><em>The Guardian</em> sobre Facebook y los neoconservadores</a>: muy digno de lectura. </p>  <p>La inercia es el principar factor a favor de las redes sociales. Una vez un grupo de usuarios est&aacute;n en una red, es dif&iacute;cil romper la inercia del d&iacute;a a d&iacute;a y cambiar. Eso es algo conocido por las plataformas, y por lo tanto potencian esa sensaci&oacute;n de holgazaner&iacute;a en el momento de tomar la decisi&oacute;n de cambiar: el n&uacute;mero de usuarios registrados es importante para predecir ingresos: dejar borrar una cuenta equivale a tirar el dinero. En ese caso, mejor no facilitar las cosas.</p> <p>La informaci&oacute;n generada por la relaci&oacute;n entre usuarios genera informaci&oacute;n. Esa informaci&oacute;n puede utilizarse para captar tr&aacute;fico (captar m&aacute;s demanda) o bien para segmentar mejor los perfiles (y con ello captar mejor oferta). Los contenidos que crean los usuarios definen aspectos de inter&eacute;s, segmentos, grupos de inter&eacute;s, necesidades, etc. Es informaci&oacute;n valiosa en marketing, especialmente cuando se quiere llegar a nichos determinados.</p> <p>Sin embargo ha surgido hace relativamente poco la iniciativa <a href="http://www.dataportability.org/" title="DataPortability">dataportability.org</a>, a la cual <a href="http://www.readwriteweb.com/archives/goog-fb-data.php" title="Bombshell: Google and Facebook Join DataPortability.org">Facebook y Google ya se han apuntado</a>, y algo m&aacute;s tarde <a href="http://www.readwriteweb.com/archives/microsoft_joining_dataportabil.php" title="  Microsoft Joining DataPortability.org">tambi&eacute;n Microsoft</a>. Para los no iniciados hay un <a href="http://michael-pick.com/dataportability-video-released/2008/01/15" title="dataportability video">v&iacute;deo introductorio que puede ser de utilidad</a>, aunque las claves de este movimiento se ir&aacute;n viendo a lo largo de este a&ntilde;o.  </p> <p>Para los que ya sepan por d&oacute;nde va el tema de la portabilidad de datos, seguro que no les extra&ntilde;ar&aacute; que todo esto tambi&eacute;n est&eacute; relacionado con formatos de exportaci&oacute;n e importaci&oacute;n, y que cuanto m&aacute;s est&aacute;ndares, mejor. Es por eso que esta evoluci&oacute;n nos lleva al tercer punto de las tendencias: los microformatos. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26791/aspectos-clave-2008-redes-sociales</link><pubDate>Thu, 24 Jan 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Aspectos clave 2008 - Microformatos]]></title><description><![CDATA[<p>Se oir&aacute; hablar y mucho sobre los microformatos.  Probablemente sea durante este a&ntilde;o 2008, pero tienen la mirada echada hacia la web sem&aacute;ntica.  Me centrar&eacute; en el inter&eacute;s a nivel de aplicaciones de negocio. </p><p>&nbsp;</p> <h2>Microformatos</h2>   <p>Como extensi&oacute;n a los dos art&iacute;culos anteriores, hay otro aspecto al cual habr&aacute; que hacer un seguimiento a lo largo de este a&ntilde;o. Se trata quiz&aacute; del escal&oacute;n m&aacute;s f&aacute;cil de subir entre la web &quot;1.0&quot;, la web social y la sem&aacute;ntica. Por todos es sabido que el escal&oacute;n m&aacute;s f&aacute;cil de subir es el m&aacute;s utilizado.</p> <p>No s&eacute; si los microformatos proporcionan todo lo necesario para la <em>semantizaci&oacute;n</em> de la web, pero s&iacute; aportan su sistematizaci&oacute;n.</p> <p>Definir los microformatos no es f&aacute;cil. En general se pueden definir como documentos con un formato concreto dentro de otro formato general (para nuestro caso, XHTML). Se pueden entender como formatos utilizados para tratar conjuntos de informaci&oacute;n muy concretos y enfocados a usos muy determinados. Puedes encontrar informaci&oacute;n ampliada en <a href="http://microformats.org" title="Microformats">microformats.org</a>. </p> <p>La sistematizaci&oacute;n en un entorno cargado de informaci&oacute;n y ruido permite la extracci&oacute;n de significado. En general, si un sistema autom&aacute;tico es capaz de extraer informaci&oacute;n de una fuente, la informaci&oacute;n extra&iacute;da es susceptible de ser m&aacute;s relevante para el destinatario. Esa es la primera consideraci&oacute;n a tener en cuenta para entender el importante papel los microformatos. </p> <p>Otra consideraci&oacute;n a tener en cuenta es que esta sistematizaci&oacute;n favorece al intercambio de peque&ntilde;os conjuntos de datos (tarjeta de visita, datos de un contacto, cita o evento de calendario...) y por lo tanto da un paso m&aacute;s all&aacute; en los mecanismos ya conocidos de intercambio y filtrado colaborativo en entornos sociales.</p> <p>El principal problema que han tenido los sistemas hasta ese momento es que la informaci&oacute;n deb&iacute;a procesarse e identificarse. Hasta la llegada del XHTML, tratar de abordar un contenido HTML de una web y esperar que una m&aacute;quina pudiera identificar fragmentos <em>independientes</em> y significativos de contenido era una utop&iacute;a. Con la aparici&oacute;n del XHTML es posible plantear la inclusi&oacute;n de etiquetas significativas, bloques de informaci&oacute;n sistematizados, etc. Es decir, estamos trasladando la sistematizaci&oacute;n de la base de datos a la interficie, sin p&eacute;rdida de transparencia para el usuario.</p> <p>Dando dos pasos m&aacute;s hacia adelante, vale la pena poner &eacute;nfasis en un aspecto: la simplificaci&oacute;n del rastreo de informaci&oacute;n significativa <strong>y segmentada</strong>. Echando un vistazo a los posibles microformatos, nos encontramos hCard y hCalendar (contactos y eventos), hReview (comentarios y opiniones), hResume (Curr&iacute;culum / carrera profesional), y hAudio.</p> <p>Los dos primeros coinciden con tipos de informaci&oacute;n comentados en el apartado de identidad: agenda, contactos, y tareas. Tambi&eacute;n hResume cumple con su objetivo de estructurar el curr&iacute;culum personal. Lo que s&iacute; vale la pena es observar los otros tipos de microformatos: hAudio o hReview. </p> <p>En ambos tipos de microformatos, ser&aacute; interesante comprobar hasta qu&eacute; punto se integran en software colaborativo, pero tienen inter&eacute;s. Pongamos el caso de portales verticales de m&uacute;sica, pel&iacute;culas, videojuegos... Si tuvieran la capacidad de disponer de una lista de fuentes de informaci&oacute;n desde la que se pueda capturar estos datos, podr&iacute;an proporcionar informaci&oacute;n completamente filtrada y preparada para el usuario final, y <strong>creada de forma distribuida</strong>.</p> <p>En un escenario ideal, eso significa segmentaci&oacute;n y relevancia. Y probablemente signifique mayores ingresos. Pero por encima de todo significa cambiar las reglas de los criterios de producci&oacute;n de contenidos. El <em>prosumer</em> se ha cansado que <a href="http://www.latejedora.es/?p=925" title="La tejedora: Los beneficios millonarios de la Web 2.0">ganen dinero los otros</a>.</p> <p>Es as&iacute; que ser&iacute;a posible, por ejemplo asistir a un proceso distribuido de producci&oacute;n de contenidos en el que un portal detectara l&iacute;deres de opini&oacute;n que disponen de su espacio personal (una especie de <em>despacho profesional</em> en Internet). Tras el contacto se pactar&iacute;an los servicios y su frecuencia de colaboraci&oacute;n. Es un modelo conocido, pero no por ello menos eficiente.</p> <p>Estoy seguro que habr&aacute; miles de razones para abrazar el uso de los microformatos en la web, pero hasta aqu&iacute; llego por ahora, que uno tambi&eacute;n sigue aprendiendo.</p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26792/aspectos-clave-2008-microformatos</link><pubDate>Thu, 24 Jan 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Madame Briet]]></title><description><![CDATA[<p>El pasado d&iacute;a 10 <a href="http://www.danah.org/" title="Danah Boyd">Danah Boyd </a>public&oacute; en <a href="http://www.zephoria.org/thoughts/" title="Danah Boyd: Apophenia">su blog apophenia</a> un art&iacute;culo sobre la figura de una documentalista olvidada por la historia aunque con ideas interesantes: Suzanne Briet.</p><p>A&uacute;n no siendo habitual en m&iacute; ni la traducci&oacute;n literal ni la idolatraci&oacute;n, el art&iacute;culo me atrajo por lo diferente de su contenido y lo parad&oacute;jico de las circunstancias: una profesional de la informaci&oacute;n que cae en el olvido a pesar de la relevancia de sus comentarios.</p><p>Me reservo unos comentarios finales para despu&eacute;s de la traducci&oacute;n del post original. Sin embargo debo apuntar que tanto merece la pena el post en s&iacute; como la <a href="http://www.zephoria.org/thoughts/archives/2008/01/09/suzanne_briet_m.html#comment-310318" title="Gardner Campell: comentario cr&iacute;tico al post de Danay Boyd">cr&iacute;tica que hace Gardner Campbell en uno de los comentarios</a>. </p> <h2>Art&iacute;culo traducido </h2><h3>Suzanne Briet: Madame documentaci&oacute;n y bibliotecaria extraodinaria<br /></h3><p>Este post va por todos aquellos biblitecarios y estudiantes de la escuela de ciencias de la informaci&oacute;n que leen este blog.<br /><br />Una de las mejores cosas que tiene estar en la escuela de ciencias de la informaci&oacute;n es que consigues aprender todo tipo de cosas sobre gente que am&oacute; la informaci&oacute;n mucho antes que esta hubiera una econom&iacute;a para &eacute;sta.  Uno de los profesores de mi facultad -<a href="http://people.ischool.berkeley.edu/~buckland/" title="Michael Buckland">Michael Buckland</a>- siempre me asombra con historias sobre los grandes dioses y diosas de la informaci&oacute;n, muchos de los cuales nunca recibieron ning&uacute;n cr&eacute;dito por su trabajo.  Su &uacute;ltimo libro <a href="http://www.amazon.com/exec/obidos/ASIN/0313313326/apophenia-20" title="Emmanuel Goldberg and his knowledge machine">Emmanuel Goldberg and his knowledge machine</a> sigue la historia de un inventor jud&iacute;o que escap&oacute; de Alemania s&oacute;lo para ver c&oacute;mo los americanos robaban varios de sus inventos.  Crees que Vannevar Bush invent&oacute; el Memex? <a href="http://people.ischool.berkeley.edu/~buckland/goldbush.html" title="Emanuel Goldberg, Electronic Document Retrieval, And Vannevar Bush&#39;s Memex">Pi&eacute;nsalo de nuevo</a>.<br /><br />Buckland llam&oacute; mi atenci&oacute;n con otra historia de una bibliotecaria brillante que fue ignorada y olvidada: <a href="http://people.ischool.berkeley.edu/~buckland/briet.html" title="Suzanne Briet">Suzanne Briet</a>.  Feminista, ensalzadora de multitudes e historiadora, Briet fue una de las primeras detr&aacute;s del movimiento documentalista durante el periodo interino [interim period].</p><blockquote>&quot;Briet dec&iacute;a que los documentalistas deber&iacute;an estar integrados [embedded] en los contextos culturales de los usuarios a los que sirven.  Desde esta visi&oacute;n estrat&eacute;gica los documentalistas no deben s&oacute;lo dedicarse a recuperar documentos, sino realizar prospecciones informacionales sobre las que a&uacute;n no han sido preguntados, traducir informaci&oacute;n de otros idiomas, resumir e indexar documentos, y en general, trabajar proactivamente en una din&aacute;mica de avanzada del conocimiento en una disciplina (<a href="http://www.asis.org/Bulletin/Dec-06/day.html">Day</a>)&quot;</blockquote><p>Suena un poco a Google, &iquest;verdad? </p><blockquote>&quot;Los escritos de Briet se centraron en la importancia de las formas culturales y las situaciones sociales y las redes al crear y responder a las necesidades de informaci&oacute;n, m&aacute;s que tratar las necesidades de informaci&oacute;n como circunstancias como procesos psicol&oacute;gicos internos&quot; (<a href="http://www.asis.org/Bulletin/Dec-06/day.html">Day</a>)</blockquote><p>Sus escritos contin&uacute;an anticip&aacute;ndose a la teor&iacute;a del actor-red [<a href="http://en.wikipedia.org/wiki/Actor-network_theory" title="Actor - Network theory">actor-network theory</a>] (un enfoque habitual en las escuelas de ciencias de la informaci&oacute;n). Desafi&oacute; a las nociones cuantitativas y positivistas de la &quot;informaci&oacute;n&quot;, atribuyendo un origen y funci&oacute;n cultural a la documentaci&oacute;n y los signos documentales (<a href="http://www.scarecrowpress.com/Catalog/SingleBook.shtml?command=Search&amp;db=^DB/CATALOG.db&amp;eqSKUdata=0810851091">&quot;What is documentation?&quot;</a>).</p><p>A pesar de su brillantez, fue ignorada y olvidada.  S&oacute;lo un bibliotecario fue a su funeral.  La mayor&iacute;a de sus escritos fueron ignorados y nunca se traducieron.  Incluso hoy en d&iacute;a, pocos profesores de ciencias de la informaci&oacute;n tienen conocimientos sobre ella, y pocos ense&ntilde;an sus aportaciones.  Ni siquiera tiene una <a href="http://en.wikipedia.org/wiki/Suzanne_Briet">entrada en Wikipedia!</a></p><p>En un intento por hacer m&aacute;s accesible su trabajo, Ronald Day, Laurent Martinet y Hermina Anghelescu han traducido su trabajo <a href="http://www.scarecrowpress.com/Catalog/SingleBook.shtml?command=Search&amp;db=^DB/CATALOG.db&amp;eqSKUdata=0810851091" title="What is documentation?">&quot;What is documentation?&quot;</a> al ingl&eacute;s y lo han <a href="http://ella.slis.indiana.edu/%7Eroday/what%20is%20documentation.pdf" title="what is documentation">convertido a archivo en formato PDF descargable</a>. Conjuntamente con Buckland, <a href="http://ella.slis.indiana.edu/~roday/briet.htm" title="Briet website">le han dedicado un sitio web</a>.  Su esperanza es que exista m&aacute;s informaci&oacute;n sobre ella para que los alumnos puedan entender el contexto hist&oacute;rico de la cultura de la documentaci&oacute;n.  Personalmente estoy fascinada por aprender algo sobre una feminista erudita que tuvo tanta visi&oacute;n y fuera tan olvidada.</p><p>Queridos biblioteconomistas y comunidad de estudiantes de ciencias de la informaci&oacute;n, Michael Buckland, el rescatador de los bibliotecarios olvidados, sobre qu&eacute; ser&aacute; necesario para que verdaderamente se resucite su memoria? Vivimos en un mundo de registros e informaci&oacute;n, aunque a menudo olvidamos los exploradores y fundadores (especialmente si son mujeres, personas de color, gays, o que no no sean cristianos). C&oacute;mo revivimos las historias de aquellos cuyas contribuciones fueron ignoradas?</p><h2>Comentarios finales</h2><p>Para empezar, existe un tono cr&iacute;tico  en el post de Danah que deber&iacute;a ser verdaderamente contrastado.  Entendiendo que las minor&iacute;as que comenta han sufrido discriminaciones a lo largo de la historia, ser&iacute;a importante determinar hasta qu&eacute; punto eso es cierto en el caso que comenta. Es de justicia decir que no he investigado m&aacute;s a fondo buscando en fuentes originales, aunque espero facilitar la tarea para aquellos que deseen hacerlo y no tengan facilidad con el ingl&eacute;s (tampoco es mi caso, seguro que m&aacute;s de uno se habr&aacute; dado cuenta).</p><p>Lo que m&aacute;s me ha llamado la atenci&oacute;n del art&iacute;culo son dos conceptos: integraci&oacute;n y proactividad.  Quiz&aacute; sea por esas dos palabras por la que haya hecho un esfuerzo en traducirlo.  Porque estas dos palabras son el abracadabra para que los profesionales de la informaci&oacute;n pasen de ser desconocidos a apreciados y respetados. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26790/madame-briet</link><pubDate>Sun, 13 Jan 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Por qu&eacute; P = Q = 0,5?]]></title><description><![CDATA[<p>Nada m&aacute;s refrescante en la v&iacute;spera de Reyes que un poco de estad&iacute;stica, &iquest;verdad? Pues ya me imagino que no, pero me apetec&iacute;a comentar esta especie de axioma que aparece en la inmensa mayor&iacute;a de encuestas de opini&oacute;n, y que todo el mundo cree o simplemente ignora, mientras que unos pocos entienden a fondo.</p><p>Si te interesa, contin&uacute;a, y sino, ya nos vemos en otro momento...</p> <h2>El significado de P y Q</h2><p>Cuando se realizan encuestas, y en general recogida de informaci&oacute;n, se da muy a menudo un tipo de preguntas que s&oacute;lo pueden obtener como respuesta un S&iacute; o un No (con el permiso del NS/NC, que ahora dejaremos de lado). Estas preguntas son las m&aacute;s sencillas de clasificar, ya que en el resto se pueden utilizar escalas diferentes como la del 0 al 10, escalas de Likert, gr&aacute;ficos, u otras.<br /><br />Para estas preguntas, una proporci&oacute;n de los encuestados puede responder que s&iacute;, y otra que no (perogrullada al canto), lo que matem&aacute;ticamente puede representarse como un 1 y un 0, respectivamente. En el caso de haber planteado un muestreo adecuado, la proporci&oacute;n entre ceros y unos deber&iacute;a ser representativa de la poblaci&oacute;n general.<br /><br />Sumando la cantidad de respuestas 1 y dividi&eacute;ndolo por el n&uacute;mero de encuestados, tenemos una proporci&oacute;n.  As&iacute; por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que s&iacute;, tenemos que la proporci&oacute;n de s&iacute;es suma en total:<br /><br />P(X = s&iacute;) = 35/100 = 0,35<br /><br />Lo que equivaldr&iacute;a a un 35% en t&eacute;rminos porcentuales.<br /><br />Sabiendo que s&oacute;lo hay dos casos posibles sabemos que la proporci&oacute;n de noes ha sido:<br /><br />P(X = no) = (100-35)/100 = 65/100 = 0,65<br /><br />Es decir, un 65% de noes.<br /><br />De lo anterior se deduce que sabiendo la proporci&oacute;n de respuestas afirmativas, deducimos la proporci&oacute;n de respuestas negativas.  Por lo tanto:<br /><br />P(X=no) = 1 - P(X=s&iacute;) = 1 - 0,35.<br /><br />Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en min&uacute;sculas) a P(X=s&iacute;), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como Q.<br /><br />En resumen:<br /><br />P = P(X = S&iacute;)<br />Q = P(X = No) = 1 - P<br /><br />&iquest;Hasta aqu&iacute; se entiende? Bueno pues, sigamos.</p><h2>En el peor de los casos<br /></h2><p>Dejando de lado las imperfecciones del trabajo de campo (que dar&iacute;an para mucho), supongamos que tenemos los medios necesarios para garantizar la representatividad de la muestra s&oacute;lo teniendo en cuenta el tama&ntilde;o (n&uacute;mero de encuestados).<br /><br />Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporci&oacute;n de individuos que contestar&aacute;n s&iacute; o no a una determinada respuesta.  Por eso es necesario suponer el peor de los casos.<br /><br />Retornando al t&iacute;tulo del post, ya sabr&aacute;s cu&aacute;l es el peor de los casos, e intuitivamente incluso te puedes imaginar el por qu&eacute;. Efectivamente, el peor de los casos ocurre cuando hay la misma proporci&oacute;n de individuos que contestan afirmativamente y negativamente.<br /><br />Te puedes imaginar la situaci&oacute;n: tu vas a suponer en cada momento qu&eacute; va a contestar al siguiente. Si P = Q = 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo m&iacute;nimo que cabr&iacute;a esperar si puedes elegir entre s&iacute; y no, y no hay m&aacute;s respuestas posibles.<br /><br />Estad&iacute;sticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar sobre un <a href="http://en.wikipedia.org/wiki/Bernoulli_process" title="Wikipedia: Bernoulli process">proceso de Bernouilli</a>.  Este modelo estad&iacute;stico indica que la varianza de una muestra de una poblaci&oacute;n que sigue este modelo es p&middot;q.<br /><br />Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo, multiplicando, no sumando.<br /><br />Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1, tenemos los ingredientes necesarios para hacer un an&aacute;lisis de la funci&oacute;n de la varianza. Representando el valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:<br /><br />f(p) = p&middot;q = p &middot; (1-p) = p - p^2<br /><br />tras lo cual tenemos un gr&aacute;fico como el siguiente:<br /><br /><img src="/extranet/gallery/download/4478/" alt="Parabola p-(p x p)" title="Parabola p-(p x p)" width="640" height="407" /><br /><br />Se puede observar que en la mitad del gr&aacute;fico est&aacute; el pico m&aacute;ximo. Teniendo en cuenta que es un gr&aacute;fico entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el an&aacute;lisis de funciones se utilizan las derivadas.  No explicar&eacute; lo que son las derivadas, simplemente comentar&eacute; que para este caso son formas de detectar la &quot;velocidad&quot; y &quot;aceleraci&oacute;n&quot; de la curva.<br /><br />Esto es un salto sin red para quien no entienda del tema, pero seguro que podr&aacute; encontrar amplia literatura al respecto. Teniendo la funci&oacute;n anterior:<br /><br />F(p) = p - p<sup>2<br /></sup></p><p>Su primera derivada (que indicar&aacute; la &quot;velocidad&quot;) es:</p><p>F&#39;(p) = 1 - 2p<br /><br />Mientras que la segunda derivada es:<br /><br />F&#39;(p) = -2<br /><br />De lo anterior se deduce:</p><ul><li>Dado que la segunda derivada es una constante negativa, la recta siempre est&aacute; desacelerando.  podemos comprobar que la recta ya &quot;ven&iacute;a subiendo&quot; pero cada vez un poco menos r&aacute;pido, hasta que empieza a bajar, y luego cada vez va m&aacute;s r&aacute;pido.  Es decir lleva una aceleraci&oacute;n negativa.  Aunque llevara una inercia, la ha ido perdiendo. Por el hecho que la segunda derivada es una constante tambi&eacute;n se deduce que la curva es una par&aacute;bola.</li><li>Dado que sabemos que siempre desacelera, sabemos que la curva es convexa (es decir, tiene la concavidad hacia abajo), por lo que si en alg&uacute;n momento la velocidad es nula (el objeto se ha frenado), podemos deducir que se ha llegado al m&aacute;ximo.<br /></li></ul><p>Trato de explicar este segundo punto en palabras m&aacute;s llanas: si est&aacute;s desacelerando, llega un momento que te paras, y desaceleras m&aacute;s, vas en velocidad negativa. Es decir, que vuelves &quot;hacia atr&aacute;s&quot; (o hacia abajo) por lo que se deduce que hab&iacute;as llegado al m&aacute;ximo de lejos que pod&iacute;as.</p><p>Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:</p><p>1 - 2p = 0<br /><br />La resoluci&oacute;n es f&aacute;cil:<br /><br />1 - 2p = 0 =&gt; 1 = 2p =&gt; 1/2 = p ==&gt; p = 1/2 = 0,5<br /><br />voil&agrave;. Tenemos la demostraci&oacute;n matem&aacute;tica que la m&aacute;xima varianza se tiene con p = 0,5!</p><h2>Este c&aacute;lculo da garant&iacute;as al conjunto de la encuesta?<br /></h2><p>Por lo general, este modo de c&aacute;lculo es una forma de definir un tama&ntilde;o de muestra.  Las encuestas acostumbran a ser mucho m&aacute;s complejas, pero lo cierto es que los casos en los que las respuestas son de s&iacute;/no son los m&aacute;s habituales en encuestas sociales. En otros casos se utilizan otros criterios (por ejemplo cuando lo que se busca no es un estudio de proporciones sino de medias o totales).<br /><br />Lo que s&iacute; vale la pena comentar es que el tama&ntilde;o de muestra obtenido utilizando este criterio proporciona un margen de error <strong>para cada pregunta estudiada de una en una</strong>.<br /><br />De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas sean m&aacute;s falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para extraer conclusiones), ya que eso provocar&iacute;a decisiones err&oacute;neas por asumir un riesgo mayor del supuesto.</p><p>Otras cuestiones que van m&aacute;s all&aacute; de este post son la informaci&oacute;n previa que tenemos sobre una determinada poblaci&oacute;n, ya que ello nos permitir&iacute;a reducir el margen de error. Esta reducci&oacute;n podr&iacute;a aplicarse en la fase de muestreo, utilizando uno de varios dise&ntilde;os muestrales existentes.<br /> </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26789/por-que-p-q-0.5</link><pubDate>Sat, 05 Jan 08 00:00:00 +0100</pubDate></item><item><title><![CDATA[Cosas reaprendidas en un mes y medio]]></title><description><![CDATA[<p>Ha sido un mes y medio denso, y por eso se ha hecho aparentemente largo, aunque un mes y medio al fin y al cabo.  La falta de blogs es inversamente proporcional a la cantidad de bits generados, ya sea en forma de c&oacute;digo, (PHP, SQL, HTML o CSS), o documentos (presupuestos, planificaciones, breviarios).</p><p>Son cosas reaprendidas porque m&aacute;s de uno ya ha pasado por esas circunstancias. Pero en esos momentos las fuentes externas no son todo lo v&aacute;lidas que uno necesita, porque la vivencia en primera persona ense&ntilde;a m&aacute;s, mucho m&aacute;s.  Ir a la fuente original consiste en hacer introspecci&oacute;n.</p><p>Como todas las etapas clave de nuestra vida, lo importante es que al vivirlo en primera persona uno sepa valorar lo vivido e identificar los aspectos claves. </p> <h2>La regla del tr3s<br /></h2><p>Algunos aprendizajes tienen su clave de humor, y este es el caso de esta regal del &quot;tres&quot;.  La cuesti&oacute;n es que cuando se trabaja mucho y se tiene en mente muchas cosas, es importante saber cu&aacute;ndo es el l&iacute;mite.  En el tratamiento de la informaci&oacute;n, es importante hacer una tarea hecha con buenas condiciones mentales.</p><p>La regla del tr3s dice algo muy sencillo: &quot;si est&aacute;s tratando de poner un tr3s en min&uacute;sculas, ya es hora de dormir&quot;.</p><p>Otra forma m&aacute;s seria de lo anterior es un comentario que hizo Norbert Bilbeny en el libro &quot;Papers contra la cinta magn&egrave;tica&quot;: en las &eacute;pocas complejas lo importante es comer a las horas, descansar lo adecuado y no preocuparse por cuestiones metaf&iacute;sicas. </p><p>No hay que exigirse m&aacute;s de lo aceptable, por lo que en los momentos con falta de concentraci&oacute;n, la clave es tan simple como descansar, charlar de otros temas con los que est&aacute;n cerca, o hacer algo que exija poca concentraci&oacute;n mental. Si de ah&iacute; se cae dormido, es porque era inevitable.</p><h2>El entorno y el ambiente</h2><p>En las &eacute;pocas complicadas la concentraci&oacute;n en los temas claves absorbe la atenci&oacute;n casi a tiempo completo. Si estamos hablando de la econom&iacute;a de la atenci&oacute;n, en esas &eacute;pocas cometemos el error de no diversificar.</p><p>La principal consecuencia de no diversificar es lo que en t&eacute;rminos populares sucede cuando &quot;se ponen todos los huevos en un mismo cesto&quot;: cuando los proyectos entran en fases poco gratificantes o directamente frustrantes, no tenemos alternativas para regenerar nuestros &aacute;nimos, y llega el bloqueo.</p><p>La soluci&oacute;n a esto es tener un ambiente bueno para el trabajo pero con alternativas para descansar.  Nada de trabajar en la cama ni leer informes a la hora de comer.</p><p>Tambi&eacute;n el entorno directo de trabajo debe estar delimitado dentro del espacio. Este espacio delimitado debe disponer de buenas comodidades pero con un buen grado de funcionalidad.  Debe disponer de lo necesario para archivar, guardar o eliminar la informaci&oacute;n seg&uacute;n convenga.  Todo lo que no es pertinente a la tarea actual la entorpece. Por lo tanto, vale la pena hacer paradas de cinco o diez minutos para hacer reordenaciones parciales.</p><p>Si dentro del entorno hay personas queridas, es importante pactar horarios, tareas y objetivos conjuntos.  Esas personas queridas que forman parte del entorno personal no pueden verse afectadas por nuestras preocupaciones, aunque es importante que las entiendan.  A todos nos gusta que en momentos de bloqueo alguien nos aparezca con un zumito de fruta o un caf&eacute; cargado.  Eso dice mucho de quienes nos rodean: reconocen el esfuerzo pero por encima de todo nos ayudan. Hacer lo propio es darse cuenta que hay algo m&aacute;s all&aacute; de lo urgente: lo importante.  </p><p>Es por eso que, en la l&iacute;nea del mejor ecologista posible (porque esto tambi&eacute;n es ecolog&iacute;a), creo que es clave preservar dentro de unos niveles aceptables el entorno y el ambiente de trabajo.</p><h2>Medios y herramientas<br /></h2><p>Ante la falta de tiempo, las herramientas son clave: el cuerpo y la mente ganan en extensi&oacute;n, mientras que la atenci&oacute;n y la memoria se utilizan en lo necesario.</p><p>Una de las herramientas que he aprendido a utilizar m&aacute;s en esta temporada es la lista de tareas.  Dentro de Linux y m&aacute;s en concreto KDE, estoy utilizando la suite de gesti&oacute;n de informaci&oacute;n personal Kontact, que no es m&aacute;s que la integraci&oacute;n de correo, calendario, lista de contactos, tareas pendientes, etc. Simplemente genial.</p><p>A pesar de los intentos, el intento de integraci&oacute;n con el tel&eacute;fono m&oacute;vil ha sido infructuoso, por lo que de momento me puedo limitar a sistemas de sincronizaci&oacute;n entre equipos, como rsync y derivados. En los momentos que uno tiene reuniones doquier y debe tener organizada su agenda, se entiende el concepto de la movilidad: porque uno mismo es m&oacute;vil, la informaci&oacute;n tambi&eacute;n lo debe ser.</p><p>Paralelamente a lo anterior, otra de las cosas que he aprendido es que la productividad de un portatil es por lo menos un 30% inferior a la de un ordenador de sobremesa.  No es una cuesti&oacute;n de potencia, sino de interficie: cuando uno se acostumbra a un teclado est&aacute;ndar, y a una pantalla grande y un rat&oacute;n adecuado en tama&ntilde;o a la propia mano, se da cuenta de c&oacute;mo cambian las cosas al trabajar en un port&aacute;til.</p><p>Es por eso que he limitado el uso del port&aacute;til para las presentaciones o las tareas con poca actividad operativa.  Para el resto de ocasiones en las que no puedo trabajar con mi PC de sobremesa, mejor un port&aacute;til que nada. Desde luego hay ocasiones en las que un m&oacute;vil o un port&aacute;til son suficientes: consultar el correo, lista de tareas pendientes, comunicaciones r&aacute;pidas, etc. Pero en el resto de casos, escojo un ordenador de sobremesa.</p><h2>Parar, revisar, rumiar, pensar</h2><p>Javier Leiva ya hizo su comentario hace poco: <a href="http://www.catorze.com/blog/pensar/" title="Catorze: Pensar">pensar es importante</a>.  Hacer y actuar tambi&eacute;n lo es, en realidad es un 90% del &eacute;xito seg&uacute;n la m&aacute;xima.</p><p>Entre pensar y actuar no hay una relaci&oacute;n de lucha sino de equilibrio. No me atraen las personas que s&oacute;lo piensan, como tampoco las que s&oacute;lo act&uacute;an. Lo hagan bien o mal, dejan algo en el camino.</p><p>Como dec&iacute;a antes, cada cosa en su momento.  Un profesional de la jardiner&iacute;a me lo resumi&oacute; de una forma mucho m&aacute;s clara de lo que lo hacen la mayor&iacute;a de libros de management. Se refer&iacute;a al hecho de dirigir equipos de trabajo, pero es algo extensible a la gesti&oacute;n en general: &quot;si est&aacute;s trabajando la tierra, miras hacia abajo, con lo que no puedes ver lo que pasa a tu alrededor&quot;.</p><p>Y es que pensar es una actividad estimulante, pero esencialmente incompleta: nuestro pensamiento trata de reconocer nuestro lugar en el mundo, y la forma como podemos mejorar ese lugar. Lo primero se consigue s&oacute;lo pensando y procesando informaci&oacute;n, mientras que lo segundo se basa principalmente en actuar sobre unos objetivos definidos.</p><p>Un ejemplo claro en el mundo del desarrollo es <a href="http://mordorblog.com/?tag=/coding" title="programador y desarrollador">la diferencia entre el programador y el desarrollador</a>.  Todos los que hemos trabajado en el desarrollo hemos tenido cerca verdaderos cracks: gente que est&aacute; muy por encima de nuestras capacidades, para las cuales aprender un nuevo lenguaje de programaci&oacute;n es como leer un nuevo diario.  Sin embargo esta gente precisa de una gu&iacute;a para no perderse en disquisiciones bizantinas sobre la estructura de las clases o la programaci&oacute;n de excepciones.</p><p>Son programadores, gente t&eacute;cnicamente excelente que no sabe ni quiere saber nada sobre las reglas de negocio que parad&oacute;jicamente permitir&aacute;n ingresar el dinero necesario para pagar su sueldo. Este perfil profesional requiere de un entorno de trabajo dedicado estrictamente a hacer, con las reglas claras y un cierto grado de libertad para seguir demostrando que saben hacerlo. Pero los objetivos de negocio deben llegarle masticados.</p><p>Al respecto de pensar he le&iacute;do algunas referencias interesantes, especialmente en lo referente a gesti&oacute;n de proyectos.  En Naveg&aacute;polis comentan la relaci&oacute;n entre programas y las dietas sanas: <a href="http://www.navegapolis.net/content/view/714/" title="Programas sanos y delgados">mantener los programas sanos y delgados</a> es una cuesti&oacute;n de futuro y no de presente. Por otro lado, <a href="http://www.navegapolis.net/content/view/701/">conocer las razones por las que falla un proyecto</a> es clave para corregir desviaciones.</p><p>He puesto muchos ejemplos en el &aacute;rea de tecnolog&iacute;a pero seguro que hay en todas partes.</p><h2>Conclusiones</h2><p>Con la calma que da estar redactando este post uno se da cuenta de lo vivido &uacute;ltimamente.  Son &eacute;pocas en las que uno crece, pero no se da cuenta hasta el final. En este caso el espejo son los resultados que los clientes ven, y tambi&eacute;n los que no se ven.</p><p>Los comentarios vertidos hasta aqu&iacute; son humildes opiniones, aunque hayan podido parecer lo contrario.  Otras personas reaprender&aacute;n, y de aqu&iacute; lo in&uacute;til de este post.  Creo que es importante escribirlo porque es una de las funciones que le doy a este blog: disponer de un sentido de la perspectiva.  Despu&eacute;s de tanto tiempo sin escribir de forma regular, creo que es de justicia destilar y plasmar lo vivido. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26787/cosas-reaprendidas-mes-medio</link><pubDate>Tue, 25 Dec 07 00:00:00 +0100</pubDate></item><item><title><![CDATA[Sistema de tagging - la nube de etiquetas]]></title><description><![CDATA[<p>Hace mucho que no inclu&iacute;a nuevos posts. Lo he echado de menos.  Cuestiones profesionales, por lo dem&aacute;s muy prometedoras, me tienen un poco al margen de escribir, aunque la mente sigue en marcha.<br /><br />Continuando con lo comentado hasta ahora con el tema del tagging, he cre&iacute;do oportuno utilizar la nube de etiquetas como puerta de entrada a las cuestiones que me surgen sobre la implantaci&oacute;n. Entre estas cuestiones tambi&eacute;n est&aacute;n temas tales como posibles esquemas de bases de datos que se pueden utilizar, pero en eso ya entrar&eacute; m&aacute;s adelante.</p><p><br />Por lo tanto, hoy hablamos de nubes... </p> <h2>Caracter&iacute;sticas y elementos de las nubes de tags</h2><p><br />Por lo que respecta a la <a href="http://en.wikipedia.org/wiki/Tag_cloud" title="Wikipedia: Tag cloud">definici&oacute;n de una nube de tags</a>, creo que una imagen vale m&aacute;s que mil palabras. Por lo tanto, puedes ver <a href="http://del.icio.us/tag/" title="del.icio.us: tag-cloud">La nube de tags de del.icio.us</a> o bien <a href="http://www.flickr.com/photos/tags/" title="Flickr: tag cloud">las de flickr</a>.<br /><br />La principal utilidad de las nubes de etiquetas es la de presentar informaci&oacute;n agregada, y en el mejor de los casos, sintetizada (que no resumida). Visualizar una nube de tags de un portal equivale a disponer de un cuadro resumen de conceptos que identifican los contenidos. Cuanto m&aacute;s grandes se presentan los t&eacute;rminos en una nube de tags, m&aacute;s frecuente es el uso de ese t&eacute;rmino. Concretar&eacute; este &quot;cuanto m&aacute;s&quot; un poco m&aacute;s abajo.<br /><br />Despu&eacute;s de una primera fase de uso de las nubes de etiquetas, han aparecido algunas variantes en los sistemas de visualizaci&oacute;n. Algunas de las caracter&iacute;sticas introducidas han sido:</p><ul><li> Ordenaci&oacute;n:</li><ul><li>Alfab&eacute;tica: Los t&eacute;rminos se ordenan alfab&eacute;ticamente.</li><li>Por frecuencia: Los t&eacute;rminos se muestran por frecuencia de uso.</li></ul><li>Agrupaci&oacute;n:</li><ul><li>Alfab&eacute;tica: Los t&eacute;rminos se separan por letra inicial.</li><li>Sem&aacute;ntica: Los t&eacute;rminos se agrupan por co-ocurrencia (<a href="http://www.nosolousabilidad.com/hassan/improving_tagclouds.pdf" title="Improvint tag clouds as visual information retrieval interfaces">Hassan, Herrero-Solana; 2006</a>).</li></ul><li>Sobre el uso del espacio donde se muestra la nube (<a href="http://arxiv.org/abs/cs.DS/0703109" title="Tag-Cloud Drawing: Algorithms for Cloud Visualization">Owen, Lemire; 2007</a>):</li><ul><li>El espaciado e interlineado entre tags son gestionados por el navegador.</li><li>Se aplican t&eacute;cnicas de CSS y HTML para aprovechar mejor el espacio.<br /></li></ul></ul><p>Los criterios de ordenaci&oacute;n y la agrupaci&oacute;n son combinables, por lo que se pueden crear varios niveles de ordenaci&oacute;n-agrupaci&oacute;n que dieran como resultado una mejor visualizaci&oacute;n de contenidos.<br /><br />Uno de los temas que son m&aacute;s de inter&eacute;s para mi ha sido encontrar un algoritmo de determinaci&oacute;n del tama&ntilde;o de las etiquetas. He encontrado informaci&oacute;n, pero no me ha parecido satisfactoria. Por ejemplo, encontr&eacute; el art&iacute;culo de Owen y Lemire anterior un algoritmo para la determinaci&oacute;n de los tama&ntilde;os de etiquetas.</p><p>Otro <a href="http://www.echochamberproject.com/node/247" title="Tag Cloud Font Distribution Algorithm">art&iacute;culo en echochamber</a> me pareci&oacute; interesante por lo visual de su explicaci&oacute;n, aunque conceptualmente creo que es err&oacute;neo. El sistema que utilizan es interesante, y en parte muy en la l&iacute;nea de lo que estaba pensando yo, pero no me acab&oacute; de convencer. Creo que es un error centrarse en la densidad, y no en la distribuci&oacute;n. Es decir, calcular los tama&ntilde;os de las etiquetas en base a las frecuencias simples, y no a las acumuladas.<br /> </p><p>Aunque ya es <em>vox populi</em> que la distribuci&oacute;n de las etiquetas sigue una distribuci&oacute;n con la caracter&iacute;stica <a href="http://en.wikipedia.org/wiki/The_Long_Tail" title="Wikipedia: long tail">cola larga</a>, esa cola presenta diferentes pesos, el conjunto de la distribuci&oacute;n puede tener varias formas, y por lo tanto la determinaci&oacute;n de los tama&ntilde;os puede no ser el adecuado utilizando f&oacute;rmulas como las indicadas en el art&iacute;culo anterior.</p><h2>Abandonarse a las estad&iacute;sticas<br /></h2><p>No s&oacute;lo me apetece: creo que en este caso es lo mejor. Supongamos que las etiquetas siguen una distribuci&oacute;n de frecuencias parecidas a la distribuci&oacute;n Zipf: cola larga, pocos &iacute;tems con mucha frecuencia, muchos &iacute;tems con poca frecuencia, y los &iacute;tems del rango medio.<br /><br />Si sigui&eacute;ramos los criterios de sistemas de indexaci&oacute;n <em>full-text</em>, los t&eacute;rminos m&aacute;s utilizados se considerar&iacute;an palabras vac&iacute;as por ser muy frecuentes, con lo que se descartar&iacute;an. La principal raz&oacute;n es que un t&eacute;rmino muy utilizado es un mal criterio discriminante. Por lo general, las etiquetas m&aacute;s utilizadas son las que aparecen en la nube, porque son cuantitativamente m&aacute;s importantes. Esto a nivel sem&aacute;ntico no parece lo mejor. Esto tambi&eacute;n queda para m&aacute;s adelante. </p><p>Sin embargo, no descartamos los t&eacute;rminos m&aacute;s habituales. La lista de tags ordenados de m&aacute;s a menos frecuente recuerda un <a href="http://en.wikipedia.org/wiki/Pareto_chart" title="Wikipedia: Pareto Chart">gr&aacute;fico de Pareto</a>.</p><p>Echando un vistazo al gr&aacute;fico de Pareto, podemos ver dos elementos: las barras, que representan la funci&oacute;n de densidad (frecuencia en un punto), y la l&iacute;nea, que representa la funci&oacute;n de distribuci&oacute;n (frecuencia acumulada). </p><p>Podemos ver que tanto un esquema como el otro siguen una forma que se puede trazar con una l&iacute;nea curva: sin alteraciones. Esta forma de distribuci&oacute;n de los datos, tiene lugar cuando existe una gran cantidad de elementos (recursos etiquetados). La variabilidad se estabiliza y es dif&iacute;cil crear grandes alteraciones sin introducir mucha informaci&oacute;n </p><p>Bajando del tren te&oacute;rico y volviendo a la realidad: una organizaci&oacute;n est&aacute; iniciando la introducci&oacute;n de datos etiquetados. Ese etiquetado ya empieza a presentar una larga cola, debido a que hay t&eacute;rminos que s&oacute;lo se han utilizado una vez. Sin embargo, no existe a&uacute;n la <em>cabeza de la cola</em>. O quiz&aacute; lo que est&aacute; sucediendo es que los &quot;tags medios&quot; a&uacute;n no se han formado, por lo que hay un hueco entre tags muy frecuentes y los poco frecuentes.</p><p>Esta circunstancia puede repetirse cuando se agrupa o se disgregan los tags seg&uacute;n alguno de los criterios indicados anteriormente. </p><p>De hecho, dentro de un mismo recurso tambi&eacute;n se da el proceso que tiene lugar en el conjunto: a medida que los usuarios de un sistema de bookmarking social etiquetan un mismo contenido, la distribuci&oacute;n se va estabilizando, formando tambi&eacute;n una distribuci&oacute;n con cola larga.<br /><br />Antes de llegar a la estabilidad, el tama&ntilde;o de los tags es importante para tener una buena representaci&oacute;n. Mostrar todos los tags muy grandes o muy peque&ntilde;os puede alterar la calidad de la visualizaci&oacute;n de la nube, y por ello su objetivo. Esto tiene consecuencias a varios niveles: desde la recuperaci&oacute;n de la informaci&oacute;n, hasta el dise&ntilde;o de interficie.<br /><br />En esta situaci&oacute;n, existen varias aproximaciones de base estad&iacute;stica al problema. A&uacute;n sabiendo que no ser&eacute; exhaustivo, destaco tres:</p><ul><li>An&aacute;lisis en base a la &quot;forma&quot; o ley que sigue la distribuci&oacute;n de frecuencias. Es decir, an&aacute;lisis param&eacute;trico. Por lo general la mayor&iacute;a de herramientas del an&aacute;lisis param&eacute;trico se centran en la distribuci&oacute;n normal. </li><li>An&aacute;lisis no param&eacute;trico: al no establecer a priori la distribuci&oacute;n (ni su forma), se aplican t&eacute;cnicas no basadas en (los par&aacute;metros de) esa distribuci&oacute;n.</li><li>Estad&iacute;stica robusta: Estad&iacute;stica basada en la ordenaci&oacute;n de los datos y la obtenci&oacute;n de valores estad&iacute;sticos menos sensibles a variaciones.<br /></li></ul><p>De las tres, yo escojo la tercera. Para empezar, es la m&aacute;s sencilla de abordar, ya que las t&eacute;cnicas son sencillas de aplicar. Al no basarse en la distribuci&oacute;n, se adaptan mejor a los varios casos posibles de distribuciones. Adem&aacute;s, computacionalmente son m&aacute;s abordables (exceptuando por la ordenaci&oacute;n). </p><p>Aunque esto est&aacute; por ver, los efectos de utilizar la estad&iacute;stica robusta son intuitivamente m&aacute;s comprensibles por un usuario (administrador de un sitio) que quisiera configurar el comportamiento de la nube de tags, por lo que tambi&eacute;n se da pie a sencillas interficies de configuraci&oacute;n.</p><p>La &uacute;nica excepci&oacute;n est&aacute; en la ya comentada velocidad de computaci&oacute;n por el hecho de ordenar la muestra, aunque al tratar con un conjunto ya agregado (antes de ordenar ya se han escogido un grupo reducido de etiquetas), ese aspecto no deber&iacute;a ser preocupante.</p><h2>Nubes de etiquetas con estad&iacute;stica robusta</h2><p>Para empezar a abordar las circunstancias comentadas antes, podemos ver un gr&aacute;fico de lo que ser&iacute;a una distribuci&oacute;n acumulada de tags:<br /><br /><img src="/extranet/gallery/download/4485/" alt="Frecuencia de tags" title="Frecuencia de tags" width="640" height="416" /><br /><br />La distribuci&oacute;n acumulada viene a decir: si miras el porcentaje en el punto X, el valor acumulado te indica qu&eacute; porcentaje de elementos (en nuestro caso tags) de la muestra estan por debajo de esa cantidad. Es decir, si en 35 tienes un 70%, quiere decir que el 70% de los tags tienen 35 o menos usos.<br /><br />En cambio, la informaci&oacute;n que proporcionan los gr&aacute;ficos de densidad son que en el punto X hay una proporci&oacute;n determinada. En resumen, no dan una visi&oacute;n de conjunto.</p><p>Si ordenamos los valores del gr&aacute;fico de densidad de menor a mayor, tenemos una &quot;funci&oacute;n de densidad&quot; siempre creciente, con una forma inversa a la que habitualmente presenta un gr&aacute;fico de Pareto.<br /><br />Utilizando percentiles, lo que hacemos es dividir esta lista por partes. Supongamos que seleccionamos 100 tags para la nube. Si queremos una distribuci&oacute;n equivalente de cinco tama&ntilde;os de fuente, podemos seleccionar los percentiles 20,40,60 y 80. Con esto tendremos que:</p><ul><li>Entre 0 y 20 tiene tama&ntilde;o 1 (el m&aacute;s peque&ntilde;o).</li><li>Entre &gt;20 y 40 tiene tama&ntilde;o 2.</li><li>Entre &gt;40 y 60 tiene tama&ntilde;o 3.</li><li>Entre &gt;60 y 80 tiene tama&ntilde;o 4.</li><li>Entre &gt;80 y 100 tiene tama&ntilde;o 5 (el m&aacute;s grande).<br /></li></ul><p>El c&aacute;lculo de los percentiles con la muestra ordenada es muy sencilla. Para el caso (ideal) que planteo, s&oacute;lo es necesario escoger los valores que hay en las posciones 20, 40, 60 y 80. Con estos valores, s&oacute;lo hemos de ir comparando la frecuencia de uso en cada tag y asignar el tama&ntilde;o del intervalo.<br /><br />Hag&aacute;moslo sencillo: un ejemplo de 10 tags:<br /><br />tag1  = 1<br />tag2  = 2<br />tag3  = 3<br />tag4  = 5<br />tag5  = 8<br />tag6  = 9<br />tag7  = 14<br />tag8  = 20<br />tag9  = 100<br />tag10 = 150<br /><br />Con los percentiles anteriores, tenemos que los valores a seleccionar ser&iacute;an 2,5,9,20. A efectos pr&aacute;cticos esto significa que el tag1 y tag2 tienen tama&ntilde;o 1, .... y el tag9 y tag10 tienen tama&ntilde;o 5.<br /><br />Para este c&aacute;lculo hemos ordenado los tags *por frecuencia*. Lo que sucede a menudo es que al mostrarse en la web, se ordenan alfab&eacute;ticamente. Por lo tanto, el c&aacute;lculo de tama&ntilde;os y el proceso de mostrarse en pantalla se hacen por separado.</p><h2>Consecuencias del uso de percentiles<br /></h2><p>Una de las consecuencias del uso de percentiles es que no siempre se consigue un efecto deseable. Por ejemplo, alteraremos la muestra anterior:<br /><br />tag1  = 1<br />tag2  = 1<br />tag3  = 1<br />tag4  = 5<br />tag5  = 5<br />tag6  = 9<br />tag7  = 22<br />tag8  = 150<br />tag9  = 180<br />tag10 = 2000<br /><br />En este caso aparecen dos cuestiones importantes:</p> <ul><li>El percentil 20 sigue siendo 1, pero al generar la nube de etiquetas, el tag3 tambi&eacute;n se mostrar&aacute; con tama&ntilde;o 1. Este efecto es habitual en peque&ntilde;as colecciones o en muestras que tienen tendencia a mostrar el comportamiento de larga cola.</li><li>El segundo efecto importante es el de tag10: su frecuencia de uso es mayor que la suma del resto, pero a nivel de tama&ntilde;o se muestra igual que el tag9, cuando en realidad tag9 est&aacute; m&aacute;s cercano a tag8.<br />   </li></ul> <p><br />Un consuelo sirve para las dos: en el momento de agrupar y categorizar, siempre existen estas imperfecciones. De los dos, el m&aacute;s preocupante es el segundo, ya que el principal inter&eacute;s al agrupar datos es que se mantenga la representatividad de la informaci&oacute;n: si un tag utilizado 2000 veces se representa como igual de importante que otro utilizado s&oacute;lo 180 veces, algo falla.<br /><br />Por suerte, la estad&iacute;stica robusta ya considera la presencia de los datos extremos (outliers). Estos datos extremos se dan tanto por m&aacute;ximos como por m&iacute;nimos. Por lo general, su c&aacute;lculo se realiza mediante cuartiles y el rango intercuart&igrave;lico: el rango intercuart&iacute;lico indica la distancia entre el cuartil 1 y el cuartil 3, lo que equivale a la distancia entre los percentiles 25 y 75. Esta distancia se utiliza como regla de medida para determinar lo m&aacute;ximo esperado para valores no extremos.<br /><br />As&iacute;, si un dato est&aacute; m&aacute;s all&aacute; de N rangos intercuart&iacute;licos respecto la mediana, se considera un <em>outlier</em> (valor extremo). En los casos como el <a href="http://en.wikipedia.org/wiki/Box_plot" title="Wikipedia: Box plot">gr&aacute;fico box-plot</a>, lo que se hace es dejar al outlier fuera del gr&aacute;fico general, aunque marcando su posici&oacute;n. Para el caso que nos ocupa, la cuesti&oacute;n ser&iacute;a utilizar un criterio distinto para cada extremo: </p> <ul><li>Si se trata de un extremo por m&iacute;nimo, deber&iacute;a eliminarse: si la nube de tags se utiliza como indicador agregado de contenidos, un m&iacute;nimo excesivamente bajo no es representativo, ya que probablemente es parte de la &quot;cola&quot;.</li><li>Para el caso de los m&aacute;ximos, deber&iacute;a existir un tama&ntilde;o de fuente aplicable s&oacute;lo a este tipo de datos, ya que de este modo se resaltar&iacute;a esta propiedad. Es decir, una clase CSS asignada a un tag outlier.<br />   </li></ul> <p><br />En ambos casos, a medida que aumenta la muestra es muy probable que desaparezcan. Sin embargo, es probable que sigan teniendo presencia en nubes de tags m&aacute;s filtradas.<br /><br />Una vez saciadas las exigencias de representatividad, ya tenemos un criterio bastante b&aacute;sico, que se puede concretar en el siguiente pseudoc&oacute;digo.</p> <ul><li>A = los tags m&aacute;s utilizados y sus frecuencias.</li><li>B = Ordenar A de menor a mayor frecuencia.</li><li>C = Matriz con los percentiles 20, 40, 60 y 80. (escoger valores en posiciones correspondientes)</li><li>Para cada A[i] en A:</li><ul><li>Para cada C[j] en C:</li><ul><li>Si frecuencia de A[i] &lt;=  C[j]:</li><ul><li>Imprimir el tag A[i] con tama&ntilde;o &quot;j&quot;</li><li>break (pasar al siguiente tag)</li></ul><li>Fin Si</li></ul><li>Fin bucle C[j]</li></ul><li>Fin bucle A[i]<br />   </li></ul> <h2>Conclusiones<br /> </h2> <p>Si la web tiene una gran cantidad de contenidos, la nube de tags se convierte en un equivalente nada sint&aacute;ctico de un resumen. Sin embargo, los formatos de las nubes de tags quiz&aacute; evolucionen hacia modelos m&aacute;s basados en an&aacute;lisis de co-ocurrencia.</p> <p>El hecho que se d&eacute; una buena representatividad en esta nube reflejar&aacute; mejor los contenidos, por lo que ayudar&aacute; a que el usuario pueda decidir si se queda o se va. La distorsi&oacute;n de la nube de tags (con o sin intenci&oacute;n) es infructuoso, ya que tarde o temprano el usuario se dar&aacute; cuenta que la nube no refleja el conjunto.</p> <p>A nivel t&eacute;cnico, el algoritmo que se deriva del pseudoc&oacute;digo anterior es r&aacute;pido. Este tipo de consultas agregadas son sencillas, y el &uacute;nico factor que pudiera jugar en su contra es la memoria que puede utilizar la consulta a la base de datos.</p> <p>Por delante me quedan varios temas. Uno de ellos es crear un algoritmo de creaci&oacute;n de nube de tags que permita varios esquemas de visualizaci&oacute;n, considerando criterios de ordenaci&oacute;n y agrupaci&oacute;n combinados.</p><p>El segundo, de car&aacute;cter m&aacute;s t&eacute;cnico, es realizar pruebas de rendimiento sobre varios esquemas de bases de datos enfocados a almacenar sistemas de tagging. Es una pregunta habitual, que tambi&eacute;n permitir&aacute; profundizar en sistemas de optimizaci&oacute;n de bases de datos.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26786/sistema-tagging-nube-etiquetas</link><pubDate>Sat, 22 Dec 07 00:00:00 +0100</pubDate></item><item><title><![CDATA[Propuestas para un sistema de tagging - 1]]></title><description><![CDATA[<p>En el anterior post comentaba que ando d&aacute;ndole vueltas a introducir una herramienta de tagging en este sitio, y de las posibles funcionalidades que estoy considerando.</p><p>Aunque a nivel operativo ando flojo, absorbido por cuestiones profesionales, voy a tratar de introducir algunas ideas que, aunque en gran parte no son nuevas, s&iacute; tratan de ser innovadoras por su enfoque.</p> <h2>Morfolog&iacute;a del tag</h2><p>Uno de los aspectos clave que para m&iacute; debe ofrecer un sistema de organizaci&oacute;n de tags es la capacidad para indicar al sistema que el tag en s&iacute; no es un t&eacute;rmino a secas, sino que se trata de un conjunto interpretable morfol&oacute;gicamente.</p><p>La morfolog&iacute;a de un tag puede venir por una estructura de este estilo:</p><p>[prefijo][contexto][concepto][sufijo] </p><p>Por ejemplo:</p><p>**geo:country=spain(?)</p><p>El an&aacute;lisis morfol&oacute;gico para el sistema indicar&iacute;a lo siguiente:</p><ul><li>**: Es un prefijo que podr&iacute;a indicar la importancia (dos estrellas) de esa etiqueta en el conjunto, aunque podr&iacute;a indicar otras cosas.  </li><li>geo: Se nos est&aacute; indicando una informaci&oacute;n de tipo geogr&aacute;fico.</li><li>country: En esencia es lo equivalente a un campo de formulario. Aunque a nivel documental, <a href="../../../../../../content/view/facetas-aplicaciones-en-informatica" title="Sopadebits: Facetas - aplicaciones en inform&aacute;tica">podemos considerarlo una faceta</a>. </li><li>(?): Indicar&iacute;a las garant&iacute;as de veracidad de la informaci&oacute;n, aunque tambi&eacute;n podr&iacute;a indicar otro tipo de modificadores.</li></ul><p>Esto no es especialmente novedoso: se denominan <a href="http://www.limalimon.com.es/2007/02/01/tagging-avanzado-machine-tags/" title="lima-lim&oacute;n: tagging avanzado, machine tags">machine tags</a>, concepto que ya disponde de un <a href="http://machinetags.org/" title="Machine Tags">site propio</a>,  aunque otros lo llaman <a href="http://geobloggers.com/archives/2006/01/11/advanced-tagging-and-tripletags/" title="geobloggers - triple tags">triple tags</a>.</p><p>El concepto no nada es innovador, aunque es valiente que sitios como Flickr hayan activado estas funcionalidades (por lo que se ve en geobloggers, hace casi dos a&ntilde;os).</p><p>Documentalistas e inform&aacute;ticos est&aacute;n habituados (de un modo u otro) a este tipo de gesti&oacute;n de la informaci&oacute;n.  Los primeros por el constante trabajo con los metadatos, aunque con una sintaxis diferente.  Los segundos, porque en el momento de compilar programas (especialmente en entornos Unix) aparecen las <em>flags</em>, que son opciones de configuraci&oacute;n, algunas de las cuales incluyen par&aacute;metros y valores.</p><h2>Aplicabilidad de los tags  </h2><p>Tambi&eacute;n existen trabajos como el del <a href="http://eprints.rclis.org/archive/00010445/" title="@toread and Cool : Tagging for Time, Task and Emotion">an&aacute;lisis de tags emocionales y operativos realizado por Margaret E. Kipp</a>, que nos indica que el etiquetado no s&oacute;lo es un lenguaje no controlado, sino tambi&eacute;n algo m&aacute;s &iacute;ntimo y/o operativo. No queda claro cu&aacute;l es la causa y cu&aacute;l el efecto: es incontrolado porque es personal, o se hace personal por hacerse incontrolado.</p><p>Lo que aflora a la vista de las posibilidades indicadas por Kipp es que la falta de control no significa que exista una falta de criterio, sino que simplemente los criterios no est&aacute;n consensuados, ni objetivados.</p><p>Cuando es un servicio ajeno a nuestro entorno local de trabajo (un servicio web como del.icio.us) el que ofrece esas funcionalidades, es comprensible que los sistemas de etiquetado y anotaciones (como las que ofrece <a href="http://www.diigo.com/" title="Diigo">diigo</a>) sirven para contentar y satisfacer gran cantidad de necesidades.</p><h2>Vivo en la red, trabajo en mi ordenador </h2><p>Sin embargo, hay que dar un paso m&aacute;s: aunque los servicios hayan nacido en la web social, cada vez existe un mayor inter&eacute;s en poder disponer de los datos off-line, en el propio disco duro o en el tel&eacute;fono m&oacute;vil, y sincronizarlos cuando sea preciso. </p><p>Ante este paso adelante, el tagging no s&oacute;lo sirve para el etiquetado de los recursos ajenos, sino tambi&eacute;n los personales: la lista de tareas pendientes, la agenda, los contactos, los correos electr&oacute;nicos, los documentos propios, los favoritos (o en un sentido m&aacute;s amplio, las referencias), la colecci&oacute;n de m&uacute;sica, fotograf&iacute;as,...</p><p>Este etiquetado universal, dejando de lado por un momento los tags compuestos, podr&iacute;a ofrecer funcionalidades del tipo: &laquo;puedes buscar el tag &quot;pepito&quot; y te recupera todos los documentos, temas pendientes...&raquo;. Esta recuperaci&oacute;n se basa en el principio que el texto buscado informa <em>sobre</em> el contenido.  Este planteamiento de considerar los tags como simples portadores de lo que en ingl&eacute;s denominan <em>aboutness</em> es una visi&oacute;n reduccionista que en un entorno social de etiquetado, lo <a href="http://www.veaseademas.com/archivos/2006/07/exhaustividad_y.html" title="V&eacute;ase adem&aacute;s: Exhaustividad y Precisi&oacute;n en los SRIs basados en tags">&uacute;nico que consigue es provocar ruido</a>. En cierto modo s&oacute;lo es una evoluci&oacute;n m&aacute;s de la b&uacute;squeda full-text.</p><p>Al introducir funcionalidades basadas en tags compuestos, permitimos el tratamiento de metadatos, la inclusi&oacute;n de facetas, y muchas posibilidades (por ejemplo, indexar utilizando la CDU: *cdu=...).</p><p>(Continuar&eacute; comentando este tema en otro post).</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26784/propuestas-sistema-tagging-1</link><pubDate>Thu, 11 Oct 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[Propuestas para un sistema de tagging - 2]]></title><description><![CDATA[<p>En esta segunda parte comentar&eacute; los posts relacionados con procesos, la relaci&oacute;n entre un espacio local de trabajo y un espacio en red para el intercambio y la comunicaci&oacute;n. Tambi&eacute;n comentar&eacute; lo importante que es considerar cualquier informaci&oacute;n como algo susceptible de ser guardado, importado/exportado y compartido. Finalmente har&eacute; un breve comentario sobre las estructuras de datos en &aacute;rbol y en red, para hacer referencia a los tesauros...  </p> <h2>Etiqueta: es una orden </h2><p>Volvamos a la hip&oacute;tesis que indicaba en el post anterior: el usuario trabaja en un entorno de trabajo individual (local), donde dispone de una serie de herramientas (aplicaciones) y toda la informaci&oacute;n es gestionada por un solo sistema de etiquetado. En ese contexto, es posible pensar en tags del tipo:</p><p>--sent-to:myfriend@example.com [enviar esta informaci&oacute;n a un amigo]</p><p>--project-attach:project1 [adjuntar a la lista de documentos y recursos del proyecto project1]</p><p>--apply-filter:filter1 [Aplicar filtro &quot;filter1&quot;]</p><p>--set-event?title=werwer&amp;date=2007-10-05 </p><p>Aunque he mostrado unas cuantas variantes estructuralmente diferentes, lo que quiero explicar es que se puede etiquetar enfocando la etiqueta a &oacute;rdenes y procedimientos. Existe una funcionalidad parecida en los sistemas de filtro de los correos: un an&aacute;lisis del contenido permite asignar una ubicaci&oacute;n, marcar el mensaje como importante, o simplemente eliminarlo.</p><p>El caso inverso tambi&eacute;n es posible: si un fitro sit&uacute;a un mensaje en una carpeta, asignar una o m&aacute;s etiquetas. Si se ejecuta una aplicaci&oacute;n que carga un determinado documento, indicar una etiqueta  que indique esta acci&oacute;n.</p><p>En este contexto, <em>tags</em> y <em>flags</em> trabajan sobre una misma base, ya que <strong>el sistema de tagging se convierte en un despachador de mensajes</strong> para todo un entorno de trabajo. Desde el punto de vista de un programador, esta afirmaci&oacute;n es trivial, aunque soy consciente que no es apta para todo el mundo. </p><p>El punto clave para el &eacute;xito o el fracaso de estas funcionalidades es la mejora en la calidad de vida de los usuarios, especialmente en lo relativo a la productividad.</p><p>En alg&uacute;n punto entre los tags m&aacute;s simples y los casos complejos indicados antes, quiz&aacute; exista la posibilidad de rellenar un formulario que generar&aacute; tales tags: si el esfuerzo por etiquetar es mayor (o induce a m&aacute;s errores) que rellenar cuatro campos, el formulario servir&aacute; como opci&oacute;n. Por lo dem&aacute;s habremos conectado dos sistemas de introducci&oacute;n de datos.</p><h2>Sincronizaci&oacute;n e intercambio</h2><p>El entorno local de trabajo no puede ser el de la vida habitual de un usuario de Internet: estar al corriente de la novedades requiere conectarse. La variedad de entornos de actividad (trabajo, casa, segunda residencia, casa de un amigo) presenta conflictos varios entre el acceso y la confidencialidad de la informaci&oacute;n.</p><p>Probablemente os ha pasado que al utilizar el programa de mensajer&iacute;a, no quer&eacute;is que los compa&ntilde;eros de trabajo sepan que est&aacute;s ah&iacute;. Tambi&eacute;n ha sucede que necesit&aacute;is un documento que no ten&eacute;is disponible porque est&aacute; en otro ordenador.</p><p>Al fin y al cabo es una cuesti&oacute;n de red y terminales: la red permite acceder a una gran cantidad de recursos, pero esos recursos deben llegar al terminal desde el que estamos consultando informaci&oacute;n.  Para evitar la p&eacute;rdida de eficiencia que supone trabajar en varios terminales (y varios usuarios), la clave est&aacute; un sistema que permita la sincronizaci&oacute;n entre terminales, utilizando un servicio central o mediante la arquitectura P2P solucionar&iacute;a el problema de la ubicaci&oacute;n del terminal.  Es parecido a lo que sucede en el software de control de versiones como CVS o Subversion, aunque estos sistemas no permiten ir m&aacute;s all&aacute; de los archivos de texto para el control de modificaciones. </p><p>Cuando ese proceso de <em>sincronizaci&oacute;n</em> se realiza respecto a la informaci&oacute;n generada por otros usuarios u organizaciones, el volumen y a diferencia de criterios en el etiquetado va en aumento.  Las consecuencias de la polisemia, la sinonimia, los idiomas, terminolog&iacute;a t&eacute;cnica, etc.  Esta red genera etiquetas que s&oacute;lo cada usuario individualmente tiene la capacidad para seleccionar. Esa selecci&oacute;n implica asimilar nuevas etiquetas, pero lo m&aacute;s importante es definir relaciones con las propias etiquetas: cuando el usuario X utiliza la etiqueta Y, yo lo entiendo como la etiqueta Z.  </p><p>Entre todas estas relaciones y sinapsis de tags, un usuario sabe identificar las etiquetas sin&oacute;nimas, las mal escritas y las que no tienen un significado claro. Es el momento de establecer relaciones sem&aacute;nticas o documentales entre etiquetas, y es posible que este usuario pueda organizar su propio listado de tags de inter&eacute;s. Esos tags no son nuestros tags, pero pueden ser sin&oacute;nimos, equivalentes documentales, t&eacute;rminos inadecuados para nuestro vocabulario, o que quiz&aacute; por la polisemia, tengan significados diferentes para otros usuarios. Disponer de esas sinapsis implicar&iacute;a disponer de un flujo constante y con un buen nivel de filtrado para disponer de informaci&oacute;n de inter&eacute;s. </p><p>La circunstancia de uso implica que un usuario concreto busque fuentes de informaci&oacute;n relativas a un tema (pongamos programaci&oacute;n orientada a objetos), sobre el cual el utiliza la etiqueta &quot;POO&quot;. Sin embargo, encuentra que otros usuarios utilizan otras etiquetas, como <em>OOP</em>, <em>object-oriented-programming</em>, <em>objects</em>, etc. Ante esta variedad de usos, podr&iacute;a ser que algunas de etiquetas (y en especial algunos usuarios) pudieran buscar o disponer de informaci&oacute;n parecida.</p><p>El sistema consistir&iacute;a en que este usuario pudiera utilizar un sistema de organizaci&oacute;n parecido a una lista de encabezamientos para indicar equivalencias. Esto implicar&iacute;a &quot;Mi POO equivale a la OOP del usuario X, y a <em>objects</em> del usuario Y&quot;. Es una regla de filtro que genera informaci&oacute;n bastante m&aacute;s limpia, y que ya llega previamente organizada.</p><p>Ante todo esto, las organizaciones podr&iacute;an disponer de sistemas de etiquetado que a su vez ser&iacute;an integrables en la red de usuarios.</p><h2>Tags, b&uacute;squedas y reglas de filtro como documentos</h2><p>Los desarrolladores lo tienen claro: el c&oacute;digo fuente es a la vez contenido y proceso.  Esta dualidad es la que provoca el debate entre el uso de las leyes de patentes o de la propiedad intelectual para su regulaci&oacute;n.  En el entorno digital, la interacci&oacute;n con un sistema genera siempre esta dualidad: los trucos y hacks (los que ponen a prueba el software de una forma &eacute;tica) juegan con esa dualidad, y los profesionales de la informaci&oacute;n podr&iacute;an empezar a aplicar ese criterio.  Por eso, tus b&uacute;squedas son documentos, y tus tags tambi&eacute;n.</p><p>En el momento que la informaci&oacute;n escrita interact&uacute;a o se convierte en un proceso, significa que es <em>exportable</em> a otros usuarios del mismo servicio, o a los responsables de este servicio. En el momento que esas entradas de informaci&oacute;n se utilizan para mejorar la calidad de la recuperaci&oacute;n de la informaci&oacute;n, se convierten en documentos, aunque no tienen una estructura tan completa como los que tradicionalmente utilizamos, y quiz&aacute; sean m&aacute;s cr&iacute;pticos cuando se trata de extraer conocimientos concretos. </p><p>Tambi&eacute;n el concepto de formato de documento implica que los datos en pasivo son <em>procesados</em> por una aplicaci&oacute;n que entiende ese formato. Ese paso a la acci&oacute;n es una propiedad que se ha ido trasladando a los profesionales de la informaci&oacute;n. </p><p>Hace poco que se notificaba que Google almacena el historial de nuestras b&uacute;squedas. Aunque el argumento de Google es ofrecer una recuperaci&oacute;n de la informaci&oacute;n m&aacute;s adecuada a nuestras necesidades de informaci&oacute;n, no cabe duda que (probablemente desde hace tiempo) el gran buscador almacena datos precisos de nuestra actividad. Es factible pensar que tanto dato almacenado tiene un inter&eacute;s estrictamente econ&oacute;mico.</p><h2>Intermediaci&oacute;n y profesionales de la informaci&oacute;n</h2><p>Opino que las sinapsis de tags tal como las comentaba antes, son un reflejo de lo que se denomina <em>inteligencia colectiva</em>. La inteligencia colectiva representada en forma de etiquetas es algo m&aacute;s procesable, pero no necesariamente m&aacute;s expl&iacute;cita. De esta inmensa nube de informaci&oacute;n, identificar las fuentes fiables es complejo.</p><p>Al lado de ese criterio, no parece imposile la existencia de una serie de perfiles de usuarios que generan reglas de filtrado sobre varias fuentes de informaci&oacute;n.  Con la intenci&oacute;n de ofrecer informaci&oacute;n depurada, adecuada e incluso comentada o resumida, se puede ofrecer este servicio a un determinado perfil de usuarios que trabajan intensamente sobre estas fuentes de informaci&oacute;n y que andan totalmente saturados. La transmisi&oacute;n de esta selecci&oacute;n de art&iacute;culos podr&iacute;a realizarse por varios canales (RSS, e-mail, impreso).</p><p>Este tipo de usuarios actuar&iacute;an como intermediarios entre los usuarios y la informaci&oacute;n, pero tambi&eacute;n entre usuarios y una serie de tecnolog&iacute;as (como RSS) que no acaban de aflorar entre la masa de usuarios de Internet. A pesar de ello, la clave no est&aacute; en la tecnolog&iacute;a de comunicaci&oacute;n sino en el servicio de filtro. Quienes tienen m&aacute;s de 200 posts al d&iacute;a, de los cuales casi la mitad sean de poco inter&eacute;s, quiz&aacute; entiendieran ese servicio como una forma de reducir el tiempo (o aumentar las fuentes).</p><p>Dentro de todo este esquema, este conjunto de intermediarios podr&iacute;an estar interesados en generar una estructura de etiquetas m&aacute;s cercanas a un lenguaje controlado.  Utilizando este sistema de sinapsis (tags relacionados sin necesidad de adoptarlos) es posible que convivan lenguajes controlados y no controlados, sin que el usuario precise adecuarse al entorno, ni a la inversa.</p><p>Como apunte final, cabe comentar una &uacute;ltima utilidad para la adaptaci&oacute;n de los usuarios al entorno de intercambio: los tags utilizados para etiquetar los posts de un blog podr&iacute;an &quot;transformarse&quot; si quien est&aacute; accediendo a la p&aacute;gina es una ara&ntilde;a (crawler). Sabiendo que una ara&ntilde;a est&aacute; recogiendo informaci&oacute;n sobre mi p&aacute;gina, ser&iacute;a posible indicar los tags aplicando un enlace hacia el tag en technorati, del.icio.us o algo por el estilo.  Probablemente los m&aacute;s expertos en SEO podr&iacute;a extraer ideas para mejorar el posicionamiento. Este proceso no debe considerarse <em>cloaking</em>, ya que lo &uacute;nico que se est&aacute; haciendo es proporcionar al buscador una referencia que &eacute;l mismo valora. Es MUY probable que ya est&eacute; implantado en alg&uacute;n sitio, lo &uacute;nico que a&ntilde;ado aqu&iacute; es integrarlo en un sistema de tags. </p><h2>Del &aacute;rbol a la red</h2><p>La teor&iacute;a de grafos es una de esas disciplinas que han emergido con la aparici&oacute;n de Internet. Tienen un uso muy difundido en entornos donde la estructura en red es habitual, como la red el&eacute;ctrica o las carreteras.</p><p>En Internet, el grafo casi lo es todo: la arquitectura de la propia red, la organizaci&oacute;n de sus contenidos, las relaciones sociales... Internet es un grafo hecho realidad.</p><p>Dentro de la teor&iacute;a de grafos, el &aacute;rbol es considerado tambi&eacute;n un grafo, s&oacute;lo que su estructura jer&aacute;rquica implica que las posibilidades de recorrer todos sus puntos s&oacute;lo se puede hacer &quot;subiendo y bajando&quot; dentro de la jerarqu&iacute;a.</p><p>En la organizaci&oacute;n del conocimiento, el tesauro es la gran herramienta. Es fruto de esfuerzos y por ello compendio de criterios y objetivaciones.  Es una destilaci&oacute;n de conocimiento.</p><p>Su estructura jer&aacute;rquica permite desplazarse de lo universal a lo individual, recorriendo de lo gen&eacute;rico a lo espec&iacute;fico por una escalera de varios pisos. Esta jerarqu&iacute;a est&aacute; enhebrada tambi&eacute;n por t&eacute;rminos relacionados, t&eacute;rminos no autorizados y dem&aacute;s, pero en esencia es un &aacute;rbol.</p><p>Mi opini&oacute;n es que el tesauro deber&aacute; adaptarse al nuevo entorno.  Aunque pueda utilizarse como esqueleto de un lenguaje documental con estructura en red, como las ontolog&iacute;as. La web sem&aacute;ntica y las <a href="http://www.w3.org/TR/owl-features/" title="W3C: Web Onthology Language">OWL</a> ser&aacute;n el objetivo y la forma final hacia la que puedan evolucionar las relaciones entre etiquetas y los documentos indexados. El etiquetado social ha venido para quedarse, y vale la pena extraer la parte interesante en entornos de tratamiento de la informaci&oacute;n.</p><p>La evoluci&oacute;n de los tags, el tagging y las herramientas de los profesionales de la informaci&oacute;n probablemente se adecuar&aacute;n a la arquitectura que est&aacute;n planificando Adobe con su AIR, Promokey, Sun/Java y desde luego, Microsoft. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26785/propuestas-sistema-tagging-2</link><pubDate>Thu, 11 Oct 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[Seis meses y un blog]]></title><description><![CDATA[<p>Se cumplen los primeros seis meses de vida de este blog. Al lado de los que cumplen cuatro, cinco o incluso m&aacute;s a&ntilde;os en el mundillo de la blogosfera, seis meses son un suspiro.  Pero son mis primeros seis meses...</p><p>&nbsp;</p> <p>Alrededor de esto est&aacute;n las primeras sensaciones de gestionar un blog, realizar un seguimiento y an&aacute;lisis de lo que pasa detr&aacute;s, y realizar ajustes.</p><p>Lo que m&aacute;s me est&aacute; gustando es superar (mejor o peor, eso va al gusto de cada cual) el reto de plasmar lo que pienso, con la esperanza que al menos lo entend&aacute;is.  A&uacute;n llevando a&ntilde;os escribiendo y recopilando ideas, art&iacute;culos y dem&aacute;s; a&uacute;n as&iacute;, concretarlo en algo m&aacute;s que unos apuntes en el papel. Ponerlo luego a libre disposici&oacute;n pesa por el miedo al error, pero me gusta.</p><h2>Los temas pendientes</h2><p>Lo que llevo hecho hasta ahora me lleva a lo que tengo pendiente.  A nivel de contenidos hay algunos temas que he abierto y no he cerrado (me quedan al menos dos puntos en la serie de gesti&oacute;n de la informaci&oacute;n, por ejemplo), y a&uacute;n quedan cosillas pendientes de la lista de tareas del verano, pero ya ir&aacute;n viniendo.</p><p>Estoy convencido que mis posts tienen bastantes errores e imprecisiones. Entre la lista de temas a mejorar est&aacute; (por razones profesionales) el mejorar mis citas y referencias a las fuentes, que a veces son poco claras. </p><p>Adem&aacute;s de los contenidos, lo que me interesa trabajar como prioridad son las funcionalidades del entorno.</p><p>Es algo triste que en este blog, donde he hablado de tagging y la web 2.0, no existan tags, y no est&eacute;n implantados funcionalidades como el trackback, el permalink, los links de men&eacute;ame, del.icio.us y dem&aacute;s funcionalidades similares.</p><p>Lo que m&aacute;s novedades traer&aacute; son los tags, ya que tengo unas cuantas ideas en mente que dar&aacute;n cuerda para experimentar. </p><p>En la vertiente t&eacute;cnica, y exceptuando el adsense (que por otro lado no interfiere en la navegaci&oacute;n), el sitio cumple con las especificaciones WAI-A, CSS-2.0, y XHTML-1.0 (Transitional, pero por poco). Eso forma parte de la experiencia de tener mi blog: no he utilizado una herramienta de blog ni un CMS para la ocasi&oacute;n.</p><p>Todo esto repercute en una apariencia que puede calificarse de simplona (o cutre), aunque con las nuevas funcionalidades se a&ntilde;adir&aacute; m&aacute;s posibilidades a la navegaci&oacute;n, y adem&aacute;s, espero poder inaugurar dentro de poco un nuevo dise&ntilde;o.</p><p>En otros aspectos como la promoci&oacute;n y la socializaci&oacute;n, voy a tratar de dar un empuj&oacute;n al blog introduciendo herramientas semiautom&aacute;ticas de publicaci&oacute;n en herramientas como del.icio.us, technorati (aunque por lo que s&eacute;, va a la baja) y otros servicios parecidos. Es probable que con todo esto tambi&eacute;n incluya experimentos de publicidad para poder explicar c&oacute;mo se podr&iacute;an aplicar estrategias de promoci&oacute;n. Esta es la &uacute;ltima parte a tratar.</p><h2>Las estad&iacute;sticas</h2><p>Desde luego el servidor no va a caerse por tr&aacute;fico, aunque estoy bastante satisfecho con la evoluci&oacute;n del blog y la actividad que recibe.  Por favor, ahogad las risas que estoy la mar de ilusionado con estos datos que presento a continuaci&oacute;n:</p><ul><li>Este mes de Septiembre se cerr&oacute; con 289 visitas y 463 p&aacute;ginas vistas.  El incremento <em>porcentual</em> desde Abril ha sido bastante lineal, y s&oacute;lo qued&oacute; interrumpido por el bajo nivel de visitas de Agosto.</li><li>En Septiembre llegaron 247 usuarios &uacute;nicos absolutos. Los usuarios que visitan mi web &quot;van al grano&quot; o no encuentran lo que buscan, ya que se quedan para ver una media de 1,6 p&aacute;ginas/visita durante una media de 1:36 minutos. Quiz&aacute; cabe mencionar que en algunas b&uacute;squedas, la palabra &quot;sopa&quot; despista a los usuarios, aunque creo que es un efecto minoritario.</li><li>Los posts m&aacute;s visitados a lo largo de estos 6 meses han sido (de menos a m&aacute;s) el de <a href="../../../../../../content/view/utilizando-yahoo-pipes" title="Sopa de bits: Utilizando Yahoo! Pipes">Yahoo! Pipes</a>, el <a href="../../../../../../content/view/mi_nuevo_ibsn" title="Sopa de bits: Mi nuevo IBSN">primer post sobre IBSN</a> y el de <a href="../../../../../../content/view/open-flash-chart-graficos-estadisticos-open-source" title="Sopa de Bits: Open Flash Chart">Open Flash Chart</a>.</li><li>Google es la fuente principal de visitas, aunque lentamente van llegando entradas desde technorati, Yahoo!, acceso directo, del.icio.us, etc. foros.jarfil.net tambi&eacute;n env&iacute;a visitas con m&aacute;s o menos regularidad. Pero las cosas claras: el 60% de accesos desde b&uacute;squedas en Google deja claro el peso de esta fuente de tr&aacute;fico. Como ya comentaba antes, la promoci&oacute;n y el SEO ser&aacute;n dos temas que tratar&eacute; en el pr&oacute;ximo semestre. </li></ul><p>Ya est&aacute;. Por ahora hay poquita cosa. Me queda por a&ntilde;adir que otro tema pendiente es introducir un gestor de estad&iacute;sticas propio, ya que Google Analytics no me convence del todo, no me permite seguir vuestras lecturas por RSS, y a veces me plantea dudas sobre la total veracidad de la informaci&oacute;n. Eso no quiere decir que est&eacute; mal... Como herramienta cumple con una parte importante de objetivos de an&aacute;lisis.<br /> </p><p>Lo que sucede es que creo que la clave para sacar el jugo a los sistemas de estad&iacute;sticas es poder personalizar y analizar mejor la navegaci&oacute;n y la interacci&oacute;n seg&uacute;n la tem&aacute;tica concreta de cada contenido. Poder poner dentro del an&aacute;lisis la densidad de t&eacute;rminos los textos de los enlaces, etc., creo que ser&aacute; imprescindible para entender la interacci&oacute;n y extraer mayor valor econ&oacute;mico. </p><p>Con estos datos y las buenas intenciones anteriores, lo dejo por hoy. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26783/seis-meses-blog</link><pubDate>Sat, 06 Oct 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[Normalizaci&oacute;n y distancias normalizadas]]></title><description><![CDATA[<p>Tu jefe entra por la puerta. Lleva su malet&iacute;n en una mano, y en la otra sostiene una hoja de papel que mira con el ce&ntilde;o fruncido.  Se le ve concentrado, mientras avanza hacia tu mesa.</p><p>- Hola. Entro en una reuni&oacute;n dentro de un par de minutos.  &iquest;Puedes normalizarme esto?<br />- S&iacute;, claro...</p><p>Reconozc&aacute;moslo, tiene madera de jefe: en menos de dos minutos ha entrado en la oficina, te ha dejado una hoja de papel llena de garabatos y encima es urgente.  A eso se le llama delegar.</p><p>Mientras asimilas la orden, te reincorporas. Minimizas el programa de correo y te dispones a normalizar... Bueno, quiz&aacute; empezar&aacute;s por aprender una palabra m&aacute;s mirando el diccionario...</p> <h2>Normalizar o no normalizar<br /></h2><p>Tomando el t&eacute;rmino en su sentido m&aacute;s etimol&oacute;gico, normalizar puede entenderse como &quot;ajustar algo a una norma&quot;.  Lo que es evidente del caso anterior es que tu jefe no te ha concretado la norma a seguir.  Si echas un vistazo a la hoja, existen varias opciones por escoger:</p><p>- Caligraf&iacute;a/Tipograf&iacute;a.<br />- Ortograf&iacute;a.<br />- Estructura textual/argumental.<br />- Estilo y/o Imagen corporativa.</p><p>El papel entregado no cumple nada de lo anterior: es un esquema de alguna ocurrencia que no deja de ser un conocimiento que est&aacute; tratando de explicitarse.  Eso no lo convierte en un mal documento, s&oacute;lo que no est&aacute; preparado para ser compartido.</p><h2>Normalizaci&oacute;n como forma de consenso<br /></h2><p>Cada uno de los niveles de normalizaci&oacute;n anteriores trata de solucionar una posible causa de confusi&oacute;n. Veamos:</p><ul><li>La caligraf&iacute;a evita las confusiones en el proceso de lectura, al hacer m&aacute;s evidente la forma de las letras. Escoger una tipograf&iacute;a y tama&ntilde;o adecuados tambi&eacute;n es importante para una correcta lectura.  Esto reduce el error en el proceso de identificaci&oacute;n visual.</li><li>La ortograf&iacute;a evita dificultades en la interpretaci&oacute;n de los t&eacute;rminos.  Si es un ser humano quien lee el documento, es posible que encuentre la causa del error y que mentalmente lo convierta en el t&eacute;rmino adecuado.  En el caso de la m&aacute;quina eso es igualmente factible, pero no tan fiable.</li><li>La estructura textual y argumental permite identificar con m&aacute;s claridad el punto de partida, el conflicto y el desenlace.  No tiene nada que ver con el significado del documento, sino con sus objetivos.</li><li>El estilo y la imagen corporativa ayudan a asociar el contenido de un documento con una marca, mensaje e incluso con el esquema de valores que trata de transmitir plasmada en &eacute;ste.</li></ul><p>De los puntos anteriores se puede desprender la conclusi&oacute;n que normalizar implica reducir el margen de error y aumentar la potencia del mensaje. </p><p>Lo que define la normalizaci&oacute;n es la forma como se puede estructurar un conjunto de informaci&oacute;n para que quienes entiendan &quot;la norma&quot; puedan entender este mensaje documentado con un riesgo m&iacute;nimo de error.</p><p>Bajo estas circunstancias, normalizar equivale a consensuar la forma externa de un mensaje. Esto se consigue homogeneizando la estructura, la terminolog&iacute;a o el estilo.</p><p>Cuanto m&aacute;s reducido y especializado es un entorno, m&aacute;s estrictos son los criterios de normalizaci&oacute;n.  Ademas, se acostumbra a dar la paradoja que un documento normalizado en ese entorno tan restrictivo acostumbra a ser incomprensible para alguien ajeno a ese entorno.  Por ejemplo, el c&oacute;digo fuente de un programa acostumbra a ser incomprensible para alguien no acostumbrado a ello.  Los ingenios industriales acostumbran a presentar muchos casos de esto. La jerga de un sector de actividad tambi&eacute;n tiene esas caracter&iacute;sticas. Los documentalistas podemos comprobarlo f&aacute;cilmente: echamos un vistazo al tesauro que se corresponda, y pronto nos podemos dar cuenta de lo mucho que no conocemos.</p><p>La forma de ponerse de acuerdo en los aspectos significativos se ha centrado en la actualidad en las organizaciones como la ISO (International Standards Organization), ANSI y dem&aacute;s.</p><p>En la UE, se puede publicar un libro verde o <a href="http://en.wikipedia.org/wiki/Green_paper" title="Wikipedia: Green paper">green paper</a> con la intenci&oacute;n de exponer una serie de razones no vinculantes por las que podr&iacute;a estudiarse la posibilidad de definir unas normas. El proceso puede pasar por analizar las buenas pr&aacute;cticas de una actividad, explicitar una operativa que refleje esas buenas pr&aacute;cticas, y posteriormente definir la norma.</p><h2>Normalizaci&oacute;n matem&aacute;tica<br /></h2><p>Hasta ahora he comentado la normalizaci&oacute;n en un sentido general.  Aunque en las matem&aacute;ticas el concepto es casi equivalente, el contexto de uso cambia un poco.</p><p>Por lo general, aqu&iacute; el concepto de &quot;norma&quot; se puede entender como intervalo (si queremos ajustarnos a unas restricciones geom&eacute;tricas) o algoritmo (si la cuesti&oacute;n es procesar los datos para que sirvan a un determinado criterio).</p><p>Lo que en general significa normalizar dentro de las matem&aacute;ticas, es procesar la informaci&oacute;n para que dos conjuntos diferentes de datos sean comparables.  Eso por ejemplo sucede con los <a href="../../../../../content/view/indicadores-el-ajo-dorado" title="Sopadebits: Indicadores - el ajo dorado">indicadores</a>: muchos indicadores se &quot;normalizan&quot; para tomar valores entre 0 y 1.  Muy a menudo ese valor se multiplica por 100 para obtener un porcentaje (estamos al 75% del nivel de producci&oacute;n), aunque esa pr&aacute;ctica pueda ser algo dudosa.</p><p>En un proceso como el anterior, normalizar no significa &quot;convertir los datos a la distribuci&oacute;n normal&quot;. Esa es un uso l&oacute;gico del lenguaje, pero inexacto: es por eso que yo creo que es preferible utilizar el t&eacute;rmino &quot;estandarizar&quot; cuando se habla de la distribuci&oacute;n normal.  Aunque ese proceso se le llame normalizar, creo que es un uso inadecuado de una palabra con un sentido m&aacute;s amplio. Por ejemplo, <a href="http://espanol.answers.yahoo.com/question/index?qid=20070723132213AA3U5yy" title="Yahoo! Answers: qu&eacute; es la normalizaci&oacute;n">una respuesta en Yahoo! Answers sobre la normalizaci&oacute;n</a> me parece m&aacute;s o menos correcta, aunque creo que normalizar implicando al <a href="http://es.wikipedia.org/wiki/Teorema_del_l%C3%ADmite_central" title="Wikipedia: teorema central del l&iacute;mite">teorema central del l&iacute;mite</a> me parece fuera de lugar. El TCL no normaliza, ni uno normaliza utilizando el TCL: lo que sucede es que cuando se llegan a unos extremos expuestos por el TCL, existe una <em>convergencia</em>, fruto de la suma de variables aleatorias, que conduce el conjunto hacia una distribuci&oacute;n normal. Es parecido pero no es id&eacute;ntico.<br /><br />Por lo general, la normalizaci&oacute;n se basa a un algoritmo (implantado inform&aacute;ticamente o no). Este  algoritmo puede presentarse en forma de lenguaje natural, diagrama de flujo, c&oacute;digo fuente de lenguaje de programaci&oacute;n... Puede entenderse el algoritmo como una serie de reglas a seguir, independientemente de las herramientas utilizadas para aplicarlo.  </p><h2>Google y sus distancias</h2><p>Por ejemplo el PageRank es un algoritmo de normalizaci&oacute;n, basado en tratar una gran variedad de factores que se dan en documentos de hipertexto, para finalmente dar un valor entre 0 y 10. Puntuar del 0 al 10 es algo muy sencillo de entender, aunque es un c&aacute;lculo costoso. </p> <p>El PR es una medida unidimensional, como gran parte de los valores normalizados con los que tratamos cotidianamente.  Sin embargo, algunos valores normalizados pueden ser multidimensionales. La normalizaci&oacute;n no implica tener un n&uacute;mero concreto, sino que los n&uacute;meros cumplan criterios concretos.</p> <p>Uno de esos casos es la distancia normalizada de google, que ya cit&eacute; como una de las <a href="../../../../../../content/view/epoca-de-examenes" title="Sopa de bits: &eacute;poca de ex&aacute;menes">tareas pendientes este pasado verano</a>.</p><p>Tanto el PageRank de Google (PRG &oacute; GPR) como la distancia normalizada de Google (DNG &oacute; por GND) tienen una caracter&iacute;stica especial: la medici&oacute;n de las distancias entre los elementos no se obtiene por el proceso secuencial de los datos, sino por las relaciones entre ellos.  Por lo tanto, al estudiarse las relaciones entre ellos, se normalizan las distancias entre elementos, y no la distancia entre un elemento y los ejes de coordenadas.<br /><br />Lo que sucede es que el GPR acaba extrayendo un valor &quot;independiente&quot; para cada elemento, mientras que la DNG se queda con las interrelaciones, que habitualmente se representan en un grafo.<br /><br />Dado que el GPR ha sido ampliamente expuesto en otros art&iacute;culos [fuentes], s&oacute;lo cabe comentar que ambos algoritmos se basan en c&aacute;lculos algebraicos, basados en vectores propios y valores propios (formas &quot;normalizadas&quot; de matrices).<br /><br />En cambio, la visi&oacute;n m&aacute;s -llam&eacute;moslo as&iacute;- hol&iacute;stica de los datos, precisa de un tratamiento previo antes de la representaci&oacute;n gr&aacute;fica.  Resumiendo mucho, la representaci&oacute;n gr&aacute;fica utiliza unos ejes de coordenadas que en s&iacute; mismos ya son una &quot;norma&quot;, con lo que representar gr&agrave;ficamente las relaciones entre t&eacute;rminos significa normalizar.<br /><br />Lo que sucede con esta normalizaci&oacute;n es equivalente (que no id&eacute;ntico) al c&aacute;lculo que se aplica al aplicar la indexaci&oacute;n a texto completo, calculando la densidad normalizada de una palabra dentro del documento y de la colecci&oacute;n indexada.<br /><br />Se supone que el objetivo final de la DNG es extraer conocimiento: si existen relaciones entre dos t&eacute;rminos, &iquest;Pueden ser sin&oacute;nimos, ant&oacute;nimos...? Para extraer algunas de estas conclusiones, se han utilizado herramientas como el <a href="http://en.wikipedia.org/wiki/Latent_semantic_analysis" title="Wikipedia: Latent Semantic Analysis">an&aacute;lisis sem&aacute;ntico latente</a>, o la <a href="http://en.wikipedia.org/wiki/Singular_value_decomposition" title="Wikipedia: Singular Value Decomposition">singular value decomposition (SVD)</a> (que es el hom&oacute;nimo de los valores propios aplicado a matrices no cuadradas), con m&aacute;s o menos &eacute;xito.</p><p><br />Vale la pena comentar que la lectura del <a href="http://www.cwi.nl/~paulv/papers/amdug.pdf" title="Google Normalized Distance">documento explicativo de la GND</a> es interesante, aunque muy &aacute;rida a quien no se le den bien las matem&aacute;ticas. Para esos casos, recomiendo tratar de entender las explicaciones que se dan, que por lo dem&aacute;s tienen bastante sentido com&uacute;n. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26782/normalizacion-distancias-normalizadas</link><pubDate>Wed, 03 Oct 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[Emprender y los profesionales de la informaci&oacute;n]]></title><description><![CDATA[<p>El pasado d&iacute;a 9 de Septiembre <a href="http://www.javierleiva.info/" title="Javier Leiva">Javier Leiva</a> <a href="http://www.catorze.com/blog/la-opcion-de-emprender/" title="Catorze.blog: La opci&oacute;n de emprender">comunicaba en su blog catorze</a> la <a href="http://www.thinkepi.net/repositorio/la-opcion-de-emprender/" title="Javier Leiva: La opci&oacute;n de emprender">publicaci&oacute;n del art&iacute;culo &quot;La opci&oacute;n de emprender&quot;</a> en <a href="http://www.thinkepi.net" title="ThinkEPI">Thinkepi</a>.<br /><br />Una semana y media despu&eacute;s tuve la ocasi&oacute;n (agradable circunstancia) de compartir un caf&eacute; con &eacute;l, conocernos con la calma del t&uacute; a t&uacute; y comentarle que estaba totalmente de acuerdo con su art&iacute;culo.  Y es que la suya no es la &uacute;nica voz que nos trae luz a este hecho, pero quiz&aacute; (eso opino yo) sea alguien que por su trayectoria vale la pena escuchar.<br /><br />Mi opini&oacute;n no tiene el peso de la de Javier, y como es l&oacute;gico ni siquiera es preciso que &eacute;l est&eacute; de acuerdo con lo que comentar&eacute; al respecto de emprender para los profesionales de la informaci&oacute;n... </p> <h2>Universidad y emprender<br /></h2><p>Emprender probablemente es el &uacute;ltimo de los pasos de un camino que va desde la detecci&oacute;n de una necesidad hasta la verificaci&oacute;n de su rentabilidad. Es decir, el paso de &quot;podr&iacute;a estar bien&quot; al &quot;pues quiz&aacute; me podr&iacute;a ganar la vida con esto&quot;. Lo primero se da muy habitualmente, pero como dijera Thomas Edison, el &eacute;xito es un 10% inspiraci&oacute;n y 90% transpiraci&oacute;n. La buena noticia es que el primer 10% es relativamente f&aacute;cil de llevar a cabo, <a href="../../../../../content/view/efecto-medici-innovacion-interdisciplinar" title="Sopadebits: El efecto Medici">aunque algo aleatorio</a>.</p><p>La biblioteconom&iacute;a y documentaci&oacute;n recoge una buena herencia human&iacute;stica, combinada con m&eacute;todos formalmente m&aacute;s cercanos a carreras de corte cient&iacute;fico-t&eacute;cnico.  Esta mezcla puede ser un buen caldo de cultivo para formar un criterio al respecto de lo que funciona y lo que falla en la gesti&oacute;n de la informaci&oacute;n.  Detectar las causas de la distancia entre el usuario y el servicio, saber seleccionar los criterios de organizaci&oacute;n que dan valor (y acceso) a la colecci&oacute;n.</p><p>Sin embargo, y salvo excepciones remarcables, la evoluci&oacute;n de la idea no llega al final. Eso en s&iacute; tampoco no es remarcable: pocas ideas llegan a t&eacute;rmino, y a&uacute;n son menos las que triunfan.</p><p>Si algo es cierto, es que el enfoque tan acad&eacute;mico de la formaci&oacute;n universitaria que he recibido no favorece a una mentalidad creativa, innovadora ni mucho menos emprendedora.  Creo que eso viene con la experiencia, el entorno o la necesidad de cada cual.  Yo no lo he encontrado en la universidad. </p><h2>Documentalistas en el sector terciario<br /></h2><p>Lo extra&ntilde;o es que en esta &eacute;poca en la que gran parte del volumen del PIB se destila del sector terciario, y con la informaci&oacute;n, el valor de la marca, los valores y los significados como factores cr&iacute;ticos; en esta &eacute;poca los profesionales de la informaci&oacute;n no han encontrado un lugar claro en la cadena de valor de la informaci&oacute;n del sector privado.</p><p>Hasta la fecha (lo digo sin datos en las manos) podr&iacute;a afirmar que una gran mayor&iacute;a de los estudiantes titulados en biblioteconom&iacute;a y documentaci&oacute;n que deseen dedicarse a lo que han aprendido en la facultad, estar&aacute;n trabajando en una biblioteca o archivo, aspiran a ello o est&aacute;n pensando en la administraci&oacute;n p&uacute;blica como fuente de empleo. Reitero que no tengo datos: es un tema que tengo pendiente.</p><p>Esta situaci&oacute;n pr&aacute;cticamente equipara la profesi&oacute;n a una especie en cautividad: al no introducirse en el sector privado de forma clara, es dif&iacute;cil iniciar un tanteo de oferta-demanda sobre lo aprendido y lo necesario: permanecer en un ecosistema controlado no es garant&iacute;a de supervivencia.  Da igual si hablamos de autoocupaci&oacute;n o de trabajar por cuenta ajena.  Probablemente todos conozcamos casos, pero no son habituales: las instituciones p&uacute;blicas siguen siendo los mayores empleadores de profesionales de la informaci&oacute;n. </p><p>Esto tiene sentido en el cuando el acceso a la informaci&oacute;n ha sido un valor preciado para la educaci&oacute;n y formaci&oacute;n de las personas a lo largo de los tiempos. Al transferir la gesti&oacute;n a profesionales y personas interesadas en organizar y dar acceso a esa documentaci&oacute;n, las bibliotecas se convert&iacute;an en valores a preservar de las leyes del mercado, para evitar conflictos entre preservaci&oacute;n y rentabilidad. Y es necesario que eso contin&uacute;e siendo as&iacute;.</p><p>Lo que pasa actualmente es que tales instituciones han saciado una gran parte de la necesidad de empleo de especialistas, con lo que el ritmo de ofertas de empleo no crece al mismo ritmo que la demanda de ocupaci&oacute;n en ese &aacute;mbito. A&ntilde;o tras a&ntilde;o aumentar&aacute; ese desajuste, exceptuando las &eacute;pocas de oposiciones, bolsas de trabajo y oferta de plazas.</p><p>La administraci&oacute;n no puede seguir creciendo indefinidamente, creando nuevas plazas de bibliotecarios: mantener esta estructura es costoso y debe justificarse al definir los presupuestos. Tal como o&iacute; en cierta ocasi&oacute;n: &quot;&iquest;Si hay que escoger entre una cama de hospital y un asiento m&aacute;s en la biblioteca, con qu&eacute; te quedar&iacute;as?&quot;. Si decides lo segundo, espero que nadie a tu alrededor se ponga enfermo.</p><p>Fuera de esto, la opci&oacute;n de iniciar una trayectoria profesional como becarios es algo a considerar con calma.  Al igual que en otras profesiones, las becas y los convenios de formaci&oacute;n no han proporcionado mucha m&aacute;s visibilidad al titulado, ni mucho menos han favorecido a mejorar su retribuci&oacute;n. En los casos m&aacute;s reprochables, el becario acaba fotocopiando, trayendo el caf&eacute; o realizando tareas puramente administrativas, que no le exigen aportar ning&uacute;n valor por lo aprendido en su carrera.</p><p>En su favor vale la pena decir que tales convenios son una puerta de entrada al mercado laboral, aunque en nuestro caso el principal ofertador de puestos es la administraci&oacute;n p&uacute;blica.</p><h2>Necesidad y marketing<br /></h2><p>Al lado de esto, la necesidad en el sector privado existe, y es urgente. Por ahora se subsana dentro de las empresas contratando personal no especializado o reasignando tareas a personal ya existente.  Eso en s&iacute; ya es un primer paso, un paso positivo. Por parte del empresario, eso ya implica la identificaci&oacute;n de la necesidad.</p><p>Pienso en la gesti&oacute;n documental porque es la aplicaci&oacute;n m&aacute;s directa. La dualidad entre informaci&oacute;n digital e impresa, la gesti&oacute;n de versiones, gesti&oacute;n documental colaborativa, intranets de gesti&oacute;n documental, recuperaci&oacute;n de la informaci&oacute;n, <a href="../../../../../content/view/organizacion-de-la-informacion-personal-eliminando-archivos-duplicados" title="Sopadebits: Eliminando archivos duplicados">eliminar los archivos duplicados</a>, reorganizar nuestra colecci&oacute;n y nuestro fondo...</p><p>Tareas habituales, casi dir&iacute;a del 20% de tareas que generan el cl&aacute;sico 80% de la ley de Pareto. Y es que las necesidades del d&iacute;a a d&iacute;a imperan sobre disquisiciones y argumentaciones conceptuales sobre formas externas, reglas de catalogaci&oacute;n o algoritmos de indexaci&oacute;n semiautom&aacute;tica.</p><p>Lo que pasa es que se dan dos situaciones negativas que se complementan: Las capacidades y conocimientos del profesional de la informaci&oacute;n son desconocidas por los empleadores del sector privado. Por ese desconocimiento, cualquier mejora m&iacute;nima de los criterios de organizaci&oacute;n y gesti&oacute;n documental (por lo general pueden ser mejoras de un car&aacute;cter administrativo b&aacute;sico) son suficientes para justificar un esfuerzo b&aacute;sico.  Ante esa mejora, el empleador percibe que no es necesaria la formaci&oacute;n universitaria (con el incremento de salario que eso supone).</p><p>Me pasan por la mente muchas formas de expresar esta situaci&oacute;n. Y hay una en concreto que es muy familiar para los profesionales de la informaci&oacute;n: <strong>relevancia</strong>.  Por ahora no hemos sido capaces de dar relevancia a nuestros conocimientos cuando alguien busca personal que solucione el caos documental.</p><p>La clave es entender que las reglas cambian: no nos vendr&aacute;n a buscar si no avisamos que estamos ah&iacute;. El estereotipo del bibliotecario con las gafas ca&iacute;das pesa en las espaldas de quien se dirige al sector privado. Ese estereotipo durar&aacute; el tiempo que se tarde en llevar a cabo una mejora en la gesti&oacute;n documental. Tampoco vale la pena rasgarse las vestiduras por el aclamado fen&oacute;meno de la intrusi&oacute;n: a diferencia del sector p&uacute;blico, en el sector privado existe cierto nivel de meritocracia, con lo que la clave no est&aacute; en un documento oficial, sino en las aportaciones y la implicaci&oacute;n en el d&iacute;a a d&iacute;a. </p><p>A pesar de Google o precisamente por &eacute;l, con o sin Wikipedia, bas&aacute;ndonos o no en la <a href="http://www.randomhouse.com/features/wisdomofcrowds/" title="The wisdom of crowds">sabidur&iacute;a de las masas</a>, la necesidad de organizar, gestionar y recuperar informaci&oacute;n existe.  Cuanto m&aacute;s trasiego de informaci&oacute;n, m&aacute;s necesidad de cribar, organizar, y desechar.  Aunque la proporci&oacute;n de informaci&oacute;n &uacute;til se mantiene, su volumen aumenta. Es por eso que crear reglas, criterios y h&aacute;bitos de una gesti&oacute;n sostenible de la informaci&oacute;n implica dinero ahorrado, y por ello un margen de beneficios para las iniciativas en el sector privado. </p><p>La informaci&oacute;n es la fortaleza y el tal&oacute;n de Aquiles de las empresas: cada vez es mayor su valor, lo que sucede que ese valor se presenta en forma de riesgo: es necesario aprovecharla bien, o cualquier otro la aprovechar&aacute; mejor. No sirve decir que de momento nadie lo hace, porque alguien empezar&aacute; a hacerlo y luego no hay tiempo de ponerse al d&iacute;a: m&aacute;s vale tomar la iniciativa.</p><p>Por si alguien no tiene claro por d&oacute;nde empezar, caben un par de datos interesantes: los facilitados en la coctelera: <a href="http://www.lacoctelera.com/documentacion/post/2007/05/22/evolucion-alumnos-la-diplomatura-biblioteconomia-y" title="La coctelera: Alumnos en la diplomatura de biblioteconom&iacute;a y documentaci&oacute;n">datos sobre nuevos alumnos en biblioteconom&iacute;a</a> y tambi&eacute;n <a href="http://www.lacoctelera.com/documentacion/post/2007/06/15/evolucion-alumnos-la-licenciatura-documentacion-1998-2" title="La coctelera: Evoluci&oacute;n de alumnos en la licenciatura de documentaci&oacute;n">documentaci&oacute;n</a>. Lo que dejan claro estos datos no es que la empresa privada no nos conoce: incluso los potenciales alumnos no tienen inter&eacute;s en conocernos. Es hora de cambiar el mensaje. </p><p>Yo empezar&iacute;a por buscar un eslogan: propongo &quot;El profesional de la informaci&oacute;n: lo que andabas buscando&quot; :-D.</p><p>&iquest;Estar&eacute; a punto de lanzar un Meme? No acosar&eacute; a nadie: si alguien se apunta, adelante.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26780/emprender-profesionales-informacion</link><pubDate>Mon, 24 Sep 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[El sistema d'Hondt]]></title><description><![CDATA[<p>Pronto vendr&aacute;n elecciones. No hace mucho hubieron, y seguir&aacute;n habiendo (buena se&ntilde;al, creo yo). Y durante esas noches no paran de hablar del reparto de diputados, baile de esca&ntilde;os y sustos de &uacute;ltima hora. </p><p>Detr&aacute;s de tanta pasi&oacute;n encontramos un algoritmo matem&aacute;tico sencillo.</p><p>Me apetec&iacute;a comentar un par de cosillas de la ley de Hondt.  Aunque debo admitir que mi principal intenci&oacute;n era incluir una demostraci&oacute;n para la simulaci&oacute;n del algoritmo, creando una clase PHP y la biblioteca Open Flash Chart que ya coment&eacute; en su momento.</p> <h2>El funcionamiento de la ley de Hondt<br /></h2><p>Explicar a fondo la ley de Hondt creo que no procede: he le&iacute;do con detalle la <a href="http://es.wikipedia.org/wiki/Sistema_D&#39;Hondt" title="Wikipedia: Sistema d&#39;Hondt">entrada en la Wikipedia en Espa&ntilde;ol sobre la ley de Hondt</a> y lo creo suficiente como introducci&oacute;n.<br /><br />El proceso de divisi&oacute;n que se da para cada caso es lo que se podr&iacute;a denominar una sucesi&oacute;n arm&oacute;nica (ser&iacute;a una <a href="http://es.wikipedia.org/wiki/Serie_arm%C3%B3nica_%28matem%C3%A1tica%29" title="Wikipedia: Serie arm&oacute;nica">serie arm&oacute;nica</a> si los cocientes se sumaran) que es equivalente para todos los partidos, salvo porque hay que multiplicar por el n&uacute;mero de votos.</p><p>Esa sucesi&oacute;n forma una curva asint&oacute;tica respecto al eje y=0 para valores enteros positivos.  A efectos pr&aacute;cticos, puedes imaginarte un avi&oacute;n de papel lanzado desde la ventana de un edificio, que va planeando cada vez m&aacute;s cerca del suelo pero sin llegarlo a tocar nunca.<br /><br />...No, no hay viento.<br /><br />Al realizar el c&aacute;lculo de la ley de Hondt, cada partido <em>lanza ese avi&oacute;n</em>, pero con una diferencia substancial: cuantos m&aacute;s votos, m&aacute;s alta es la posici&oacute;n de lanzamiento.  Supongamos que un voto equivale a un cent&iacute;metro: diez mil votos son cien metros de altura.<br /><br />El jefe de filas sube la escalera y lanza el avioncito.  La trayectoria descrita por cada avi&oacute;n de papel es registrada y se ponen en com&uacute;n las alturas de cada avi&oacute;n en cada segundo.  Las mayores alturas se llevan los esca&ntilde;os.<br /><br />Repasemos mentalmente las trayectorias de los aviones: Cuanto m&aacute;s tiempo transcurre, m&aacute;s parecidas son las alturas de los aviones.  Eso implica que cuanto m&aacute;s a repartir entre partidos, m&aacute;s equilibrado es el reparto. Es m&aacute;s equilibrado porque hay algo de aleatorio: haber lanzado unos cent&iacute;metros m&aacute;s arriba o m&aacute;s abajo el avi&oacute;n, da o quita un esca&ntilde;o: el planeo final es clave. Los aviones s&oacute;lo quedar&iacute;an a la misma altura en caso de llegar al infinito, con lo que a largo plazo el partido m&aacute;s votado siempre parece algo m&aacute;s favorecido.</p><p>Eso queda algo rebatido al hacer ciertas pruebas,  que espero que con la demo ahora tengas m&aacute;s cerca.<br /> </p><h2>La demo<br /></h2><p>Pod&eacute;is acceder a la demo desde la <a href="../../../../../../../content/view/descargas#hondt" title="Recursos: Demo ley d&#39;Hondt">p&aacute;gina de recursos</a>. </p><p>Debo decir antes de todo que la demostraci&oacute;n es sencillita y que se podr&iacute;a haber decorado o coloreado m&aacute;s, pero me he limitado a lo estrictamente necesario para que sea funcional.</p><p>La he colgado en el apartado &quot;descargas&quot;, que he pasado a titular &quot;recursos&quot; (buscando un t&eacute;rmino gen&eacute;rico). </p><p>El funcionamiento es bastante sencillo y salvo el propio archivo de Flash, todo el c&oacute;digo utilizado es est&aacute;tico: XHTML y CSS. El archivo Flash muestra en un gr&aacute;fico de frecuencias los pasos del c&aacute;lculo de la ley de Hondt, y el reparto resultante de esca&ntilde;os.</p><ul><li>Lo primero es introducir el n&uacute;mero de esca&ntilde;os y el m&iacute;nimo porcentaje de votos para entrar en el c&aacute;lculo.</li><li>En segundo lugar, indica los votos recogidos por cada partido, abstenci&oacute;n, en blanco, etc.  </li><li>Una vez introducidos los datos, clicando en &quot;calcular&quot;. Ya est&aacute;. </li></ul><p>Los resultados se muestran en tres partes diferentes que paso a comentar.</p><h3>Tabla de asignaciones<br /></h3><p>Situada en la parte superior derecha de la p&aacute;gina, esta tabla indica los esca&ntilde;os asignados, el porcentaje de votos y el porcentaje de esca&ntilde;os.  Esta relaci&oacute;n entre los porcentajes anteriores es importante, ya que es el tipo de reivindicaci&oacute;n que se da ante la ley de Hondt: que favorece a los partidos grandes.<br /><br />Puedes comprobar que eso no siempre es as&iacute;, ya que <strong>hay ocasiones en las que los partidos peque&ntilde;os absorben un esca&ntilde;o del grande</strong>. Los &uacute;ltimos esca&ntilde;os a repartir (especialmente cuando se trata de una gran cantidad: m&aacute;s de cien por poner un caso) son una verdadera loter&iacute;a.</p><h3>Tabla de divisiones<br /></h3><p>En la parte inferior de la p&aacute;gina, muestra el proceso de dividir los votos en cada iteraci&oacute;n.  Estas divisiones se ordenan y se muestran en la &uacute;ltima columna (que muestra el t&iacute;tulo <em>Hondt</em>). &Eacute;ste es el resultado de repartir los esca&ntilde;os: indica la cantidad con la que se ha asignado cada esca&ntilde;o.</p><h3>Gr&aacute;fico de divisiones<br /></h3><p>Parecido a lo anterior, el gr&aacute;fico de divisiones representa gr&aacute;ficamente la tabla anterior.  En este caso es de notar que cuanta m&aacute;s competencia hay entre dos partidos (pongamos los dos mayoritarios), m&aacute;s &quot;rugosa&quot; es la curva que marca la asignaci&oacute;n de partidos (la l&iacute;nea &quot;Hondt&quot;). El avi&oacute;n encuentra turbulencias.</p><h3>Transferencia de datos a Open Flash Chart<br /></h3><p>El gr&aacute;fico utilizado es de frecuencias sin puntos.  He tomado esta decisi&oacute;n porque ten&eacute;is la lista de valores en la tabla de debajo, con lo que no hay necesidad de ponerlo de nuevo en el gr&aacute;fico.<br /><br />Para los que quieran ver c&oacute;mo se transfieren los datos a OFC, s&oacute;lo cabe comentar que se serializan los datos y se identifican con una clave. Esa clave se introduce en la URL en la carga del archivo SWF, y el resto es tarea de OFC.</p><p>Pod&eacute;is ver el contenido que devuelve la llamada del par&aacute;metro &quot;data&quot; de la URL, y sacar conclusiones por vuestra cuenta...</p><p>Debo hacer notar que a medida que aumenta el n&uacute;mero de datos, el tiempo de proceso del gr&aacute;fico aumenta, aunque en general nada alarmante. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26781/sistema-hondt</link><pubDate>Mon, 24 Sep 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[El efecto Medici: Innovaci&oacute;n interdisciplinar]]></title><description><![CDATA[<p>Otra lectura. En los &uacute;ltimos coletazos del verano, y a medida que la agenda ya va llen&aacute;ndose las primeras entradas del nuevo curso, dos libros caen en mis manos.  Con la intenci&oacute;n clara de superar la media estatal de lecturas anuales, y aprovechando que desde un tiempo para ac&aacute; me he pasado al transporte p&uacute;blico, el tiempo de lectura que no dedico a repasar informes, presupuestos y art&iacute;culos, los dedico principalmente a ensayos.<br /><br />Ya he pasado por los <a href="../../../../../../content/view/lecturas-veraniegas-arte-red" title="Sopa de bits: Arte en la red">aspectos art&iacute;sticos de la red</a>, los <a href="../../../../../../content/view/lecturas-veraniegas-chaos-order-capital-markets">aspectos matem&aacute;ticos de la organizaci&oacute;n de la informaci&oacute;n</a>, y tambi&eacute;n los <a href="../../../../../../content/view/lecturas-veraniegas-web-2.0-fundacion-orange">aspectos sociot&eacute;cnicos</a>, as&iacute; que hoy llega algo relativo a la gesti&oacute;n.  Aunque el blog se dedique a los aspectos t&eacute;cnicos, para m&iacute; es importante recordar que sin una visi&oacute;n, todas nuestras habilidades se convierten en frustraci&oacute;n. Eso incluye los aspectos <a href="http://www.cadenaser.com/cultura/articulo/gobierno-garantizara-cobro-75-millones/csrcsrpor/20070913csrcsrcul_1/Tes">econ&oacute;micos</a>, de gesti&oacute;n y tambi&eacute;n <a href="http://www.documentalistaenredado.net/544/modelos-de-politica-de-informacion/" title="Modelos de pol&iacute;tica de informaci&oacute;n">pol&iacute;ticos</a> (aunque s&oacute;lo hablemos de pol&iacute;ticas corporativas).</p><p>Esta lectura trata sobre la gesti&oacute;n de la innovaci&oacute;n...</p><p>&nbsp;</p> <p><a href="www.themedicieffect.com" title="El efecto M&eacute;dici: p&aacute;gina oficial">El efecto Medici</a> (Deusto, 2005) trata sobre innovaci&oacute;n.  A pesar de los que no piensan as&iacute;, la innovaci&oacute;n es clave, y es cr&iacute;tica. Lo es a muchos niveles, y en todas las &aacute;reas. Por ejemplo, en el entorno bibliotecario esta es una &eacute;poca de ebullici&oacute;n por <a href="http://www.deakialli.com/2007/09/13/bibliotecas-publicas-servicios-electronicos-de-informacion-y-web-social/" title="servicios electr&oacute;nicos de informaci&oacute;n y web social">la llamada biblioteca 2.0</a>. Probablemente en la inform&aacute;tica y las matem&aacute;ticas en general eso est&eacute; m&aacute;s asumido, aunque en la inform&aacute;tica, como &aacute;rea t&eacute;cnica con enfoque pr&aacute;ctico, <a href="http://www.versioncero.com/articulo/563/10-problemas-abiertos-en-informatica-practica" title="10 problemas abiertos en inform&aacute;tica pr&aacute;ctica">hay muchos problemas operativos por resolver</a>. No es lo &uacute;nico, ni me voy a dedicar a enumerar todos los casos.</p><p>Lo primero es exponer la raz&oacute;n que lleva al t&iacute;tulo: Frans Johansson expone el poder que tiene la interdisciplinariedad, o como &eacute;l lo llama, <em>la intersecci&oacute;n</em>. Define el efecto Medici como la consecuencia que tuvo que los Medici pudieran reunir a un grupo tan grande de genios en un espacio tan concreto, y los intercambios que gener&oacute; entre ellos para abrir las puertas del Renacimiento. No s&eacute; si abri&oacute; las puertas, pero desde luego fue un momento clave... </p><p>El libro se estructura en tres partes, desde mi punto de vista muy acertadas: qu&eacute; es la intersecci&oacute;n, c&oacute;mo tiene lugar, y como se pueden crear las condiciones id&oacute;neas para innovar.</p><h2>La intersecci&oacute;n: una torre de Babel bien entendida</h2><p>El libro se inicia con dos o tres historias personales que permiten introducir los aspectos clave: la innovaci&oacute;n se da en mentes abiertas, capaces de romper esquemas (o de vivir sin ellos) y de compartir con otras personas de formaci&oacute;n y trayectoria diferente.<br /><br />Esa diferencia provoca que a lo largo de una conversaci&oacute;n puedan surgir sorpresas, algo sencillo pero hasta ese momento imperceptible. Algo h&iacute;brido y nuevo.<br /><br />Esa hibridez surge del intercambio, una fusi&oacute;n o mestizaje entre conocimientos que no se hab&iacute;an combinado nunca hasta el momento. Ese mestizaje puede surgir en la evoluci&oacute;n personal de alguien que vive en circunstancias diferentes, o bien entre personas que se encuentran y comparten ideas.<br /><br />Es en esas ideas donde el autor introduce el ya conocido concepto de Meme.  Y expone que la innovaci&oacute;n puede entenderse como la evoluci&oacute;n trasladada a la vertiente intelectual y cultural de los seres humanos. Por lo tanto, la diversidad cultural, y las mutaciones de la informaci&oacute;n son claves.<br /><br />En el libro se nombran casos de &eacute;xito tan dispares como la capacidad dram&aacute;tica de los personajes en los dibujos 3D de Pixar, la capacidad de innovaci&oacute;n en la cocina, o la teor&iacute;a de la evoluci&oacute;n de Darwin. Cada caso presenta circunstancias de eclosi&oacute;n de ideas en la intersecci&oacute;n.<br /><br />La primera parte del libro, en s&iacute; misma es una puesta en escena.  Es por eso que proporciona poca substancia, as&iacute; que paso a comentar la segunda y, especialmente, la tercera parte.</p><h2>C&oacute;mo tuvo lugar la intersecci&oacute;n<br /></h2><p>Esta parte del libro expone lo que yo denominar&iacute;a como los &quot;aspectos t&aacute;cticos&quot; de la innovaci&oacute;n. Se siguen exponiendo casos (es una t&oacute;nica de todo el libro, mayoritariamente con acierto) en los que se viene a exponer una serie de conceptos clave:</p><ul><li>Al trabajar en un espacio de interesecci&oacute;n el conjunto de posibilidades equivale a las combinaciones de ideas que vienen de ambas disciplinas.</li><li>Es probable que se dominen unas disciplinas m&aacute;s que otras, y por ello dar con la innovaci&oacute;n tiene caracter&iacute;sticas aleatorias.</li><li>Dado ese car&aacute;cter de aleatoriedad, los &eacute;xitos vienen despu&eacute;s de muchos fracasos, as&iacute; que lo importante es ser positivo, quitarse el miedo al error y ser perseverante. En pocas palabras, se innova porque se produce.</li><li>Es importante tratar de dar la vuelta a las suposiciones, o lo que el autor llama &quot;barreras asociativas&quot;. Como dec&iacute;a Hume, No hay leyes universales, sino creencias universales. Pues eso, practica lo emp&iacute;rico. Baja a la calle y camina.</li><li>Otras posibilidades son tratar de cambiar de perspectiva, aprender las cosas de una forma diferente (en cierto modo, ser autodidacta), o asimilar cualquier tipo de mezcla cultural.<br /></li></ul><p>En ese marem&aacute;gnum de mezclas e intercambios, el autor aboga por encontrar un equilibrio entre la visi&oacute;n transversal y la vertical (especializada). No se trata de ser &quot;maestro de nada&quot;, ni especialista en girar una ruedecita a medio radi&aacute;n por segundo.</p><h2>C&oacute;mo prepararse para innovar<br /></h2><p>Entre el final de la segunda parte y toda la tercera es donde creo que hay gran parte de la substancia de este libro.</p><p>La primera de las claves, que ya he le&iacute;do en otras partes, es generar activamente muchas ideas. Dar rienda suelta a la verborrea mental. Para no provocar desajustes mentales a quienes nos rodean, el autor propone la cl&aacute;sica libretita. Actualmente la grabadora del m&oacute;vil es una buena soluci&oacute;n.</p><p>Ante esa situaci&oacute;n, cabe comentar unas conclusiones a las que han llegado diversos estudios sobre la lluvia de ideas: el mito de hacerlo en grupo funciona, pero acostumbra a ser peor que hacerlo individualmente.  La raz&oacute;n es que la gente se coarta, o que simplemente la memoria instant&aacute;nea donde se guardan las ideas fugaces no est&aacute; preparada para razonar ante el resto. Es por eso que el autor sugiere la combinaci&oacute;n del <em>brainstorming</em> con el <em>brainwriting</em>.</p><p>Despu&eacute;s de la fase de euforia del brain-loquesea y de la habitual fermentaci&oacute;n en el caj&oacute;n, debe llegar el momento tranquilo de evaluar. Evaluar es un acto sosegado. No estar&aacute; faltado de creatividad, pero para conseguir que las ideas tomen forma, es necesario dejar las prisas a un lado, e inspirarse.</p><p>Esto viene al caso porque el autor tambi&eacute;n nombra ciertos estudios en los que se puso a prueba la relaci&oacute;n entre creatividad y presi&oacute;n. Los resultados fueron claros: la presi&oacute;n no favorece a la innovaci&oacute;n.  Si la persona que innova tiene presiones externas, dedicar&aacute; m&aacute;s tiempo a controlar en &quot;no pasarse&quot; que en crear. Evitar la creaci&oacute;n de estas barreras implica favorecer la innovaci&oacute;n.</p><p>A eso hay que a&ntilde;adir una dura posibilidad: si tu red de contactos te limita a la hora de innovar (porque no quieras fallarle o porque rechazan tus intenciones), la innovaci&oacute;n implicar&aacute; alejarte de &eacute;sta.  Cambiar de entorno.  Quiz&aacute; sea eso lo que necesites para innovar.  Puedes pensar en casos de personas que se van al extranjero, que cambian de empresa, se alejan del entorno familiar... Es una posibilidad dura de aceptar, pero quiz&aacute; pueda ser necesaria.</p><p>Aparte de la adecuaci&oacute;n de la red, para convertir las ideas en innovaci&oacute;n es interesante crear el ambiente y las condiciones adecuadas.  De poco le servir&iacute;a al m&uacute;sico la inspiraci&oacute;n si est&aacute; en un ambiente perturbador, y con pocos medios para plasmar su capacidad creativa.</p><p>Uno de los aspectos claves que remarca el autor es la capacidad de asumir los errores como parte inherente a la innovaci&oacute;n y el &eacute;xito: de lo equivocado se sacan conclusiones e ideas nuevas. Es por eso que las empresas implicadas en la innovaci&oacute;n deben valorar positivamente tanto los fracasos como los aciertos: lo que debe ser penalizado es la falta de actividad.  Esa aceptaci&oacute;n pasa por crear un ambiente libre de juicios de valor sobre los que se equivocan, porque hay diferencias substanciales entre el error y el fracaso.</p><p>Esta capacidad de aceptar los errores lleva a otro aspecto clave: mantener la motivaci&oacute;n.  Motivar un equipo que avanza soportando los bofetones de la innovaci&oacute;n es algo realmente cr&iacute;tico.  Si alguien es capaz de ponerse en la piel de quien innova sabe que debe tener una voluntad de hierro y un nivel alto de fe en su actividad. Acabar el dia y no tener claro si se ha hecho (ni que decir acabado) algo de provecho es algo que desgasta.  Quiz&aacute; &eacute;sta sea una raz&oacute;n m&aacute;s para buscar el provecho en el error.</p><p>Otro de los aspectos interesantes que me han llamado la atenci&oacute;n es que la tarea de innovar se traslada a la planificaci&oacute;n econ&oacute;mica: es necesario reservar fondos en un proyecto para intentarlo dos o m&aacute;s veces: es muy poco probable que te funcione a la primera, o a la segunda.  Pero eso no implica que est&eacute;s en un mal camino: si encuentras la intersecci&oacute;n y tratas de innovar mezclando, puedes encontrar el &eacute;xito. Lo que est&aacute; claro es que en la mayor&iacute;a de casos necesitar&aacute;s medios econ&oacute;micos para conseguirlo.</p><p>Para m&iacute; esta es la parte mejor conseguida de todo el libro. Sin lugar a dudas.  Trat&aacute;ndose de un libro donde lo que se trata es lo esencialmente diferente, me parece un gran m&eacute;rito ser capaz de especificar una serie de principios b&aacute;sicos que permitan a cualquier persona o grupo innovar.</p><h2>Comentarios finales</h2><p>La lectura de este libro me hab&iacute;a sido euf&oacute;ricamente recomendada, y a ra&iacute;z de eso su lectura era arriesgada, por lo que provocan las expectativas (a partir de ahora, barreras asociativas).  En algunos momentos me ha recordado al pensamiento lateral de Edward de Bono, aunque el estilo de escritura es totalmente diferente (a m&iacute; me gusta m&aacute;s el de Johansson).</p><p>La tercera parte del libro me parece excepcional, por lo fundamentada, sencilla y coherente que la ha presentado el autor.  Es por eso que recomendar&iacute;a su lectura a quienes se quieren adentrar en el mundo de la innovaci&oacute;n, ya sea a nivel profesional o personal.</p><p>Ahora bien, para aquellos que se dedican a innovar a diario y utilizan sus propias t&eacute;cnicas creativas (pocos en Espa&ntilde;a por lo que dicen las estad&iacute;sticas), el libro puede quedarse corto. Para esos perfiles, m&aacute;s creativos e incluso menos t&eacute;cnicos, el libro puede resultar una recopilaci&oacute;n de casos de &eacute;xito, y poco m&aacute;s.</p><p>He le&iacute;do un <a href="http://www.casiseguro.com/2005/01/21/el-efecto-medici-la-interseccion-clave-de-la-innovacion/" title="Casi Seguro: El efecto Medici">resumen de la primera parte del libro en casiseguro</a>. Quiz&aacute; os pueda aportar algo: ya pod&eacute;is ir, no me pondr&eacute; celoso :-D.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26779/efecto-medici-innovacion-interdisciplinar</link><pubDate>Fri, 21 Sep 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[SEO, software social e imagen personal]]></title><description><![CDATA[<p>Echa un vistazo a la pantalla del tel&eacute;fono m&oacute;vil y lee un mensaje generado autom&aacute;ticamente: &quot;El diario digital X public&oacute; hace cuatro horas un post que enlaza hacia la web corporativa de tu cliente. Palabras clave: negocio, leyes, fraude. Desea leer la noticia?&quot;. Acepta y accede a la Red para averiguar si empieza el dia con buen pie...</p> <p>En los pocos segundos que tarda en cargarse el art&iacute;culo en la pantalla se da cuenta de c&oacute;mo ha cambiado todo este mundillo. Se acuerda de c&oacute;mo algunos de los posts de su blog, con una cantidad respetable de enlaces entrantes y visitas contribuyeron a que su empresa le aumentara el sueldo. Pero lo que tambi&eacute;n contribuy&oacute; a ello fue que comprobaran la veracidad de algunos de sus contactos estrella en su red social...</p><p>Su red. Solicita al sistema que averig&uuml;e cu&aacute;les de sus contactos podr&iacute;an ser m&aacute;s cercanos a la web que ha enlazado la noticia: esta noticia no pinta muy bien: tiene un lenguaje atractivo, es din&aacute;mica, parece infundada pero lo disimula de maravilla... Habr&aacute; que pensar en algo.</p><p>El agente inteligente busca p&aacute;ginas similares, enlaces entrantes a la noticia y estad&iacute;sticas p&uacute;blicas del sitio. &iquest;Es necesario preocuparse? En el hist&oacute;rico aparecen tres noticias con palabras clave parecidas durante los pasados seis meses. Puede que la imagen de los clientes de nuestro protagonista empiecen a debilitarse. Configura un sistema de alerta para realizar el seguimiento de los enlaces entrantes a la noticia. Si la <a href="http://es.wikipedia.org/wiki/Curva_log%C3%ADstica" title="Wikipedia: Curva log&iacute;stica">curva S</a> de inbounds se acelera antes de 48 horas, habr&aacute; que hacer algo...</p><h2>No est&aacute; tan lejos</h2><p>Todo, o pr&aacute;cticamente todo lo comentado en la situaci&oacute;n hipot&eacute;tica anterior, es perfectamente factible con las herramientas actuales. Ser&aacute; gratuito o tendr&aacute; un precio, pero es factible. Utilizar unas cuantas APIs, programar unos algoritmos de c&aacute;lculo matem&aacute;tico y romperse los cuernos para dise&ntilde;ar una interficie ergon&oacute;mica. Es cuesti&oacute;n de tiempo. </p><p>Quiz&aacute; dos a&ntilde;os. No m&aacute;s de cuatro o cinco. Acercar este tipo de soluciones puede resultar innecesario en nuestra vida privada. Sin embargo, en la vida profesional cada vez parece m&aacute;s claro que la presencia en Internet es la mejor tarjeta de visita. La promoci&oacute;n interna o la superaci&oacute;n de procesos de selecci&oacute;n pueden depender de un blog m&aacute;s o menos influyente; m&aacute;s o menos af&iacute;n al puesto de trabajo. </p><p>En todo este escenario, los conceptos clave son el SEO y el SEM. En este nuevo mundo en el que el conocimiento es poder, el SEO y el SEM son equiparables al &Iacute;ndice Dow Jones y el PIB, respectivamente.</p><h2>Del entorno corporativo a las redes sociales</h2><p>Cada vez m&aacute;s, las empresas se est&aacute;n acercando al mundo de las estad&iacute;sticas web, y tambi&eacute;n est&aacute;n aprendiendo a utilizarlas. No es que sea ahora mismo. Lo que pasa ahora es que est&aacute; al alcance de muchos, y cada vez m&aacute;s es posible encontrar herramientas m&aacute;s adaptables a las necesidades de cada sitio.</p><p>El cambio sustancial ha aparecido con el posicionamiento en buscadores, y esencialmente por el modelo de ingresos por publicidad, y la posibilidad de captar clientes del otro lado del mundo con medios mucho mejores que hace siete u ocho a&ntilde;os. </p><p>A los internautas de a pie, exceptuando los bloggers m&aacute;s o menos activos, a&uacute;n les falta tiempo para comprender que crear la propia imagen, a partir de cierto nivel profesional, ya no pasa tanto por un nudo de corbata bien hecho, sino por un micrositio personal, ya sea blog o algo m&aacute;s. Un sitio que sea coherente en sus contenidos, bien desarrollado en cuanto argumentos (a m&iacute; a&uacute;n me falta...), y m&aacute;s o menos relacionado con el resto de la comunidad (a&uacute;n me falta m&aacute;s). Esa es una buena imagen de marca de uno mismo. Ese sitio es tu primera conversaci&oacute;n con cualquier desconocido que te busque en Google. As&iacute; que nada de palabrotas ;-).</p><p>Con la llegada de la web social, el abaratamiento de costes de acceso y la disponibilidad de herramientas de interacci&oacute;n, el prosumidor ya tiene los medios suficientes como para crearse una imagen. As&iacute; que puedes <a href="http://www.latejedora.es/?p=793" title="La tejedora - Est&aacute;s perdiendo mucho tiempo">cambiar esos ratos muertos de navegaci&oacute;n insubstancial</a> por cuatro nociones b&aacute;sicas sobre edici&oacute;n electr&oacute;nica. Desde luego, los medios son m&aacute;s que suficientes: tanto el coste de conexi&oacute;n como de alojamiento en servidores puede ser muy inferior al coste de imprimir tarjetas, comprar un tel&eacute;fono m&oacute;vil o abrir cualquier otro canal de contacto. Sin embargo, a falta de esta visi&oacute;n, falta integraci&oacute;n. Es por eso que parece que las herramientas... quiz&aacute; a&uacute;n no est&eacute;n lo suficientemente maduras.</p><p>A pesar de ello, los usuarios se han ido acostumbrando a socializarse en la red, ya sea en Facebook, MySpace, LinkedIn/Neurona u otras herramientas por el estilo.  Este software ha venido para quedarse. Es el &aacute;gora de la polis digital. </p><p>Si las redes sociales importan no es s&oacute;lo por la publicidad, aunque sea el negocio m&aacute;s rentable. Su principal valor son el n&uacute;mero de usuarios activos. No clican en la publicidad pero... &iquest;es eso realmente tan importante? Ahora lo es porque la viabilidad econ&oacute;mica de estos sitios depende de eso. Pero por ejemplo, <a href="http://www.error500.net/publicidad-facebook-funcionar" title="Error500: La publicidad en facebook no funciona">la publicidad en Facebook no funciona muy bien</a>...  </p><p>Sin embargo, creo que el destino est&aacute; empezando a cambiar el rumbo de estas soluciones. Yo creo que Las redes sociales importan porque, sea cual sea el cambio que venga a continuaci&oacute;n, la repercusi&oacute;n que tenga en estas redes ser&aacute; el indicador principal del &eacute;xito o el fracaso.</p><p>Cada uno de los nodos de la red que representa un indiviuo podr&aacute;n absorber o rechazar una nueva propuesta. La identidad del individuo en esa red, el n&uacute;mero de contactos, etc., son una faceta m&aacute;s de su vida real.  Sentirse valorado en ese entorno significa tambi&eacute;n dar la propia opini&oacute;n y posicionarse. Del mismo modo que un responsable de RR.HH. puede rechazar tu blog-curr&iacute;culum, t&uacute; puedes rechazar una marca o un proyecto.  Quiz&aacute; tu posicionamiento te prohibe aceptarlo. </p><h2>De la marca al individuo<br /></h2><p>Web 2.0 parece haber implicado algunas cosas m&aacute;s que Wikipedias y el software social. A mi modo de ver ha creado la necesidad de disponer de una identidad en la red. No se trata del cl&aacute;sico pseud&oacute;nimo en el chat de la esquina, sino de algo m&aacute;s. Cada vez tienen m&aacute;s medios para hacerlo interactuando de una forma m&aacute;s natural, olvidando la tecnolog&iacute;a que hay debajo: ya no hay tantos baches en la carretera. Y por eso los usuarios buscan relacionarse con otros y compartir un significado al que asociarse. <br /> </p><p>Ojo, significado no implica &quot;etiquetas&quot;, aunque el uso de <a href="../../../../../../content/view/cuando_etiquetas_un_recurso" title="Sopadebits: Cuando etiquetas un recurso">etiquetas acabe etiquetando</a>. Entiendo por significado un concepto o t&eacute;rmino que se asocia a un esquema de valores, a una disciplina, un estilo de vida. Es una combinaci&oacute;n de elementos que define una visi&oacute;n personal.<br />  </p><p>Si bien <a href="http://www.naomiklein.org/no-logo" title="Naomi Klein: No logo">el significado y los valores se asociaban a las marcas y sus logotipos</a>, esa caracter&iacute;stica ha dejado de ser patrimonio exclusivo del branding corporativo. En el momento que el consumidor tiene acceso a las mismas herramientas que las organizaciones, el branding personal a mayor escala es algo muy factible.</p><p>Al fin y al cabo, las estrategias de comunicaci&oacute;n y de imagen de las marcas son conjuntos de <a href="http://en.wikipedia.org/wiki/Meme" title="Wikipedia: Meme">memes</a> que tratan de conseguir la m&aacute;xima difusi&oacute;n para atraer a un p&uacute;blico fiel dentro de sus esquemas de valores. Sin el poder de convocatoria de estas corporaciones, pero con costes mucho m&aacute;s bajos y un poco de creatividad, crearnos una imagen es f&aacute;cil. Si luego llega la fama, eso es harina de otro costal.</p><h2>Mi gestor de imagen personal</h2><p>Has apagado el m&oacute;vil? Qu&eacute; l&aacute;stima! No podr&aacute;s recibir mensajes de aviso.  Sin embargo, tampoco es necesario que te angusties. Precisamente para eso es necesario un sistema de gesti&oacute;n: para que no tengas que estar pendiente todo el d&iacute;a. </p><p>Desde luego, si <a href="http://es.wikipedia.org/wiki/Vannevar_Bush" title="Wikipedia: Vannervar Bush">Vannevar Bush</a> levantara la cabeza... Estamos convirtiendo su <a href="http://es.wikipedia.org/wiki/Memex" title="Wikipedia: Memex">Memex</a> en un asesor de imagen...</p><p>Si lo que aqu&iacute; planteo tiene posibilidades, las redes sociales se encuentran ante unas posibilidades inmensas: imagina que en la zona privada de tu red social encuentras utilidades que te permiten seguir, en todas partes donde te has dado de alta, los comentarios en blogs, las conversaciones en foros y chats, las respuestas en los servicios de question answering... Y desde luego en tu propia p&aacute;gina. &Eacute;se conjunto de informaci&oacute;n eres t&uacute;. Esas afirmaciones forman parte de tu ADN cultural. </p><p>Si el ser humano ha sustituido la variedad biol&oacute;gica por la cultural, los memes pueden ser el ADN que heredar&aacute;n nuestros &quot;hijos culturales&quot;. S&oacute;lo que ahora hijos y padres pueden tener edades dispares. Es cuesti&oacute;n de intercambiar ideas y no manzanas. </p><h2>Yo SEO, T&uacute; Seas, &Eacute;l Sea </h2> <p>En realidad no es tanto as&iacute;, pero si somos lo que comunicamos, Internet bien tendr&aacute; algo que decir.</p><p>Es por eso que es previsible que dentro de no mucho tiempo empiecen a aflorar servicios de posicionamiento personal.  Aunque un individuo no facture tanto, puede considerar que es una buena inversi&oacute;n aceptar los servicios de alguien que le ayude a encontrar un lugar en la red, dise&ntilde;e su curr&iacute;culum de acuerdo con sus aspiraciones, y que proponga modificaciones en los posts del blog para adecuarse a las palabras clave m&aacute;s interesantes. </p> <p>Paso a paso, las redes sociales pueden convertirse en plataformas para conseguir esa utilidad.  Pueden tener la competencia de los portales y buscadores verticales, aunque los primeros tienen algo que los otros no tienen: fidelidad del usuario en forma de tiempo de uso.</p><p>Es por eso que las redes sociales est&aacute;n percibiendo ese poder, y podemos ver movimientos como los de <a href="http://developers.facebook.com/" title="Facebook Developers">Facebook, que han abierto una API</a> para que empresas externas puedan desarrollar sus aplicaciones. El movimiento es interesante porque permite fidelizar a los usuarios y abrir posibles modelos de negocio basados en la intermediaci&oacute;n, ya sea por ofrecer estos servicios, o bien por incluir publicidad en ellos.</p><p>Si estas plataformas sociales consiguen incluir herramientas eficientes para la gesti&oacute;n de la imagen personal en Internet, es probable que consigan un modelo interesante de ingresos. Desde luego, ahora es hablar por hablar, pura especulaci&oacute;n. Pero no lo veo tan lejos. Probablemente las comunidades m&aacute;s profesionales sean las que puedan abordar esas posibilidades de convertir el significado en valor econ&oacute;mico, m&aacute;s all&aacute; de la publicidad. </p><h2>Microformatos: giro copernicano y el poder de la informaci&oacute;n</h2><p>Te imaginas que para dar tu tarjeta de presentaci&oacute;n tuvieras que estar en tu oficina? &iquest;O que s&oacute;lo tuvieras los tel&eacute;fonos de tus contactos en la agenda de tu despacho? Claro, es que te da palo copiarlas uno por uno a tu m&oacute;vil. </p><p>Fruto de ese miedo a las tareas tediosas, tu agenda te acompa&ntilde;a desde hace nada m&aacute;s y nada menos que siete a&ntilde;os. Arrugada, manchada por el caf&eacute;, tachada... Pero es tu agenda, y... qu&eacute; se le va a hacer!</p><p>Eso es lo que sucede con el software social y la inmensa mayor&iacute;a de servicios cuyo modelo de negocio pasa por conseguir aumentar continuamente el n&uacute;mero de usuarios registrados. En esos sitios, si quieres cambiar, vas a tener que hacer un copiar-pegar de todo lo que te dedicaste a introducir, porque <a href="http://www.error500.net/redes-sociales-abiertas-datos-usuarios" title="Error500: Redes sociales abiertas y datos de los usuarios">en la mayor parte de casos no existen herramientas de exportaci&oacute;n</a>.</p><p>Sin embargo, existe una serie de formatos con utilidades muy concretas que van a cambiar eso: los <a href="http://www.microformats.org" title="Microformats">microformatos</a>.  Como su nombre indica, son especificaciones muy concretas y delimitadas que tienen funciones del mismo car&aacute;cter. Por ejemplo, podemos hablar del hCard, que es un formato desarrollado para poder intercambiar datos de contactos personales, a modo de tarjetas de visitas.  Est&aacute; hCalendar, para intercambiar eventos de calendario. En fin, y as&iacute; hasta un largo etc&eacute;tera.</p><p>A medida que pasa el tiempo, estos microformatos se han ido introduciendo en aplicaciones de uso personal y profesional, que a su vez generan datos y exportan en esos formatos.  Por ejemplo, ciertos programas de correo permiten incorporar una entrada hCalendar para que los destinatarios del mensaje puedan importarla a su agenda sin necesidad de teclear. Par&aacute;ndose a pensar, todo un lujo.</p><p>Si toda esa informaci&oacute;n fuera importable y exportable de los sitios de software social, los usuarios ser&iacute;an libres de cambiar cuando quisieran, y las oscilaciones de usuarios ser&iacute;a mucho mayor. Sin embargo el cansancio del usuario es algo que acaba sucediendo. A veces, lo que pasa es que el entorno cercano cambia de tecnolog&iacute;a y hay un efecto de arrastre.</p><p>Pero lo importante es que el usuario quiere que las cosas funcionen bien, y que los cambios (aunque m&iacute;nimos) sean poco traum&aacute;ticos.</p><p>Es por eso que no me parece muy lejano que la gesti&oacute;n de la informaci&oacute;n personal se realice dentro de poco del mismo modo que se pas&oacute; del webmail al correo POP3: trabajo en un entorno local y socializaci&oacute;n en una plataforma. Datos en entorno privado y gesti&oacute;n personal de la informaci&oacute;n.</p><p>A mi se me antoja que la mejor tecnolog&iacute;a para esto son (si se solucionan los problemas de tama&ntilde;o) los tel&eacute;fonos m&oacute;viles. Los llevamos siempre encima y forman parte de nuestra comunicaci&oacute;n y gesti&oacute;n de la informaci&oacute;n personal, agenda, e incluso del ocio (juegos, c&aacute;mara de fotos). La integraci&oacute;n M&oacute;vil-PDA ya es un hecho. La <a href="http://www.downloadsquad.com/2007/09/05/finally-a-real-social-net-for-mobiles/" title="Social software weblog: Finally, a real social net for mobiles">integraci&oacute;n m&oacute;vil-software social lo est&aacute; siendo</a>. </p><p>A diferencia de lo que ocurre en el entorno f&iacute;sico, el abaratamiento del espacio digital permite buscar algo m&aacute;s de intimidad, sin sentirse demasiado apabullado por la publicidad. Y quiz&aacute; en un tiempo no muy lejano sea Google quien pague a usuarios para que les ceda la informaci&oacute;n de su actividad.</p><p>Claro que <a href="http://business.timesonline.co.uk/tol/business/industry_sectors/technology/article2373811.ece" title="The Times: Wikipedia boss believes he has the knowledge to challenge Google">quiz&aacute; eso sea insuficiente para superar a la Wikia Search, de Jimmy Wales</a>.</p><p>Despierta, que ya he acabado. XD </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26778/seo-software-social-imagen-personal</link><pubDate>Wed, 05 Sep 07 00:00:00 +0200</pubDate></item><item><title><![CDATA[IBSN reloaded: propuestas para la gesti&oacute;n del IBSN]]></title><description><![CDATA[<p>Hace ya tiempo que hice mi post en los foros de Jarfil.  Era una tarea en mi lista el aportar ideas y por lo menos abordar las posibles v&iacute;as de crecimiento de esta iniciativa.</p><p>He podido dedicar un rato a resumir lo que en todo este tiempo ha ido surgiendo y pasando por mi vista, y que pudiera ser aplicable al IBSN.  Pongo aqu&iacute; el post tal como lo he indicado all&iacute; (lo siento san google: hoy toca contenidos duplicados).  </p><p>&nbsp;</p> <h2>R&eacute;plicas al post de Jarfil<br /></h2><p>En referencia a lo que comentaste en su momento, creo que la libertad que proporciona la edici&oacute;n electr&oacute;nica de contenidos no est&aacute; relacionada directamente con la difuminaci&oacute;n de la identidad, sino m&aacute;s bien como una nueva forma de abordarla: escogemos un nombre de blog como escoger&iacute;amos un login o un significado sobre el que proyectamos de alg&uacute;n modo la imagen que queremos dar. Aunque esa imagen sea diferente a nuestros rasgos f&iacute;sicos, tambi&eacute;n forma parte de la identidad.</p><p>En ese aspecto puede ayudar el IBSN: el hecho de definir un criterio no coarta la libertad para seguir editando, sino que aporta significado a la codificaci&oacute;n.  Por ejemplo, la posibilidad de identificarlo por un pa&iacute;s y/o idioma es interesante, porque proporciona valor a nivel de geotagging, sem&aacute;ntica, e incluso de propiedad intelectual para quien le interese. Si luego se utiliza o no, ya se ver&aacute;. Pero disponer de esta poca informaci&oacute;n abre puerta a gran cantidad de posibilidades.</p><p>El modelo centralizado lo es en una fase inicial debido a que s&oacute;lo hay un servidor que reparte n&uacute;meros (el que t&uacute; mantienes).  En caso que existiera un criterio que evitara las colisiones (por ejemplo un c&oacute;digo que sirviera de prefijo), se podr&iacute;a generar de forma semi-independiente codificaciones para blogs. Eso permitir&iacute;a a otras organizaciones generar y gestionar bloques de c&oacute;digos, como sucede con las direcciones IP o con los n&uacute;meros de tel&eacute;fono m&oacute;vil.  Esa entidad generadora ser&iacute;a responsable de ofrecer una serie de servicios (gratuitos y/o de pago) a los blogs asociados. Las entidades generadoras podr&iacute;an tener la forma de asociaciones (por ejemplo), mientras que la gesti&oacute;n de la entidad general del IBSN ser&iacute;a una asociaci&oacute;n de asociaciones.</p><p>Personalmente creo que es preferible utilizar s&oacute;lo n&uacute;meros en las codificaciones. Eso evita problemas con may&uacute;sculas-min&uacute;sculas de los caracteres, en casos como la funcionalidad de las redirecciones que introdujiste. Aunque las codificaciones num&eacute;ricas pueden ser largas, pueden proporcionar informaci&oacute;n a quien le interese.<br /><br />Por poner un caso yo no voy al supermercado tratando de interpretar el significado de los miles de c&oacute;digos de barras que existen, pero el interesado puede extraer informaci&oacute;n. Eso mismo sucede con la <a href="http://www.mcu.es/comun/bases/isbn/ISBN.html" title="base de datos de la agencia espa&ntilde;ola del ISBN">base de datos de la agencia espa&ntilde;ola del ISBN</a>: puedes acceder y encontrar un documento por su ISBN. Dado que estamos hablando del entorno electr&oacute;nico, por largo que sea siempre se puede copiar-pegar.</p><h2>Funcionalidades<br /></h2><p>Yendo al cap&iacute;tulo de funcionalidades, creo que existen una serie de funcionalidades interesantes:</p><ul><li>Blogstamp: esto ya se coment&oacute; y sigo pensando que es interesante. Lo interesante ser&iacute;a combinar el c&oacute;digo de base del IBSN, que se referir&iacute;a a la fuente generadora (el blog) con el c&oacute;digo &uacute;nico de aportaci&oacute;n. Por ejemplo:<br /><br />http://[codigo-ibsn-blog].ibsn.org/blogstamp/...<br /><br />&oacute;<br /><br />http://[codigo-ibsn-blog].ibsn.org/permalink/...<br /><br />por utilizar dos posibilidades complementarias.<br /></li></ul><ul><li>Herramienta de citaciones bibliogr&aacute;ficas: Quien m&aacute;s quien menos ha redactado un documento en el que cita fuentes externas, y cada vez es m&aacute;s habitual que esas citas sean de medios electr&oacute;nicos, entre ellos los blogs.  Si dispusi&eacute;ramos de informaci&oacute;n b&aacute;sica disponible a trav&eacute;s del RSS del blog (por ejemplo), ser&iacute;a relativamente f&aacute;cil implantar un modelo de citaci&oacute;n bibliogr&aacute;fica est&aacute;ndar, como la indicada en la ISO-690 para documentos electr&oacute;nicos, que puedes ver bastante bien expuesto en este art&iacute;culo sobre <a href="http://www.ub.es/biblio/citae-e.htm" title="citaci&oacute;n de documentos electr&oacute;nicos">citaci&oacute;n de documentos electr&oacute;nicos</a>.</li></ul><ul><li>Trackback: Asociado a las dos anteriores, la posibilidad de saber qui&eacute;n cita a qui&eacute;n es una dato interesante.  La funcionalidad de trackback se implant&oacute; para &quot;charlar con el blog vecino desde la ventana de mi blog&quot;, aunque como idea esencial ya lo podemos encontrar en las propias citas bibliogr&aacute;ficas y el pagerank.</li><li>Archivo de posts: A pesar de (o quiz&aacute; debido a) la volatilidad de los contenidos de la web, todos hemos tenido que cambiar de servidor, aplicaci&oacute;n de blogs... una entidad gestora del IBSN podr&iacute;a servir com herramienta de archivo de posts para importar-exportar los contenidos. La el uso de formatos como RDF, RSS, etc., que permitiera ese proceso permitir&iacute;a a los usuarios ser lo m&aacute;ximo de independientes de plataforma. No estoy muy al d&iacute;a pero es probable que exista alg&uacute;n que otros plugin en las herramientas habituales de blogging para desarrollar estas tareas.</li><li>Ofrecer un servicio de estad&iacute;sticas sobre los accesos basados en redirecciones IBSN tambi&eacute;n ser&iacute;a interesante. La posibilidad de las redirecciones que implantaste abre la puerta a un servicio de estad&iacute;sticas, que puede ser de consulta p&uacute;blica para que pueda ser consultado. Registrar el origen y destino de los enlaces es algo que se puede analizar a trav&eacute;s del HTML, pero... Cu&aacute;ntas veces se sigue ese enlace? Es lo mismo que medir la justificaci&oacute;n de una carretera por los coches que pasan por ella: es m&aacute;s importante que la carretera misma.<br /></li></ul><p>Mientras escribo esto soy consciente que existen servicios que proporcionan estas funcionalidades. Probablemente sea Technorati el que m&aacute;s se acerque a la visi&oacute;n global que trato de especificar.  Sin embargo, creo que nuestro papel es otro, aunque parte de las funcionalidades coincidan. Mientras que Technorati se centra en la indexaci&oacute;n y la recuperaci&oacute;n de la informaci&oacute;n, el valor del servicio del IBSN es de car&aacute;cter m&aacute;s bibliogr&aacute;fico.</p><h2>Financiaci&oacute;n<br /></h2><p>En cuanto a la posibilidad de gestionar las codificaciones, existen varias entidades que funcionan en base a la venta de codificaciones, como por ejemplo AECOC en el caso del EAN, y probablemente en la gesti&oacute;n de dominios tambi&eacute;n suceda. La posibilidad obtener ingresos en base a la aceptaci&oacute;n de entidades generadoras de c&oacute;digos es algo remoto. Otras opciones (las habituales) son la implantaci&oacute;n de un modelo de donaciones o publicidad.</p><p>Sin embargo, creo que disponer de un modelo de actividad (o de negocio, como prefieras) que d&eacute; garant&iacute;as de continuidad al modelo como asociaci&oacute;n sin &aacute;nimo de lucro creo que ser&iacute;a merecedor de inter&eacute;s.</p><p>La b&uacute;squeda de subvenciones y dem&aacute;s opciones ser&iacute;a una posibilidad para acciones concretas pero no como estrategia de funcionamiento general.  Por ejemplo, podr&iacute;amos encontrar una peque&ntilde;a subvenci&oacute;n para el desarrollo t&eacute;cnico del servicio, o por tareas de internacionalizaci&oacute;n (traducci&oacute;n, vaya).</p><p>Es por eso que creo que la mayor&iacute;a de servicios deben ser muy autom&aacute;ticos, para disponer de una estructura de costes m&iacute;nima. Otros servicios que implicaran la intervenci&oacute;n humana podr&iacute;an ser raz&oacute;n para ingresos.  Por ejemplo, la creaci&oacute;n de informes peri&oacute;dicos a un precio simb&oacute;lico, etc.</p><p>Bueno, creo que ya he comentado mucho. Espero que los comentarios sean de vuestro agrado. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">Sopa de Bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26776/ibsn-reloaded-propuetas-gestion-ibsn</link><pubDate>Tue, 28 Aug 07 00:00:00 +0200</pubDate></item></channel></rss>
