<?xml version="1.0"?>
<rss version="2.0"><channel><title><![CDATA[sopadebits.com]]></title><link>http://sopadebits.com/extranet/site/feed/site/feed.xml</link><description><![CDATA[RSS Sopa de bits]]></description><item><title><![CDATA[La asimilaci&oacute;n de informaci&oacute;n en la era digital]]></title><description><![CDATA[<p>Lo leo a menudo.&nbsp; Parece que es una cuesti&oacute;n general y he de aceptar que en parte a m&iacute; tambi&eacute;n me sucede.&nbsp; Pero en el fondo no estoy de acuerdo.</p><p>Me refiero a la t&oacute;nica general de afirmar que <strong>el entorno digital debilita nuestra capacidad de leer pacientemente un libro o, en general, de asimilar nuevos conocimientos</strong>. En el contexto de esta afirmaci&oacute;n <a href="http://listserv.rediris.es/cgi-bin/wa?A2=ind0808c&amp;L=iwetel&amp;D=1&amp;T=0&amp;O=D&amp;P=1103" title="Iwetel: Sera que Google nos est&aacute; volviendo est&uacute;pidos">acostumbra a aparecer la palabra Google como parte de la causa</a> .</p><p>De acuerdo con que el acceso a tanta informaci&oacute;n es algo que nos ha afectado en la forma de asimilar la informaci&oacute;n.&nbsp; Sin embargo, el ruido ambiental no nos debe dejar necesariamente sordos, especialmente cuando podemos filtrarlo. Si el ruido informacional es el r&iacute;o revuelto, todos somos pescadores de nuestra potencial ganancia...<br /></p> <h2>Asimilaci&oacute;n y usabilidad</h2><p>Entiendo que asimilar o aprender es usar la informaci&oacute;n de forma que resuelva un conflicto cognitivo a cualquier nivel.&nbsp; Y aunque pueda parecer un abuso del lenguaje, yo deduzco que <strong>asimilar implica analizar la usabilidad de un conocimiento para nuestros objetivos</strong>.</p><p>La relevancia es una de las herramientas que hay que saber usar para aprender. Lo que sucede es que hasta el momento la relevancia ha aparecido como algo muy inherente a la unidad informativa (el documento) y a un canal de distribuci&oacute;n muy concreto (el proceso editorial).</p><p>Ahora hay m&aacute;s palancas que calibrar en el momento de valorar la relevancia de un contenido.&nbsp; Una informaci&oacute;n llega estructurada y ponderada de mil formas diferentes, por gran variedad de fuentes y canales, y con enfoques a veces dif&iacute;ciles de conciliar.</p><p><strong>La estructura de red a trav&eacute;s de la cual se est&aacute; difundiendo la informaci&oacute;n no garantiza que &eacute;sta nos llegue antes ni mejor: s&oacute;lo aumenta la garant&iacute;a de que nos llegar&aacute;</strong>.&nbsp; Al romperse la cadena lineal de la edici&oacute;n y producci&oacute;n de contenidos, la primera cuesti&oacute;n a plantearse no creo que sea si la calidad de &eacute;stos disminuye (aunque tambi&eacute;n lo hagamos), sino la cantidad de informaciones que se han perdido cuando los canales de difusi&oacute;n eran tan reducidos.</p><p>Es por eso que el contexto en el que esa informaci&oacute;n se ha creado afecta mucho m&aacute;s que anta&ntilde;o. Pero no tanto por el hecho que exista un autor original que la crea, sino por el potencial de difusi&oacute;n que tiene esa informaci&oacute;n en la nueva situaci&oacute;n. Y de ello se deriva la <strong>dificultad de ponderar la relevancia en un ambiente ruidoso</strong>.</p><p>Si el movimiento se demuestra andando, la asimilaci&oacute;n se demuestra escribiendo y releyendo.</p><h2>Para el lector infoxicado: escribe y relee</h2><p>Bea ya lo comentaba hace un tiempo: <a href="http://elprincipiodeincertidumbre.net/blog/2008/06/06/blog-por-prescripcion-medica/" title="El principio de incertidumbre: blog por prescripci&oacute;n m&eacute;dica">escribir forma parte de la terapia</a> . Quiz&aacute; no sea desde el punto de vista que ella lo enfoca, porque tampoco es necesario convertirse en blogger para superar un trauma.&nbsp; Pero estoy convencido que escribir ayuda a asimilar mejor la informaci&oacute;n.</p><p>El hecho de escribir conlleva entender la dificultad de estructurar una idea de modo que sea inteligible para uno mismo y para los dem&aacute;s.&nbsp; Leer lo escrito nos hace entender lo complejo que es salir de nosotros para aportar algo (no s&oacute;lo a los dem&aacute;s, sino a uno mismo) y comprobar que siempre hay lagunas. Por encima de todo tambi&eacute;n nos obliga a escoger lo necesario y descartar lo superficial: <strong>la verborrea le&iacute;da es mucho m&aacute;s indigesta si la crea uno mismo</strong>.</p><p>Lo m&aacute;s importante de todo, es que este ejercicio nos traslada al <em>tempo</em> de quien escribe.&nbsp; Si lees este art&iacute;culo y no escribes a menudo, quiz&aacute; te sorprenda saber que lo que t&uacute; lees en apenas tres minutos, yo he tardado sesenta en escribirlo. Los pensamientos que se tienen en tres minutos o en sesenta son tan diferentes (especialmente si cambiamos del ritmo de escribir al de leer) que es obvia la dificultad de asimilar.</p><p>Releer lo propio nos transporta al tempo de escribir: quiz&aacute; as&iacute; sepamos asimilar mejor.&nbsp; No es necesario leer al ritmo que se escribe, pero s&iacute; es necesario asimilar con ese ritmo. El eco de la lectura es como el movimiento para separar la paja del grano: un movimiento hacia arriba, y que las cosas caigan por su propio peso. Se puede repetir el movimiento tanto como apetezca, pero a un ritmo suficientemente lento como para no acabar hundidos en un pajar.</p><h2>Filtrar es cuesti&oacute;n de tiempo</h2><p>Al cambiar ese ritmo tambi&eacute;n sucede algo inesperado: nos damos cuenta que quiz&aacute; lo que leemos no merezca tanto nuestro tiempo. El tiempo es escaso, quiz&aacute; lo &uacute;nico realmente escaso para aprender: el saber no ocupa lugar, pero ocupa tiempo. Si esa sensaci&oacute;n de perder el tiempo se tiene a menudo para una misma fuente o canal, ya tenemos una conclusi&oacute;n: la fuente no es interesante para nuestro conocimiento.</p><p>Escribir y releer es la base para mejorar la usabilidad de nuestro conocimiento <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-wink.gif" border="0" alt="Gui&ntilde;o" title="Gui&ntilde;o" />.</p><p>Todo lo comentado es una reflexi&oacute;n personal, a la que desde luego me gustar&iacute;a adjuntar vuestros comentarios... aunque sea para decir que no vali&oacute; la pena perder vuestro tiempo <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-cry.gif" border="0" alt="Llorando" title="Llorando" />.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26813/asimilacion-informacion-era-digital</link><pubDate>Fri, 19 Sep 08 03:00:43 +0200</pubDate></item><item><title><![CDATA[An&aacute;lisis web com Piwik y GNU R (II)]]></title><description><![CDATA[<p>En el anterior post he comentado los conceptos b&aacute;sicos de las anal&iacute;ticas web y los condicionantes principales sobre estas anal&iacute;ticas que permiten o dificultan su obtenci&oacute;n.&nbsp; Por otro lado introduje los elementos b&aacute;sicos del tratamiento de anal&iacute;ticas web con Piwik. <br /></p><p>En este post voy a comentar una serie de consultas SQL sobre la base de datos de Piwik que servir&aacute;n para obtener informaci&oacute;n b&aacute;sica sobre los datos recopilados por la aplicaci&oacute;n.</p> <h2>Consideraciones previas</h2><p>El tratamiento de datos viene precedido por una fase de trastienda que consiste en la limpieza de datos. Esta limpieza de datos no consiste en eliminar lo que no queramos saber: se trata de s&oacute;lo escoger los datos que son necesarios para los objetivos que se plantea el an&aacute;lisis.</p><p>Incluso en la colecci&oacute;n de datos que nos interesa, es habitual encontrar datos defectuosos fruto de la recogida de informaci&oacute;n (el trabajo de campo) que tambi&eacute;n deben ser eliminados para conseguir una mayor fiabilidad de la informaci&oacute;n.</p><p>En el siguiente ejemplo descarto datos de acuerdo con los objetivos que me planteo, pero no hago una limpieza posterior, con una doble intenci&oacute;n: comprobar que es necesario, y ver que los datos err&oacute;neos tambi&eacute;n tienen unas caracter&iacute;sticas propias, que son detectables con m&eacute;todos estad&iacute;sticos b&aacute;sicos. <br /></p><h2>Objetivos</h2><p>El objetivo principal de la extracci&oacute;n de datos es analizar la afluencia de tr&aacute;fico que se generan a partir de los enlaces que pongo en los posts, y verificar si hay variaciones substanciales entre enlaces.</p><p>Este an&aacute;lisis podr&iacute;a dar paso a b&uacute;squedas posteriores para determinar si existe alguna relaci&oacute;n entre tales enlaces y sus caracter&iacute;sticas propias (n&uacute;mero de palabras del enlace, t&eacute;rminos utilizados en el enlace) como ajenas (posici&oacute;n en el conjunto del texto, posici&oacute;n dentro del p&aacute;rrafo, posici&oacute;n en una frase). De todos modos este estudio m&aacute;s complejo que dejo al margen para otras ocasiones. <br /></p><h2>Extrayendo datos de Piwik</h2><br />Con una consola o cliente de MySQL se pueden recuperar los datos anteriores.&nbsp; Vale la pena (obviamente) realizar el an&aacute;lisis en una m&aacute;quina diferente a la que almacena los datos, si es que la m&aacute;quina est&aacute; totalmente en funcionamiento.<br /><br />Por ahora vamos a extraer una serie de datos para tener una idea de la informaci&oacute;n que hay almacenada en la base de datos.<br /><br />Empezaremos por comprobar cu&aacute;ntas salidas genera el blog hacia otros sitios. Para ello, ejecuto la consulta:<br /><br />SELECT pla.name,count(*) salidas FROM `piwik_log_visit` plv inner join piwik_log_action pla on plv.visit_exit_idaction=pla.idaction WHERE pla.name like &#39;http%&#39; and pla.name not like &#39;%sopadebits.com%&#39; group by visit_exit_idaction order by salidas desc<br /><br />La consulta selecciona los nombres de los sitios que han recibido visitas desde un enlace en mi blog.&nbsp; Para detectar los sitios externos, filtro los datos teniendo en cuenta que el campo name de la tabla piwik_log_action empiece por &quot;http&quot; [pla.name like &#39;http%&#39;] y que no contengan el dominio del post [pla.name not like &#39;%sopadebits.com%&#39;]. Ordeno el resultado seg&uacute;n la cantidad de visitas (de m&aacute;s a menos):<br /><br />El resultado es parecido a:<br /><br /><table border="1" cellpadding="0" width="596" height="199"><tbody><tr><td>idaction <br /></td><td>&nbsp;URL</td><td>Visitas <br /></td></tr><tr><td>&nbsp;6</td><td>http://teethgrinder.co.uk/open-flash-chart</td><td>&nbsp;27</td></tr><tr><td>&nbsp;24</td><td>http://www.um.es/dp-lengua-espa/revista/vol7/relevancia.pdf</td><td>&nbsp;6</td></tr><tr><td>&nbsp;31</td><td>http://articles.techrepublic.com.com/5100-10877_11-6160661.html</td><td>&nbsp;5</td></tr><tr><td>&nbsp;135</td><td>http://jlibrary.sourceforge.net</td><td>&nbsp;3</td></tr><tr><td>&nbsp;106</td><td> http://www.vectorsite.net/tsawk_3.html</td><td>&nbsp;3</td></tr><tr><td>&nbsp;11</td><td>http://jlibrary.sourceforge.net/12/screencast3.html</td><td>&nbsp;2</td></tr><tr><td>&nbsp;53</td><td>http://espanol.answers.yahoo.com/question/index?qid=20070723132213AA3U5yy</td><td>&nbsp;2</td></tr><tr><td>&nbsp;107</td><td>&nbsp;http://www.deakialli.com/2007/09/13/bibliotecas-publicas-servicios-electronicos-de-informacion-y-web-social</td><td>&nbsp;2</td></tr><tr><td>&nbsp;</td><td>&nbsp;...</td><td>&nbsp;...</td></tr></tbody></table><p>Ahora quiero comprobar si alguno de los enlaces m&aacute;s solicitados est&aacute; recibiendo una relaci&oacute;n de salidas m&aacute;s alta que los otros. Es decir, quiero medir el&nbsp; <a href="http://en.wikipedia.org/wiki/Click-through_rate" title="Wikipedia English: click-through rate">ratio de click-through</a>. Para eso voy a hacer dos consultas: primero, averiguar qu&eacute; p&aacute;ginas de mi blog dirigen hacia estos enlaces, y luego consultar el n&uacute;mero de visualizaciones de estas p&aacute;ginas.</p><p>Dividiendo el n&uacute;mero de visualizaciones por el n&uacute;mero de salidas, tendr&eacute; el ratio de click-through. El primer paso se consigue con la consulta siguiente: </p><p align="left"><em>select distinct pllva.idaction_ref,pllva.idaction from piwik_log_action pla inner join piwik_log_link_visit_action pllva on pla.idaction=pllva.idaction_ref where pllva.idaction in (6, 24, 31, 135, 106, 11, 53, 107)</em></p><p>Ahora tenemos que los enlaces anteriores salen de las siguientes p&aacute;ginas:</p><table border="1" id="table_results"><thead><tr><th align="left">name </th><th> idaction_ref </th><th class="condition"> idaction </th></tr> </thead>         <tbody>     <tr class="odd">     <td>content/view/open-flash-chart-graficos-estadisticos-open-source</td>     <td class="nowrap" align="right">5</td>     <td class="condition nowrap" align="right">6</td> </tr>                  <tr class="even">     <td>content/view/jlibrary-gestor-documental-open-source</td>     <td class="nowrap" align="right">10</td>     <td class="condition nowrap" align="right">11</td> </tr>                  <tr class="odd">     <td>content/view/organizacion-de-la-informacion-personal-eliminando-archivos-duplicados</td>     <td class="nowrap" align="right">30</td>     <td class="condition nowrap" align="right">31</td> </tr>                  <tr class="even">     <td>content/view/normalizacion-distancias-normalizadas</td>     <td class="nowrap" align="right">7</td>     <td class="condition nowrap" align="right">53</td> </tr>                  <tr class="odd">     <td>content/view/teoria-de-la-relevancia-en-linguistica</td>     <td class="nowrap" align="right">8</td>     <td class="condition nowrap" align="right">24</td> </tr>                  <tr class="even">     <td>http://www.um.es/dp-lengua-espa/revista/vol7/relevancia.pdf</td>     <td class="nowrap" align="right">24</td>     <td class="condition nowrap" align="right">24</td> </tr>                  <tr class="odd">     <td>content/view/www.themedicieffect.com</td>     <td class="nowrap" align="right">61</td>     <td class="condition nowrap" align="right">107</td> </tr>                  <tr class="even">     <td>content/view/efecto-medici-innovacion-interdisciplinar</td>     <td class="nowrap" align="right">27</td>     <td class="condition nowrap" align="right">107</td> </tr>                  <tr class="odd">     <td>content/view/trabajando-con-subversion-y-awk</td>     <td class="nowrap" align="right">12</td>     <td class="condition nowrap" align="right">106</td> </tr>                  <tr class="even">     <td>http://www.vectorsite.net/tsawk_3.html</td>     <td class="nowrap" align="right">106</td>     <td class="condition nowrap" align="right">106</td> </tr>                  <tr class="odd">     <td>content/view/jlibrary-gestor-documental-open-source</td>     <td class="nowrap" align="right">10</td>     <td class="condition nowrap" align="right">135</td> </tr>                  <tr class="even">     <td>content/view/descargas</td>     <td class="nowrap" align="right">17</td>     <td class="condition nowrap" align="right">6</td> </tr>                  <tr class="odd">     <td>extranet/content/view/open-flash-chart-graficos-estadisticos-open-source</td>     <td class="nowrap" align="right">144</td>     <td class="condition nowrap" align="right">6</td></tr></tbody></table><p>En esta tabla, <em>idaction_ref</em> es el id de la p&aacute;gina de origen, e i<em>daction</em> se corresponde con los enlaces externos.&nbsp; Por lo tanto, tenemos que las p&aacute;ginas del blog que enlazan a los recursos anteriores tienen los id de acci&oacute;n [5,10,30,7,8,24,61,27,12,106,10,17,144]. </p><p>De todos modos, en estos datos nos encontramos con dos temas:</p><ul><li>vemos que las acciones 5 y 144 son equivalentes.</li><li>Vemos que las acciones 24 y 106 vuelven a ellas mismas, lo que sin duda es un error (quiz&aacute; debido a un doble click del usuario mientras se procesa la consulta o algo por el estilo).</li></ul><p>Las acciones 5 y 144 se tratar&aacute;n pues como una sola entrada, mientras que&nbsp; las acciones&nbsp; 24 y 106 deben eliminarse de la lista. Esto indica que un proceso de limpieza deber&iacute;a eliminar los datos cuyos valores de <em>idaction</em> e <em>idaction</em>_ref coinciden.</p><p>Nos quedamos entonces con los &iacute;tems&nbsp; [5,10,30,7,8,61,27,12,10,17,144].&nbsp; Ahora queda ejecutar la consulta para las p&aacute;ginas vistas de cada &iacute;tem:</p><p align="left"><em>select pla.idaction,pla.name,count(*) paginas_vistas from piwik_log_link_visit_action pllva inner join piwik_log_action pla on pllva.idaction=pla.idaction where pla.idaction in (5,10,30,7,8,61,27,12,10,17,144) group by pla.name order by paginas_vistas desc </em><br /></p><p>La consulta devuelve un resultado como el siguiente (agrupando las acciones 5 y 144):</p><table border="1" id="table_results">         <tbody>     <tr><td><strong>&nbsp;idaction</strong></td><td><strong>name</strong></td><td><strong>&nbsp;paginas_vistas</strong></td></tr><tr class="odd">     <td>&nbsp;5+144</td><td>content/view/open-flash-chart-graficos-estadistico...</td>     <td class="nowrap" align="right">354</td> </tr>                  <tr class="even">     <td>&nbsp;7</td><td>content/view/normalizacion-distancias-normalizadas</td>     <td class="nowrap" align="right">158</td> </tr>                  <tr class="odd">     <td>&nbsp;30</td><td>content/view/organizacion-de-la-informacion-person...</td>     <td class="nowrap" align="right">149</td> </tr>                  <tr class="even">     <td>&nbsp;8</td><td>content/view/teoria-de-la-relevancia-en-linguistic...</td>     <td class="nowrap" align="right">97</td> </tr>                  <tr class="odd">     <td>&nbsp;12</td><td>content/view/trabajando-con-subversion-y-awk</td>     <td class="nowrap" align="right">96</td> </tr>                  <tr class="even">     <td>&nbsp;27</td><td>content/view/efecto-medici-innovacion-interdiscipl...</td>     <td class="nowrap" align="right">56</td> </tr>                  <tr class="odd">     <td>&nbsp;10</td><td>content/view/jlibrary-gestor-documental-open-sourc...</td>     <td class="nowrap" align="right">44</td> </tr>                  <tr class="even">     <td>&nbsp;17</td><td>content/view/descargas</td>     <td class="nowrap" align="right">42</td> </tr>                                    <tr class="even">     <td>&nbsp;61</td><td>content/view/www.themedicieffect.com</td>     <td class="nowrap" align="right">8</td> </tr>                                    </tbody></table><p>Combinando esta tabla y la de visitas por URL, tenemos un ratio de click-through entre p&aacute;ginas y enlaces:</p><p>&nbsp;            <!--   @page { size: 21cm 29.7cm; margin: 2cm }   P { margin-bottom: 0.21cm }  -->    <table border="1" cellspacing="0" cellpadding="2" width="606" height="289">            <tbody><tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;<strong>idaction</strong></p>   </td>   <td width="324">    <p align="left"><strong>name</strong></p>   </td>   <td width="95">    <p align="left">&nbsp;<strong>pag_vistas</strong></p>   </td>   <td width="117">    <p align="left"><strong>enlaces_salientes</strong></p>   </td>   <td width="82">    <p align="left"><strong>%CTR</strong></p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;5</p>   </td>   <td width="324">    <p align="left">content/view/open-flash-chart-graficos-estadistico...</p>   </td>   <td width="95">    <p align="right">354</p>   </td>   <td width="117">    <p align="right">29</p>   </td>   <td width="82">    <p align="right">8,19%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;7</p>   </td>   <td width="324">    <p align="left">content/view/normalizacion-distancias-normalizadas</p>   </td>   <td width="95">    <p align="right">158</p>   </td>   <td width="117">    <p align="right">3</p>   </td>   <td width="82">    <p align="right">1,90%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;30</p>   </td>   <td width="324">    <p align="left">content/view/organizacion-de-la-informacion-person...</p>   </td>   <td width="95">    <p align="right">149</p>   </td>   <td width="117">    <p align="right">5</p>   </td>   <td width="82">    <p align="right">3,36%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;8</p>   </td>   <td width="324">    <p align="left">content/view/teoria-de-la-relevancia-en-linguistic...</p>   </td>   <td width="95">    <p align="right">97</p>   </td>   <td width="117">    <p align="right">6</p>   </td>   <td width="82">    <p align="right">6,19%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;12</p>   </td>   <td width="324">    <p align="left">content/view/trabajando-con-subversion-y-awk</p>   </td>   <td width="95">    <p align="right">96</p>   </td>   <td width="117">    <p align="right">3</p>   </td>   <td width="82">    <p align="right">3,13%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;27</p>   </td>   <td width="324">    <p align="left">content/view/efecto-medici-innovacion-interdiscipl...</p>   </td>   <td width="95">    <p align="right">56</p>   </td>   <td width="117">    <p align="right">2</p>   </td>   <td width="82">    <p align="right">3,57%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;10</p>   </td>   <td width="324">    <p align="left">content/view/jlibrary-gestor-documental-open-sourc...</p>   </td>   <td width="95">    <p align="right">44</p>   </td>   <td width="117">    <p align="right">6</p>   </td>   <td width="82">    <p align="right">13,64%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;17</p>   </td>   <td width="324">    <p align="left">content/view/descargas</p>   </td>   <td width="95">    <p align="right">42</p>   </td>   <td width="117">    <p align="right">0</p>   </td>   <td width="82">    <p align="right">0,00%</p>   </td>  </tr>  <tr valign="bottom">   <td width="82" height="13">    <p align="left">&nbsp;61</p>   </td>   <td width="324">    <p align="left">content/view/www.themedicieffect.com</p>   </td>   <td width="95">    <p align="right">8</p>   </td>   <td width="117">    <p align="right">2</p>   </td>   <td width="82">    <p align="right">25,00%</p>   </td>  </tr> </tbody></table> </p><p>De lo anterior hay que sacar muchas conclusiones, pero especialmente una: antes de tratar con datos estad&iacute;sticos es necesario hacer una purga que s&oacute;lo nos deje con los datos necesarios de acuerdo con unos objetivos. </p><p>Por ejemplo, el enlace 61 es claramente un error, probablemente debido a un error en la introducci&oacute;n del enlace.&nbsp; El click-through que presenta puede ser debido a que el usuario trata de accede r repetidas veces al enlace. Es probable que se pudiera unificar con la acci&oacute;n 27 (el post sobre el efecto Medici), y que los dos clicks fueran porque el usuario vuelve a intentar el enlace. </p><p>El c&aacute;lculo aporta informaci&oacute;n interesante, aunque no significativa.&nbsp; De lo anterior s&oacute;lo&nbsp; los tres primeros enlaces tienen datos suficientes como para sacar alguna conclusi&oacute;n. Entre ellos cabe destacar en positivo el enlace de open-flash-chart y en negativo el de las distancias normalizadas.</p><p>Sobre el resto, precisamente el enlace del Medici Effect aporta informaci&oacute;n interesante...&nbsp; pero <strong>para corregir errores</strong>. Esto en s&iacute; mismo es interesante porque el detectar que el ratio&nbsp; var&iacute;a bastante (aunque es poco significativo por los pocos datos). &Eacute;ste es un caso determinado nos induce a pensar que algo sucede. Pero no era el objetivo de estas consultas.</p><p>Tambi&eacute;n cabe comentar que todo este proceso podr&iacute;a haberse realizado con una sola consulta, m&aacute;ximo dos.&nbsp; En cualquier caso estas consultas no ser&iacute;an eficientes en un servidor a pleno rendimiento. <br /></p>El siguiente paso (en otro art&iacute;culo) ser&aacute; extraer datos globales de las relaciones entre enlaces para realizar un an&aacute;lisis basado en cadenas de Markov. Para eso utilizaremos el paquete estad&iacute;stico GNU R. <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26811/analisis-web-com-piwik-gnu-r-ii</link><pubDate>Tue, 16 Sep 08 20:46:17 +0200</pubDate></item><item><title><![CDATA[An&aacute;lisis web com Piwik y GNU R (I)]]></title><description><![CDATA[<p>Las anal&iacute;ticas web son un recurso cada vez m&aacute;s valorado en los proyectos web que se precian, en el sentido m&aacute;s estricto del t&eacute;rmino.&nbsp; Cuando existe un objetivo econ&oacute;mico (aunque no siempre monetario), cualquier informaci&oacute;n sobre la conducta del usuario es de valor.</p><p>Las herramientas de anal&iacute;ticas web recogen estos datos en base a la informaci&oacute;n proporcionada desde el servidor y el cliente (navegador).&nbsp; En el lado del servidor se recopilan datos relativos a la petici&oacute;n (desde la fecha y la p&aacute;gina solicitada, hasta la IP o el navegador del usuario), mientras que en el lado del servidor se almacenan algunos datos del equipo del usuario (tama&ntilde;o de pantalla, colores, plugins del navegador) y la conducta del usuario (tiempo en la p&aacute;gina)... <br /></p> <p>La principal debilidad en el lado del cliente es que la recogida de estos datos funciona con javascript, por lo que si el navegador lo tiene desactivado, estos datos no se recogen. (Ref. a diferencias entre log servidor y cliente).</p><p>Para organizar esta informaci&oacute;n, normalmente se estructura en base a usuarios, visitas, y p&aacute;ginas vistas.&nbsp; Hay <a href="http://www.webanalyticsassociation.org/attachments/committees/5/WAA-Standards-Analytics-Definitions-Volume-I-20070816.pdf" title="Web Analytics Association - Definitions">un documento con definiciones muy bien planteadas (PDF)</a>&nbsp; para esta informaci&oacute;n b&aacute;sica en el <a href="http://www.webanalyticsassociation.org/" title="Web Analytics Association">sitio de la Web Analytics Association</a>.&nbsp; Para estructurar esta informaci&oacute;n se utiliza como elemento base el c&oacute;digo de sesi&oacute;n. Este c&oacute;digo es un valor &uacute;nico que el navegador del usuario almacena en su <a href="http://es.wikipedia.org/wiki/Cookie" title="Wikipedia en Espa&ntilde;ol: cookie">cookie</a> .</p><p>Normalmente el servidor elimina los datos de sesi&oacute;n al cabo de un tiempo despu&eacute;s del a &uacute;ltima petici&oacute;n del usuario (pocos minutos por lo general), mientras que el navegador puede borrar la cookie cuando caduque o cuando el usuario lo solicite.&nbsp; La diferencia entre la informaci&oacute;n a nivel cliente y servidor es el quebradero de cabeza para desglosar usuarios y visitas.&nbsp; Sabemos con bastante fiabilidad cu&aacute;ndo se inicia o se acaba una visita, pero no podemos tener claro si una nueva visita se corresponde con un usuario anterior si la cookie se ha borrado.</p><p>En cambio, si la cookie existe, volver&aacute; a enviar el c&oacute;digo de la &uacute;ltima visita.&nbsp; El gestor de anal&iacute;ticas habr&aacute; almacenado este c&oacute;digo para poder identificar a ese usuario, y aunque le asigne un c&oacute;digo nuevo, ya dispondr&aacute; de una relaci&oacute;n entre dos visitas.</p><p>A este embrollo hay que a&ntilde;adir que un equipo no se corresponde con un usuario.&nbsp; Los cibercaf&eacute;s, los PCs en centros acad&eacute;micos y el ordenador &quot;de la familia&quot; son ejemplos claros de este hecho.&nbsp; Por lo tanto, la fiabilidad de los usuarios &uacute;nicos es relativa, mientras que las p&aacute;ginas vistas y las visitas son datos mucho m&aacute;s fiables.</p><p>Con estos tres niveles de datos se pueden extraer informaciones interesantes.&nbsp; Algunas de ellas son indicadores de sobra conocidos, como las p&aacute;ginas por visita, tiempo entre dos visitas de un usuario, p&aacute;ginas m&aacute;s vistas, etc.<br /> <br /> Hasta aqu&iacute; la teor&iacute;a b&aacute;sica de las anal&iacute;ticas web.&nbsp; Hay muchos recursos al respecto, el problema es filtrar qu&eacute; recursos son m&aacute;s interesantes.</p><h2>Uso de Piwik</h2><p> El siguiente paso es tener acceso a estos datos.&nbsp; Hay variedad de formas, aunque los m&aacute;s conocidos son el an&aacute;lisis de logs del servidor (an&aacute;lisis transaccional). Dado que puede interesar disponer de m&aacute;s informaci&oacute;n que la que proporciona el servidor, yo voy a utilizar los datos que proporciona la aplicaci&oacute;n Piwik, una herramienta de c&oacute;digo abierto desarrollada con PHP y con licencia GPL que permite acceder a esta informaci&oacute;n ya estructurada en una base de datos MySQL.</p><p>Visto lo anterior, escojo <a href="http://piwik.org/" title="Piwik">Piwik</a>  como herramienta de anal&iacute;tica web porque me permite acceder de forma estructurada a los datos, pero hay otras que tambi&eacute;n permiten esas funcionalidades. Est&aacute; por ejemplo <a href="http://www.phpmyvisites.us/" title="PHPMyVisites">PHPMyVisits</a> , que incluye adem&aacute;s una funcionalidad para obtener el <em>heatmap</em> de clics de los usuarios (integrando <a href="http://www.labsmedia.com/clickheat/index.html" title="Labsmedia: Clickheat">ClickHeat</a>  desarrollado por <a href="http://www.labsmedia.com/" title="LabsMedia">labsmedia</a> ).</p><p>Volviendo a Piwik, su web proporciona una imagen sencilla de su _esquema de la base de datos_ que almacena la informaci&oacute;n de la aplicaci&oacute;n.&nbsp; En este esquema, hay que destacar tres tablas, que son las que almacenan los datos de navegaci&oacute;n como tales:<br /></p><ul><li><strong>piwik_log_visit</strong>: Almacena los datos relativos a una visita.&nbsp; Dado que se espera que cada visita mantenga los par&aacute;metros de equipo y navegador, no es necesario generar redundancia a cada clic del usuario.&nbsp; Esta tabla incluye datos sobre cookie, localizaci&oacute;n, p&aacute;gina de origen (<a href="http://en.wikipedia.org/wiki/Referer" title="Wikipedia en ingl&eacute;s: HTTP Referer">referer</a> ), opciones del navegador y del equipo, etc.</li><li><strong>piwik_log_link_visit_action</strong>: Almacena los datos de la p&aacute;gina vista.&nbsp; Esto incluye un c&oacute;digo &uacute;nico de URL actual (lo comento en la siguiente tabla), c&oacute;digo de URL de origen, y el tiempo de estancia en esta p&aacute;gina.&nbsp; Esta tabla ser&aacute; importante en el momento de realizar un an&aacute;lisis de la navegaci&oacute;n.&nbsp; <br /></li><li><strong>piwik_log_action</strong>: Es una tabla auxiliar donde se almacenan las URL solicitadas, un registro por URL.<br /></li></ul><p>A todo esto hay que decir que Piwik genera tablas-resumen mensuales de los datos.&nbsp; Estas tablas se tienen el formato <em>piwik_archive_numeric_A&Ntilde;O_MES</em> y <em>piwik_archive_blob_A&Ntilde;O_MES</em>. Estas tablas ayudan a mantener un tama&ntilde;o reducido de las tablas anteriores, y siguen permitiendo el acceso a los datos b&aacute;sicos de fechas (tablas ..._numeric_...) o a los datos completos (tablas ..._blob_...).</p><p>Con todo esto, s&oacute;lo queda a&ntilde;adir que el prefijo piwik de todas las tablas viene por defecto pero es posible cambiarlo en la fase de instalaci&oacute;n de la aplicaci&oacute;n.</p><p>La raz&oacute;n de existencia de la &uacute;ltima tabla es que evita la redundancia de p<em>iwik_log_link_visit_action</em>. Teniendo en cuenta que esta es la tabla que almacenar&aacute; m&aacute;s datos, esto es importante para la agilizaci&oacute;n en la inserci&oacute;n de datos.</p><p>Analizando m&aacute;s a fondo la tabla <em>piwik_log_visit</em>, podemos ver que existen los campos <em>visitor_idcookie</em> y <em>visitor_returning</em>.&nbsp; Estos datos nos permiten relacionar visitas para identificar a los &quot;usuarios &uacute;nicos&quot;, siempre teniendo en cuenta las consideraciones que comentaba antes.<br /> <br /> Con estas tres tablas tenemos la estructura usuario-visita-p&aacute;gina, necesaria para empezar a extraer informaci&oacute;n de forma estructurada.</p><p>En el pr&oacute;ximo post empiezo a comentar las consultas SQL para extraer datos, los objetivos del an&aacute;lisis y su aplicaci&oacute;n en GNU R.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26810/analisis-web-com-piwik-gnu-r-i</link><pubDate>Mon, 15 Sep 08 19:38:46 +0200</pubDate></item><item><title><![CDATA[Mejoras y agradecimientos]]></title><description><![CDATA[<h2>Menos cosas pendientes <br /></h2><p>Poco a poco voy introduciendo las mejoras pendientes.&nbsp; De los temas que mencion&eacute; en el anterior post, ya he activado los comentarios y he inclu&iacute;do un sencillo sistema de captcha para salir del paso, aunque lo ir&eacute; mejorando porque tampoco es dif&iacute;cil de sortear.</p><p>Tambi&eacute;n he inclu&iacute;do la secci&oacute;n de recursos,que servir&aacute; para cargar los archivos y otros detalles que yo pongo a disposici&oacute;n.&nbsp; Y s&oacute;lo faltar&aacute; el apartado de enlaces, con informaci&oacute;n relativa a recursos disponibles en otros sitios.</p><h2>Agradecimientos</h2><p>En la explicaci&oacute;n sobre los cambios en el dise&ntilde;o de Sopa de bits dej&eacute; conscientemente a un lado el comentar el dise&ntilde;o visual por s&iacute; mismo. </p><p>Y es que el dise&ntilde;o gr&aacute;fico cumple una funci&oacute;n importante en cualquier web: no es lo mismo ir vestido que vestir un buen conjunto. No es cuesti&oacute;n de dinero, sino de gusto.</p><p>El m&eacute;rito que este blog tenga tan buen gusto visual es total y exclusivamente de <a href="http://www.xing.com/profile/Albert_Biarnes" title="Albert Biarn&eacute;s en Xing">Albert Biarn&eacute;s</a>. Albert es un Ingeniero T&eacute;cnico Multimedia que actualmente trabaja en la filial de un grupo farmac&eacute;utico como web developer. Sin embargo, el nombre del cargo no hace justicia a su perfil.</p><p>En realidad, Albert conjuga como pocos dos valores muy apreciados actualmente: creatividad y conocimientos t&eacute;cnicos.&nbsp; Adem&aacute;s de lo anterior, se ha formado en temas relacionados con la comunicaci&oacute;n, por lo que tiene todos los conocimientos necesarios para coordinar proyectos tecnol&oacute;gicos que planteen objetivos en la comunicaci&oacute;n de una marca, su imagen y sus valores.</p><p>Estoy convencido que un perfil como el de Albert se va a encontrar muy a gusto en la nueva generaci&oacute;n de servicios web 2.0, m&aacute;s enfocados a empresas.<br /></p><p>Despu&eacute;s del resultado de esta versi&oacute;n del dise&ntilde;o, s&oacute;lo me queda agradecerle el esfuerzo absolutamente desinteresado por lavarle la cara al blog y hacer este espacio m&aacute;s agradable para mis posts. Gr&agrave;cies Albert!&nbsp; </p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26809/mejoras-agradecimientos</link><pubDate>Tue, 30 Nov 99 00:00:00 +0100</pubDate></item><item><title><![CDATA[Nuevo dise&ntilde;o en sopa de bits]]></title><description><![CDATA[<p>Esta ma&ntilde;ana he estado actualizando el dise&ntilde;o de Sopadebits, ya que veo que el funcionamiento se muestra suficientemente estable. Eso no quiere decir que la versi&oacute;n quede cerrada ni que est&eacute;n todas las funcionalidades a la vista. Comento por encima las mejoras del nuevo dise&ntilde;o y los temas pendientes.</p><h2>Mejoras introducidas</h2><h3>Nuevo aspecto visual</h3><p>Esto era quiz&aacute; lo m&aacute;s evidente: partiendo de un dise&ntilde;o simple (por no utilizar otros adjetivos) se ha cambiado el tono sin modificar el mensaje&nbsp; de fondo.&nbsp; Los tonos utilizados mejoran el rastreo visual, ayudan a detectar la estructura de los contenidos, y por lo tanto mejoran notablemente la interacci&oacute;n y usabilidad del sitio.</p><p>Aparte de los tonos, la tipograf&iacute;a y la estructura general, me gustar&iacute;a destacar tambi&eacute;n la caja de categor&iacute;as y palabras clave que se puede ver en la parte derecha de cada POST.&nbsp; Me apetec&iacute;a situar esta informaci&oacute;n en un lugar destacado pero sin interferir en el contenido como tal.</p><p><img src="http://sopadebits.com/extranet/gallery/download/4490/box-categorias.png" alt="Captura: caja de categorias en cada post" title="Captura: caja de categorias en cada post" align="middle" /> <br /></p><p>El resultado me parece satisfactorio, y no descarto poner ah&iacute; m&aacute;s informaci&oacute;n, como por ejemplo el n&uacute;mero de comentarios realizados. </p><h3>Tags y categor&iacute;as</h3><p>Otro aspecto que faltaba, important&iacute;simo bajo mi punto de vista.&nbsp; Navegar por el archivo de postsha sido sencillo debido a que hab&iacute;a pocos posts.&nbsp; Pero desde luego no era agradable.&nbsp; Con la nueva funcionalidad, es posible acceder a los contenidos a trav&eacute;s de posts y categor&iacute;as.</p><p>Esta funcionalidad no tiene mucho m&aacute;s que explicar, salvo que el tag cloud implementa el a<a href="http://sopadebits.com/extranet/content/view/sistema-tagging-nube-etiquetas" title="Sistema de Tagging: nube de etiquetas - Sopa de bits">lgoritmo de generaci&oacute;n de nubes</a>  que coment&eacute; hace un tiempo.<br /></p><p>Los tags y categor&iacute;as se combinar&aacute;n con otro servicio implantado pero pendiente de activar: los RSS y alertas de e-mail para contenidos. Esto lo explico m&aacute;s adelante.</p><h3>Timeline en el archivo de posts</h3><p>Esto es m&aacute;s un experimento que una funcionalidad.&nbsp; <a href="http://elprincipiodeincertidumbre.net/blog/" title="El principio de incertidumbre">Beukis</a>  me coment&oacute; la existencia del <a href="http://simile.mit.edu/" title="Simile Project - MIT">proyecto SIMILE del MIT</a>, empec&eacute; a probar y qued&eacute; encantado con las funcionalidades que proporcion.&nbsp; Adem&aacute;s del timeline existen varios proyectos que van enfocados a mejorar la visualizaci&oacute;n de la informaci&oacute;n y a su tratamiento sem&aacute;ntico.</p><p><img src="http://sopadebits.com/extranet/gallery/download/4491/simile-timeline.png" alt="Muestra de cronograma con simile timeline" title="Muestra de cronograma con simile timeline" /> <br /></p><p>Esta funcionalidad mejorar&aacute; quiz&aacute; un poco, incluyendo una entradilla en el bocadillo que aparece al clicar sobre una entrada, aunque dado el espacio, el texto ser&aacute; limitado.&nbsp; Tambi&eacute;n introducir&eacute; un enlace hacia el post.</p><h2>Temas pendientes</h2><h3>Comentarios<br /></h3><p>Por lo pronto, falta activar los comentarios.&nbsp; Quiero implantar/desarrollar un sencillo sistema de captchas textuales para evitar las formas m&aacute;s <em>rastreras</em> de SPAM, pero sin poner en aprietos a los usuarios (nada de captchas visuales). </p><p>La herramienta servir&aacute; para indicar un sencillo enunciado corto de un sencillo problema matem&aacute;tico, o bien de l&oacute;gica simple.Lo tengo en mente y casi analizado: se tratar&aacute; de una barrera de entrada simple, por lo tanto no infalible.&nbsp; De todos modos, entre esto y el RSS de los comentarios deber&iacute;a ser suficiente para atajar las entradas de SPAM.</p><h3>Alertas v&iacute;a e-mail</h3><p>Otro de los temas que tengo pendiente es activar un servicio para configurar sistemas de alerta. El servicio servir&aacute; para que el usuario pueda generar su propio RSS, alerta o ambos. </p><p>En una segunda fase, tengo intenci&oacute;n de <em>publicar</em> estas alertas si el usuario lo permite, de modo que el resto pueda utilizar el filtro de los usuarios que lo hayan aplicado </p><p>La intenci&oacute;n es que esta funcionalidad ser&aacute; accesible a trav&eacute;s de la caja <em>Fuentes RSS</em>, y permitir&aacute; acceder a un peque&ntilde;o espacio para activar este servicio.</p><h3>Ampliaci&oacute;n del apartado de recursos</h3><p>Aunque creo que debo sintetizar m&aacute;s mis posts, tengo claro que no me apetece hacer rese&ntilde;as de dos l&iacute;neas. A esto se suma que quiero dar un impulso mayor al apartado de descargas (que no est&aacute; activado).</p><p>Por eso mi intenci&oacute;n es generar un espacio de recursos en su sentido m&aacute;s amplio, incluyendo los archivos que yo cargue, los enlaces de inter&eacute;s que apunte y posts de otros blogs que haya considerado interesantes.</p><p>De este modo diferencio lo que son aportaciones principalmente m&iacute;as y lo que son referencias externas.&nbsp; Dado que puedo integrar estas funcionalidades, incluir esta funcilonalidad mejora otra debilidad en este blog: la falta de enlaces en los posts.&nbsp; Al disponer en la base de datos de un listado de recursos, me es posible matar varios p&aacute;jaros de un tiro:</p><ul><li>Tener m&aacute;s a mano los enlaces a noticias que he le&iacute;do e integrarlos en un post.</li><li>Valorar estas noticias en base a las referencias en los posts.<br /></li><li>Integrar el sistema de categorizaci&oacute;n e indizaci&oacute;n de los contenidos propios y ajenos, para as&iacute; poder adaptar mejor el enfoque tem&aacute;tico.</li></ul>Creo que con esto basta por hoy.&nbsp; Vamos a ver qu&eacute; tal queda un nuevo post en el cronograma <img src="/resources/tiny_mce/jscripts/tiny_mce/plugins/emotions/images/smiley-wink.gif" border="0" alt="Gui&ntilde;o" title="Gui&ntilde;o" />.  <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26805/nuevo-diseno-sopa-bits</link><pubDate>Sun, 07 Sep 08 22:45:51 +0200</pubDate></item><item><title><![CDATA[Las cinco tendencias en el tagging]]></title><description><![CDATA[<p>Sac&aacute;ndole minutos al sue&ntilde;o me permito rese&ntilde;ar una noticia que he le&iacute;do sobre una conferencia que tuvo lugar el pasado 30 de Abril de 2008 en la <a href="http://iasummit.org/2008/about.html" title="IA Summit 2008">IA SUMMIT 2008</a>.</p><p>El comentario en s&iacute; viene a ra&iacute;z de <a href="http://www.iasummit.org/proceedings/2008/tagging_five_emerging_trends" title="Tagging: five emerging trends">Tagging: five emerging trends</a>.</p><p>Yendo al grano: </p><ul><li>El mercado quiere (por no decir &quot;necesita&quot;) estructura. Es decir, seg&uacute;n el mercado, las mejores etiquetas son las que representan mejor la estructura (las menos ambiguas).</li><li>Hay espacio para todos los grados de estabilidad y obsolescencia.  Es decir, tienen que haber conjuntos de t&eacute;rminos y conceptos que permitan establecer una base s&oacute;lida, mientras que otros conjuntos de t&eacute;rminos ser&aacute;n vol&aacute;tiles y estar&aacute;n m&aacute;s enfocados a la innovaci&oacute;n. Estas capas de actividad, m&aacute;s que cohabitar, se integran y son moderadamente permeables.</li><li>Combinaci&oacute;n de lo humano y lo autom&aacute;tico. Ninguno de los extremos es adecuado.</li><li>La comunidad (y lo que comparte) determina el uso de los tags y por lo tanto es un factor importante a tener en cuenta para definir los tags.</li><li>Los tags son una fuente de innovaci&oacute;n por la capacidad de interacci&oacute;n que dan a los usuarios.<br /></li></ul><p>Desde luego, suena a algo, &iquest;no? Algunos dicen que se ha <a href="http://freerangelibrarian.com/2008/05/21/ebony-and-ivory-tagging-and-taxonomies/" title="Ebony and Ivory: Tagging and Taxonomies">reinventado la catalogaci&oacute;n</a> como quien reinventa la rueda. </p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26804/cinco-tendencias-tagging</link><pubDate>Fri, 20 Jun 08 19:01:42 +0200</pubDate></item><item><title><![CDATA[Un a&ntilde;ito]]></title><description><![CDATA[<p>Con prisas y poco tiempo para escribir, as&iacute; es la temporada que me ha acercado al primer a&ntilde;ito de vida de este blog.   Lejos queda este hito para los veteranos de la bibliogosfera como <a href="http://www.catorze.com/blog/un-lustro-son-cinco-anos/" title="Catorze: Un lustro son cinco a&ntilde;os">catorze</a> o <a href="http://feeds.feedburner.com/~r/deakialli/com/~3/251954136/" title="Deakialli: 5 a&ntilde;os de Deakialli">deakialli</a> (entre muchos otros), y bajo es mi ritmo de producci&oacute;n (esto ya lo comentaba hace seis meses, y no ha mejorado). </p><p>En demograf&iacute;a existe un <a href="../../../../../../content/view/indicadores-el-ajo-dorado" title="Sopadebits: Indicadores">indicador</a>   que sirve como referencia para conocer la calidad del sistema de salud de un pa&iacute;s.  Ese indicador se basa en el n&uacute;mero de <strong>muertes de ni&ntilde;os antes del a&ntilde;o de vida</strong>: se supone que cuanta menor es la proporci&oacute;n de muertes en esa franja de edad, mejor es la calidad asistencial en esa zona.  As&iacute; que por ahora, el ni&ntilde;o crece con ganas, aunque es algo remol&oacute;n. </p><p>Los indicadores tienen esa mezcla &uacute;nica de lo anecd&oacute;tico y lo profundo que resulta tan atractiva: ese es el objetivo que quiero para lo que escribo aqu&iacute;. No trato de exponer con precisi&oacute;n acad&eacute;mica, pero tampoco me apatece comentar cosas porque s&iacute;. Para eso me voy a tomar una cerveza o simplemente miro la tele.  Estos son mis criterios de info-sostenibilidad para este blog.</p><h2>Estad&iacute;sticas </h2><p>La frecuencia de escritura me ha llevado a un total de 66 posts.  No es para lanzar cohetes.  Hay un cierto comp&aacute;s sincopado en el ritmo de publicaci&oacute;n: entre otras cosas, se debe a un cambio de aires a nivel laboral y a todo lo que ello comporta. Tambi&eacute;n se debe a un cambio de vivienda, con el traslado... Que en estas circunstancias el blog haya sobrevivido a esto, creo que ya marca la intenci&oacute;n firme de continuar.</p><p>Esta discreta producci&oacute;n ha provocado un total de 1060 p&aacute;ginas vistas... mensuales.  Echando a un vistazo a sitios como OJD interactiva, uno baja a la realidad de golpe, pero me siento satisfecho de superar la cifra psicol&oacute;gica del milenio.</p><p>Las visitas vienen dirigidas principalmente con Google.  Digo principalmente por no decir exclusivamente, aunque Google representa un 80% al 90% de mis fuentes de tr&aacute;fico. Con eso est&aacute; casi todo dicho.</p><p>Digo casi todo porque entre los generadores de tr&aacute;fico entrante me queda comentar a <a href="http://www.human-computer.net/blog/" title="HCNet">human-computer.net (HCNet)</a>, que me gener&oacute; un tr&aacute;fico adicional muy de agradecer, especialmente por <a href="http://www.human-computer.net/blog/2008/02/21/recomendacion-sopa-de-bits/" title="HCNet - Recomendaci&oacute;n: sopa de bits">su recomendaci&oacute;n hacia este blog</a>. A corte de an&eacute;cdota, vale la pena comentar que gener&oacute; m&aacute;s tr&aacute;fico hacia <a href="http://www.marioalberich.com">marioalberich.com</a> que hacia sopadebits ;-). </p><h2>Enfoque y objetivos</h2><p>A pesar de la satisfacci&oacute;n, uno tiene una serie de objetivos para con este espacio. Algunos son de car&aacute;cter conceptual, y otros de m&aacute;s nivel operativo.</p><ul><li>El primer objetivo es <strong>cambiar la imagen del blog</strong>.  Hace m&aacute;s de cuatro meses que tengo en el caj&oacute;n una maqueta, y creo que no falta mucho para cambiarla.</li><li>Espero que el nuevo dise&ntilde;o pueda ir acompa&ntilde;ado ya por la <strong>nueva versi&oacute;n de la herramienta</strong> que llevo utilizando desde hace medio a&ntilde;o para otros proyectos. Esta herramienta es una versi&oacute;n ampliada del Framework CakePHP. Dado que este framework ya incorpora gran cantidad de funcionalidades, bibliotecas, utilidades y dem&aacute;s, me ser&iacute;a m&aacute;s f&aacute;cil <strong>incorporar categor&iacute;as, etiquetas, comentarios, demos y otras virguer&iacute;as varias</strong>. </li><li>Espero poder mostrar algunos casos de proyectos que est&eacute; llevando por ahora.  La teor&iacute;a est&aacute;  muy bien, pero si miro a mi experiencia personal, no hay nada m&aacute;s enriquecedor (ahora hablo de inform&aacute;tica) que los ejemplos y casos concretos. En esto tambi&eacute;n incluyo alguna que otra utilidad para funcionalidades b&aacute;sicas, otros archivos de descarga, etc.</li></ul><p>Se acab&oacute; el tiempo. Debo volver a lo m&iacute;o.</p><p>A modo de final lacrim&oacute;geno, s&oacute;lo me queda agradecer a quienes dedican sus ratos de lectura a mi blog y a quienes dedican sus ratos a escribir en los suyos propios, dando m&aacute;s ideas de lectura, enlaces y aprendiendo.  Esto ya forma parte de mi vida.</p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26803/un-anyito</link><pubDate>Fri, 20 Jun 08 18:50:48 +0200</pubDate></item><item><title><![CDATA[Navegaci&oacute;n social utilizando el tagging - 3]]></title><description><![CDATA[<p>En esta tercera y &uacute;ltima parte se concretan los fundamentos te&oacute;ricos y se analizan aplicaciones pr&aacute;cticas e indicadores. En una cuarta parte de la tesis se entra en detalle sobre las caracter&iacute;sticas t&eacute;cnicas del framework.</p><p>No comentar&eacute; la cuarta parte, ya que su objetivo principal es traducir el marco conceptual desarrollado hasta aqu&iacute; en un marco operativo para desarrollar una aplicaci&oacute;n inform&aacute;tica. </p> <h2>Construcci&oacute;n del marco de trabajo</h2><p>El sistema trata de actuar en las siguientes fases:</p><ul><li>Estructuraci&oacute;n de recursos individuales en base al etiquetado de recursos.</li><li>Mapeado de intereses y focos individuales.</li><li>Proposici&oacute;n de red social en base a las similitudes detectadas.</li><li>Canalizar las recomendaciones y el feed-back.<br /></li></ul><p>Uno de los temas de inter&eacute;s de este apartado es el proceso de clustering. Para ello se analiza el grado de similitud entre dos recursos A y B, que se simboliza como S<sub>AB</sub>. Se propone la siguiente f&oacute;rmula para el c&aacute;lculo de la similitud:<br />S<sub>AB</sub> = CT<sub>AB</sub> / (OT<sub>AB</sub> - CT<sub>AB</sub>)<br />Donde:</p><ul><li>CT<sub>AB</sub> = Tags que hay tanto en A como en B (interesecci&oacute;n intersecci&oacute;n) </li><li>OT<sub>AB</sub> = Todos los tags, coincidentes o no (uni&oacute;n de conjuntos)  </li></ul><p>Analizando superficialmente la f&oacute;rmula podemos detectar que puede tomar valores entre 0 y <strong>&infin;</strong>, y que el valor es mayor cuanta mayor proporci&oacute;n de tags coinciden.</p><p>Las similitudes entre cada par de recursos se puede representar una matriz NxN que permite analizar distancias y representaciones de distancias entre recursos. Esta matriz de similitudes puede poner de relieve las diferencias de criterios de etiquetado para un mismo recurso, lo que <a href="../../../../../../../content/view/reutilizar-intercambiar-intereses-tagging" title="Sopa de bits: Reutilizar e intercambiar intereses mediante el tagging">pone en riesgo la capacidad de intercambio y reutilizaci&oacute;n</a>.  En el momento que se comprueba que un recurso aislado se etiqueta de forma muy diferente, un sistema de recomendaci&oacute;n puede <strong>proponer tags que cohesionen al usuario etiquetador  </strong>dentro de un grupo de inter&eacute;s.  De este modo se aisla el <em>loosely tagging</em> que provocado por el etiquetado poco consistente de recursos.  Si el sistema proporciona estas funcionalidades y se combinan con herramientas de manipulaci&oacute;n de recursos (reetiquetado, por ejemplo), es posible pensar en llegar a un mayor grado de homogeneinizaci&oacute;n (con la motivaci&oacute;n de los usuarios).</p><p>Otro caso es el de las etiquetas como &quot;to_read&quot; o &quot;cool&quot;, que son gen&eacute;ricas y ajenas a un foco tem&aacute;tico, por lo que deben tratarse en base a <a href="../../../../../../../content/view/propuestas-sistema-tagging-2" title="Sopa de bits: Propuestas para un sistema de tagging - 2">criterios operativos y no conceptuales</a>.</p><p>Otra aproximaci&oacute;n puede ser el an&aacute;lisis de la calidad de los clusters en base a las referencias cruzadas entre usuarios.  Aunque el estudio no se plantea como objetivo la revisi&oacute;n &quot;manual&quot; de clusters, s&iacute; considera factible marcarlos para su revisi&oacute;n.</p><h2>Creaci&oacute;n de focos</h2><p>La creaci&oacute;n de focos se basa en la identificaci&oacute;n de tags m&aacute;s utilizados (por t&eacute;rmino medio) en un subconjunto de datos.  Esta mayor conccentraci&oacute;n determina el foco.  La similitud entre elementos de un cluster viene determinada por la similitud de rangos entre tags (Esto es una nota al margen: <a href="http://en.wikipedia.org/wiki/Mann-Whitney_U" title="Test U de Mann-Whitney">Test U de Mann-Whitney</a> y <a href="http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test" title="Test de Wilcoxon">Test de Wilcoxon</a>, por si tienen alguna aplicaci&oacute;n v&aacute;lida).</p><p>Para establecer una m&eacute;trica de similitud entre clusters se considera analizar los tags comunes seg&uacute;n su rango dentro del conjunto y se propone la siguiente f&oacute;rmula:</p><p>&nbsp;</p><p>S<sub>tag</sub> = [R1 / (R1-R2)] / F</p><p>Donde:</p><ul><li>S<sub>tag</sub> = Similitud entre tags.</li><li>R1, R2 = Rango del tag en los clusters 1 y 2.</li><li>F: equivale a una medida de &quot;amistad&quot; entre ambos clusters [se refiere a recursos o a miembros?]<br /></li></ul><p>Con el c&aacute;lculo del conjunto de distancias se puede obtener una medida de distancia entre clusters:</p><p>D = distancia entre clusters = OS/OT - OD/OT = (OS-OD)/OT<br /><br />Donde:</p><ul><li>OT = Total de tags principales de ambos clusters (uni&oacute;n de tags principales).</li><li>OS = Tags principales que coinciden en ambos clusters (intersecci&oacute;n de tags principales).</li><li>OD = Tags principales que no coinciden entre ambos clusters (no-intersecci&oacute;n de tags principales).<br /></li></ul><p>El valor de D puede tomar valores en el intervalo [-1,1].  Este valor se <a href="../../../../../../../content/view/normalizacion-distancias-normalizadas" title="Sopa de bits: Normalizaci&oacute;n y distancias normalizadas">normaliza</a> para que tome valores en el rango [0,1].</p><p>Se espera que un foco estable tenga un modelo de distribuci&oacute;n de tags ajustable a una ley potencial [power law]. Adem&aacute;s de ello se propone el an&aacute;lisis de sus atributos:</p><ul><li>Tama&ntilde;o: N&uacute;mero de miembros.</li><li>Amplitud (breadth): Cantidad de sub-temas (pocos tags principales conllevan un tag estrecho).</li><li>Altura (height): Ratio recursos/tags. Muchos tags/recursos conllevan un foco &quot;bajo&quot;, mientras que un ratio de pocos tags por recurso conllevan un foco &quot;alto&quot;.</li><li>Actividad: N&uacute;mero de recursos nuevos por d&iacute;a [podr&iacute;a ser generalizable a recursos por unidad temporal seg&uacute;n el entorno y el n&uacute;mero de usuarios.</li><li>Madurez: Relaci&oacute;n de todo lo anterior con la antig&uuml;edad del foco.<br /></li></ul><p>Tambi&eacute;n es importante identificar qu&eacute; tiempo consume cada foco para un usuario concreto, ya que esto tambi&eacute;n determina su importancia.</p><h2>Proposici&oacute;n de red social</h2><p>Se propone la creaci&oacute;n de una red social basada inicialmente en la interacci&oacute;n indirecta, identificando intereses comunes seg&uacute;n el etiquetado.</p><p>A trav&eacute;s de este an&aacute;lisis se estudian las relaciones entre miembros de un foco (relaciones within o intrafocales) y entre focos (relaciones between o interfocales).  Las relaciones intrafocales se consideran analizando la fortaleza de los &quot;arcos&quot; [tie strength], que se define con la siguiente f&oacute;rmula:<br /><br />TS<sub>AB</sub> = I<sub>AB</sub> &middot; 0,5 + K<sub>AB</sub> = Fortaleza de la relaci&oacute;n entre los individuos A y B.</p><p>Donde:</p><ul><li>K<sub>AB</sub> = F &middot; 0,25 + M &middot; 0,25</li><li>I<sub>AB</sub> = Intensidad de la interacci&oacute;n entre A y B.</li><li>F = Nivel de &quot;amistad&quot;.</li><li>M = Multiplexidad (n&uacute;mero de focos comunes de los individuos A y B).</li></ul><p>La interacci&oacute;n indirecta servir&aacute; de base pero deber&aacute; dejar paso a la interacci&oacute;n directa, ya que proporciona informaci&oacute;n de m&aacute;s valor al sistema.</p><p>La matriz NxN de relaciones entre individuos es asim&eacute;trica, ya que las relaciones entre individuos no necesariamente son igual de intensas de A a B que de B a A (como caso extremo encontramos el fen&oacute;meno &quot;fan&quot;).</p><p>El an&aacute;lisis del cluster de esta matriz proporciona informaci&oacute;n sobre la persona m&aacute;s &quot;central&quot; en el grupo (betweenness centraliy), de modo que se identifica al n&uacute;cleo de usuarios de referencia, que pueden servir de base (o ponderaci&oacute;n) para los mecanismos de recomendaci&oacute;n.</p><h3>Relaciones entre focos<br /></h3><p>Tambi&eacute;n se quiere evaluar la posibilidad de establecer puentes entre focos, ya que esto puede facilitar la evoluci&oacute;n de las redes sociales.</p><p>Una posibilidad es crear puentes aleatorios.  Este proceso aleatorio requiere de un feed-back del usuario que recibe la recomendaci&oacute;n.  En caso que no exista este feed-back, la recomendaci&oacute;n aleatoria desaparece.</p><h3>Sistemas de recomendaci&oacute;n</h3><p>Los sistemas de recomendaci&oacute;n funcionan de forma similar a la comparaci&oacute;n de individuos en base a tags.  Este criterio de comparaci&oacute;n proporciona un valor entre 0 y 1.</p><p>En cualquier caso, si se quiere potenciar la existencia de focos entre los puentes interfocales, los sistemas de recomendaci&oacute;n deber&aacute;n ponderar la &quot;proximidad&quot;  (valorar m&aacute;s las recomendaciones intrafocales). Sin embargo hay que tener en cuenta que las recomendaciones interfocales pueden ser favorables para que los focos con poco volumen o riesgo de isolaci&oacute;n reciban &quot;aire fresco&quot;.  Esta din&aacute;mica normalmente se establece de focos grandes hacia peque&ntilde;os, por lo que a medio-largo plazo puede llevar a procesos de fusi&oacute;n/absorci&oacute;n.</p><h3>Feed-back</h3><p>El feed-back, como la navegaci&oacute;n social, puede entenderse en dos v&iacute;as: impl&iacute;cito y expl&iacute;cito.  A nivel de un entorno como el que plantea el documento, el feedback impl&iacute;cito se gestiona a trav&eacute;s del sistema, mientras que el expl&iacute;cito lo es por el usuario.</p><blockquote>Adem&aacute;s, el feed-back directo refleja las relaciones sociales, mientras que el indirecto explicita las relaciones de inter&eacute;s.</blockquote><p>Una cuesti&oacute;n que surge en los mecanismos de feed-back es determinar qui&eacute;n debe recibir el feed-back. El sistema almacenar&aacute; la respuesta del destinatario de la recomendaci&oacute;n, pero quien realiza la recomendaci&oacute;n recibe tambi&eacute;n feed-back? Lo hace el primer miembro de la cadena de recomendaci&oacute;n? </p><p>El sistema de gesti&oacute;n del feed-back considera tres acciones indicativas: lectura, archivado y valoraci&oacute;n [reading, archiving and rating].  Para el caso de la lectura, puede ser interesantes no s&oacute;lo por el n&uacute;mero de lecturas sino por el tiempo de estas lecturas.</p><h3>Conciencia social [social awareness]</h3><ul><li>&iquest;C&oacute;mo puedo utilizar los componentes de la aplicaci&oacute;n para actuar socialmente?</li><li>&iquest;C&oacute;mo puedo hacer que la gente sea consciente que act&uacute;a socialmente?</li></ul><p>Deben existir incentivos para utilizar las capacidades de la navegaci&oacute;n social y los mecanismos de feed-back.  La comunicaci&oacute;n entre miembros de un foco es clave porque activa la memoria transactiva, lo que conlleva a una mayor cohesi&oacute;n del grupo.</p><h2>Conclusiones</h2><p>El documento contin&uacute;a entrando en detalles sobre la implantaci&oacute;n del framework para gestionar todos estos recursos.  Lo que viene despu&eacute;s de lo comentado ya son detalles t&eacute;cnicos que no vienen al caso si no se desea implementar.  Lo que reflejan los detalles de la implantaci&oacute;n son la traducci&oacute;n a lenguaje t&eacute;cnico de todo lo explicado.</p><p>En la fuente original hay una gran cantidad de gr&aacute;ficos y esquemas que ayudan a asimilar algunos conceptos importantes en la operativa, los c&aacute;lculos y las caracter&iacute;sticas de la red.  Sus referencias bibliogr&aacute;ficas tambi&eacute;n aportar&aacute;n de buen seguro detalles sobre todo lo comentado.  Tambi&eacute;n es probable que existan estudios que citen a este documento, por lo que probablemente existir&aacute;n mejoras para introducir o ampliar.</p><p>Leer documentos como este es un verdadero lujo. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26801/navegacion-social-utilizando-tagging-3</link><pubDate>Fri, 05 Sep 08 23:43:34 +0200</pubDate></item><item><title><![CDATA[Navegaci&oacute;n social utilizando el tagging - 2]]></title><description><![CDATA[<p>En esta segunda parte comento lo relacionado con los mecanismos de la navegaci&oacute;n social (tema central de la tesis) y tambi&eacute;n en los mecanismos de recomendaci&oacute;n y feed-back. </p> <h2>Navegaci&oacute;n social</h2><p>La navegaci&oacute;n social puede entenderse como el proceso de <strong>acceder a objetos de informaci&oacute;n en base a lo que los individuos cercanos han hecho</strong>.</p><p>Disponer de <em>vecinos tem&aacute;ticos</em> ayuda a reducir al m&aacute;ximo la distancia entre individuos para generar este proceso de intercambio de la forma m&aacute;s fluida posible. Adem&aacute;s, permite obtener informaci&oacute;n sobre las novedades m&aacute;s r&aacute;p&igrave;damente. </p><h3>Navegaci&oacute;n directa e indirecta</h3><p>En este aspecto, los entornos de tagging social inicialmente son entornos de navegaci&oacute;n social indirecta, ya que s&oacute;lo permiten navegar utilizando los resultados de la actividad de otros usuarios, m&aacute;s que en una relaci&oacute;n directa entre individuos. En pocas palabras: los usuarios navegan al relacionarse con la informaci&oacute;n generada por otros <strong>pero no</strong> en la relaci&oacute;n con los otros usuarios. </p><p>Estos dos tipos de navegaci&oacute;n son perfectamente compatibles, y adem&aacute;s complementarios.  Por un lado la navegaci&oacute;n indirecta no precisa de una relaci&oacute;n entre individuos, lo que favorece a iniciar una relaci&oacute;n con la informaci&oacute;n sin necesidad de conocer a terceros.  La proximidad de intereses y el intercambio de informaci&oacute;n relevante es una posible v&iacute;a para establecer relaciones con otros individuos.  En esta segunda parte entra en juego la navegaci&oacute;n directa.</p><blockquote>Dieberger (2000) y H&ouml;&ouml;k (2003a) proponen cuatro efectos de la navegaci&oacute;n social: filtrado, calidad, predisposici&oacute;n social [social affordance] y la evoluci&oacute;n de la estructura y la funcionalidad a trav&eacute;s del uso que se hace de &eacute;sta.</blockquote><p>El filtrado y la calidad obtienen un <strong>valor por el uso</strong>, no s&oacute;lo del individuo, sino del grupo.  El hecho de seleccionar el &iacute;tem y guardarlo en &quot;mis favoritos&quot; ya constituye una <strong>recomendaci&oacute;n impl&iacute;cita</strong>, de lo que se deriva un efecto de filtrado (positivo porque se recomienda) y una valoraci&oacute;n de calidad.</p><p>La evoluci&oacute;n en los <strong>patrones</strong> de navegaci&oacute;n social provocan la <strong>evoluci&oacute;n de la funcionalidad</strong>.  Por ejemplo, el etiquetado puede ir dirigido a personas concretas, por lo que este etiquetado refleja el cambio de funcionalidad del etiquetado mismo.</p><h3>Sistemas transparentes</h3><p>Seg&uacute;n Ericksom (2003), los sistemas que quieran proporcionar medios transparentes para la navegaci&oacute;n social deben proporcionar:</p><ul><li>Visibilidad (Ver a otros).</li><li>Presencia (Ser visto por otros)</li><li>Contabilidad [Accountability]: Derivada de las dos anteriores que sirve para valorar y penalizar.<br /></li></ul><h2>Recomendaci&oacute;n</h2><p>El proceso de filtrado colaborativo puede entenderse como la obtenci&oacute;n de beneficios por el consenso entre usuarios.  Este proceso de filtrado colaborativo se inici&oacute; de forma manual (seg&uacute;n Kostan 2002 puede llamarse <strong>pull-active</strong>) y actualmente se ha convertido en un proceso m&aacute;s o menos automatizado basado en mecanismos de reputaci&oacute;n que permiten generalizar el modelo en comunidades m&aacute;s numerosas.</p><p>Al introducir el proceso de filtrado autom&aacute;tico, <strong>el sistema es el que se convierte en pull-active y el usuario pasa a a ser push-active</strong>.  Por lo general se aplican estrategias mixtas para que el usuario pueda ser pull-active en un sistema push-active (que le simplifique la faena).</p><p>El proceso de filtrado colaborativo trata de conectar las valoraciones de otros usuarios con el usuario receptor.  Esta valoraci&oacute;n se pondera en base a la red social del individuo, ya sea por relaciones entre usuarios o bien por la similitud de valoraciones entre individuos.  Un ejemplo de algoritmo para el primer caso es el del <em>nearest-neighbor</em> (aplica criterios de memoria) mientras que en el segundo caso podemos hablar de <a href="http://en.wikipedia.org/wiki/Data_clustering" title="Wikipedia: Data clustering">t&eacute;cnicas de clustering</a>.</p><p>Estas medidas topan con dos aspectos complementarios de las grandes redes: escala y dispersi&oacute;n.  Por un lado es complejo ponderar y analizar grandes conjuntos de datos.  Por otro, es conocido que estos entornos se dan niveles altos de dispersi&oacute;n, por lo que el intercambio efectivo de informaci&oacute;n se da en un n&uacute;cleo muy denso, y no trasciende a los nodos m&aacute;s externos.</p><p>Para evitar el segundo aspecto, se plantea la posibilidad de incorporar mecanismos como &quot;filter bots&quot; que generen recomendaciones autom&aacute;ticas para evitar el aislamiento y el &quot;inicio en fr&iacute;o&quot; [cold start]. Por poner un ejemplo mundano, los <em>filter bots</em> hacen de anfitriones al nuevo miembro, para integrarlo en la red de intereses. Si el miembro <em>entabla relaci&oacute;n</em> con otros miembros, entra a formar parte de alg&uacute;n foco.</p><p>Sin embargo los mecanismos de recomendaci&oacute;n conlleva <strong>indicadores impl&iacute;citos</strong>, y no tanto a los <strong>expl&iacute;citos</strong>. Para poner un ejemplo de ambos tipos de indicadores, se puede ver el caso de <a href="http://www.last.fm/" title="last.fm">last.fm</a>: el indicador impl&iacute;cito es el tiempo que el usuario escucha la canci&oacute;n, mientras que un indicador expl&iacute;cito es la decisi&oacute;n del usuario de &quot;penalizar&quot; la canci&oacute;n para no volverla a escuchar.</p><p>En t&eacute;rminos generales es mucho m&aacute;s deseable una valoraci&oacute;n expl&iacute;cita, pero no es de esperar que un usuario sea proclive a realizar gran cantidad de valoraciones.  En cambio, si se pueden extraer valoraciones fiables en base a la actividad del usuario, el sistema dispondr&aacute; de mucha m&aacute;s informaci&oacute;n para recomendar mejor.</p><p>A otro nivel tambi&eacute;n se puede afirmar que las <strong>circunstancias</strong>, como la actividad y el estado de &aacute;nimo <strong>afectan a la valoraci&oacute;n</strong>, por lo que los sistemas de recomendaci&oacute;n deben tener en cuenta que existen aspectos circunstanciales que no son tan generalizables como opiniones m&aacute;s objetivas (es muy diferente un &quot;no me gusta&quot; que un &quot;ahora no me apetece&quot; o &quot;no estoy de humor&quot;).</p><p>Para que el usuario pueda analizar el valor de la recomendaci&oacute;n, es necesario que el sistema proporcione informaci&oacute;n tal como:</p><ul><li>Fecha/hora.</li><li>Usuarios con intereses similares.</li><li>Proximidad (grado de acuerdo) con tales miembros a lo largo del tiempo.</li><li>Valoraciones de &quot;los vecinos&quot;.</li><li>Consistencia/Acuerdo en las valoraciones entre vecinos a lo largo del tiempo.</li></ul><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26800/navegacion-social-utilizando-tagging-2</link><pubDate>Thu, 26 Jun 08 20:52:09 +0200</pubDate></item><item><title><![CDATA[Clustering en recursos corporativos y generalistas]]></title><description><![CDATA[<p>Pueden existir diferencias notables entre colecciones de recursos etiquetados a nivel corporativo y los que han sido etiquetado en un &aacute;mbito m&aacute;s generalista.  Actualmente, con el uso de feeds y la profusi&oacute;n de servicios de bookmarking social, puede tener lugar la golosa alternativa de fagocitar recursos ya etiquetados por otros dentro de la colecci&oacute;n corporativa. </p><p>Lo que pasa es que las caracter&iacute;sticas internas de un conjunto de recursos etiquetados pueden variar seg&uacute;n su origen, enfoque y la variedad de usuarios que lo utilizan. </p><p>El art&iacute;culo <a href="http://www.hpl.hp.com/techreports/2007/HPL-2007-190.html" title="Clustering Tags in Enterprise and Web Folksonomies">clustering tags in enterprise and web floksonomies</a> (Simpson, 2008) explora esas posibilidades considerando dos colecciones paradigm&aacute;ticas, y dos algoritmos de clustering. </p><p>&nbsp;</p> <h2>Colecciones y algoritmos</h2><p>la colecci&oacute;n corporativa generada por unos pocos usuarios (denominado Labbies), y una selecci&oacute;n de recursos etiquetados en del.icio.us, que se tomar&aacute; como muestra de colecci&oacute;n externa.</p><p>Se quiere analizar dos algoritmos que en &uacute;ltimo t&eacute;rmino deber&iacute;an permitir la selecci&oacute;n de etiquetas para facilitar la navegaci&oacute;n por los recursos.</p><p>Los dos algoritmos utilizados se denominan tag <em>co-ocurrence divisive clustering</em> y <em>betweenness centrality clustering</em>.</p><p>En el primer caso se puede entender la co-ocurrencia como una correlaci&oacute;n que hay entre dos tags (cuanto m&aacute;s coinciden en el etiquetado de recursos, m&aacute;s correlacionados est&aacute;n).  Este algoritmo tiene efectos sobre entornos tem&aacute;ticamente relacionados, y no entra a fondo en la estructura general de la colecci&oacute;n.</p><p>Al aplicar el algoritmo de la coocurrencia, las correlaciones inferiores a un determinado umbral (un valor m&iacute;nimo) quedan descartadas por ser muy d&eacute;biles.  Tras este proceso de selecci&oacute;n de relaciones, ya se puede visualizar la relaci&oacute;n entre etiquetas, e identificar los subgrupos (clusters).</p><p>En el segundo caso se aplica un algoritmo que analiza el conjunto de <strong>caminos entre nodos</strong>.  Dentro de estos caminos se seleccionan los arcos que forman parte de un mayor n&uacute;mero de <strong>rutas m&aacute;s cortas</strong>, lo que impl&iacute;citamente supone que son los m&aacute;s bien vinculados del conjunto.  Computacionalmente, este segundo algoritmo es mucho m&aacute;s costoso, aunque existen m&eacute;todos para la reducci&oacute;n de esta complejidad. A diferencia del algoritmo de coocurrencia, en este caso se prima m&aacute;s la <strong>visi&oacute;n de conjunto</strong>.</p><p>Seleccionando un tema de inter&eacute;s (en este caso, el uso del tag <em>dspace</em>) se recogen los datos de ambas fuentes.  En el caso de del.icio.us se crea un subconjunto de datos fruto de un proceso de limpieza que consiste en tareas de homonimia/sinonimia y la eliminaci&oacute;n de tags inherentemente ruidosos</p><h2>Resultados para Labbies</h2><p>Aplicando el algoritmo de co-ocurrencia se comprueba que el algoritmo prioriza la detecci&oacute;n de tags relacionados o similares.  Por lo tanto la &quot;similitud&quot; es el factor clave.</p><p>Por otro lado se identifica un conjunto de tags no afiliados completamente a un cluster, sino que m&aacute;s bien est&aacute;n a medio camino entre dos clusters diferentes.  Estos tags normalmente se identifican con t&eacute;rminos gen&eacute;ricos o ambiguos.</p><p>En el caso del algoritmo betweenness centrality se verifica que hay un grado menor de disgregaci&oacute;n (menos clusters) pero tambi&eacute;n mayor homogeneidad de tama&ntilde;o entre ellos.</p><p>No se puede determinar si hay uno de los dos algoritmos que sea m&aacute;s potente que el otro de cara a aumentar la recuperaci&oacute;n de informaci&oacute;n en este entorno corporativo.</p><h2>Resultados con del.icio.us</h2><p>Al disponer de un n&uacute;mero mayor de datos, el proceso de c&aacute;lculo y visualizaci&oacute;n de los clusters de del.icio.us fue m&aacute;s largo y complejo.</p><p>Adem&aacute;s de eso, se produce una generalizaci&oacute;n en la tem&aacute;tica de cada cluster, incluyendo relaciones que sem&aacute;nticamente est&aacute;n alejadas.</p><h3>Coocurrencia en del.icio.us</h3><p>El resultado de aplicar este algoritmo es que se generan grandes clusters, que adem&aacute;s presentan relaciones d&eacute;biles.  Esto viene dado por un efecto de &quot;coche escoba&quot;: los &iacute;tems raros se acaban afiliando a una gran masa que acaba formando un cluster principal.</p><p>Para evitar este efecto, y con la ayuda de t&eacute;cnicas de visualizaci&oacute;n se aplica un umbral de co-ocurrencia de 0,142, que genera una agrupaci&oacute;n mejorada, aunque conlleva el sacrificio de una gran cantidad de tags.</p><p>Este coeficiente demostr&oacute; ser diferente para cada conjunto de datos (Labbies, del.icio.us y del.icio.us limpiado), lo que implica una mayor generalizaci&oacute;n.</p><h3>Betweenness centrality en del.icio.us</h3><p>En el caso de este algoritmo se gener&oacute; un gran cluster que no se pudo desmembrar ni siquiera con t&eacute;cnicas de filtrado.</p><p>La principal consecuencia es que es mucho m&aacute;s complejo producir cluster de un tama&ntilde;o adecuado para ser visualizables y favorecer a la navegaci&oacute;n por tags como medio para la recuperaci&oacute;n de informaci&oacute;n. Por lo tanto el algoritmo de betweenness centrality no es la mejor opci&oacute;n para <em>descuartizar</em> colecciones de etiquetas.</p><h2>Enfoque futuro</h2><p>El principal problema de la aplicaci&oacute;n de algoritmos de clustering es que se generan grandes subgrupos.  Esto representa un problema para la navegaci&oacute;n del usuario.  Por lo tanto, es interesante profundizar en las t&eacute;cnicas de divisi&oacute;n de estos macro-clusters. Conseguirlo permitir&iacute;a una navegaci&oacute;n m&aacute;s sencilla y una interficie menos cargada de informaci&oacute;n. </p><p>No lo apuntan los autores, pero quiz&aacute; exista la posibilidad de aplicar iterativamente ambos algoritmos: betweenness a alto nivel y coocurrencia en clusters grandes).  Quiz&aacute; con una m&iacute;nima heur&iacute;stica se podr&iacute;a llegar m&aacute;s al fondo de la cuesti&oacute;n. </p><p>Otro aspecto interesante al que se apunta es a la definici&oacute;n de <strong>jerarqu&iacute;as de clusters</strong>, lo que permitir&iacute;a un primer nivel de macro-navegaci&oacute;n (en forma de &aacute;reas tem&aacute;ticas generales), y luego profundizar en clusters tem&aacute;ticamente m&aacute;s delimitados.</p><p>M&aacute;s all&aacute; del contenido del art&iacute;culo, lo m&aacute;s interesante de este tipo de estudios es comprobar hasta qu&eacute; punto afecta la selecci&oacute;n de uno u otro algoritmo para la organizaci&oacute;n de la informaci&oacute;n (y en este caso a su recuperaci&oacute;n). Como ejemplo aplicado a las colecciones de recursos, creo que es muy pedag&oacute;gico.</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26798/clustering-recursos-corporativos-generalistas</link><pubDate>Sat, 21 Jun 08 00:14:18 +0200</pubDate></item><item><title><![CDATA[Navegaci&oacute;n social utilizando el tagging - 1]]></title><description><![CDATA[<p>Hac&iacute;a algunos meses que estaba en mi lista de tareas pendientes leer y profundizar en la tesis <a rel="nofollow" href="http://bielenberg.info/thesis.pdf" title="http://bielenberg.info/thesis.pdf" class="external text">Groups in Social Software: Utilizing Tagging to Integrate Individual Contexts for Social Navigation</a> que voy a comentar.  Un vistazo a su contenido promet&iacute;a obtener una visi&oacute;n estructurada de las diferentes &aacute;reas que desembocan en el fen&oacute;meno del tagging.</p><p>M&aacute;s all&aacute; del contenido y la estructura, lo que me ha sorprendido es lo bien que se desarrolla el hilo argumental y lo atractiva que ha resultado su lectura. Trat&aacute;ndose de una tesis, es un logro.  Lo digo principalmente por la evoluci&oacute;n y transformaci&oacute;n de los argumentos que se desarrollan desde el principio y que culminan en la explicaci&oacute;n de un marco de trabajo (framework) para el etiquetado social.</p> <h2>Aspectos remarcados y descartados</h2> <p>Dada la longitud del documento, mi intenci&oacute;n ha sido extraer los aspectos esenciales y dividirlos en unos pocos posts.  Por lo tanto no pretendo realizar un resumen completo ni tampoco entrar en detalle con conceptos conocidos tanto en el mundo de la inform&aacute;tica como en el de la documentaci&oacute;n y la recuperaci&oacute;n de la informaci&oacute;n.</p> <p>Si despu&eacute;s de leer los siguientes posts hay inter&eacute;s por saber m&aacute;s, creo que el salto l&oacute;gico es al menos hojear el documento, porque realmente su autor se lo merece.</p><h2>Enfoque del proyecto</h2><p>Aunque el punto de partida es el uso de los metadatos generados por los usuarios, el objetivo se centra en analizar los m&eacute;todos por los que los usuarios con <strong>intereses, opiniones y actividades parecidas</strong> puedan identificarse y localizarse.</p><p>En un segundo nivel est&aacute; el inter&eacute;s por identificar los puntos de conexi&oacute;n entre <strong>grupos tem&aacute;ticamente distantes</strong> pero susceptibles de intercambiar informaci&oacute;n.</p><blockquote>Se debe entender el contexto como un tipo de informaci&oacute;n que caracteriza el entorno individual y social, y que puede emerger de la actividad propia de la interacci&oacute;n persona-entorno.</blockquote><p>Estos dos niveles permiten concentrar contextos individuales para conformar grupos de inter&eacute;s.</p><p>Por ello el estudio considera que contenido y contexto es inseparable, de modo que se adopta una perspectiva fenomenol&oacute;gica de la informaci&oacute;n.  Esto determina el enfoque del resto del estudio, y lo distancia de la ortodoxia de los lenguajes documentales, donde contexto y contenido se disocian.</p><h2>Semi&oacute;tica, psicolog&iacute;a u sociolog&iacute;a</h2><h3>Semi&oacute;tica: sintaxis, sem&aacute;ntica y pragm&aacute;tica</h3><p>La interpretaci&oacute;n de un signo se da a tres niveles distintos: <strong>sintaxis, sem&aacute;ntica y pragm&aacute;tica</strong> (esta &uacute;ltima ya comentada en relaci&oacute;n a la teor&iacute;a de la relevancia).  La primera establece la relaci&oacute;n entre signos; la segunda entre signos y objetos; y la tercera entre signos, objetos y el individuo.</p><p>El contexto individual es pues aplicable al &aacute;mbito de la pragm&aacute;tica, que es el nivel que describe la visi&oacute;n personal.</p><p>Tambi&eacute;n se crea un contexto compratido al mismo nivel de la pragm&aacute;tica (jerga), tras lo cual se da un salto desde la folksonom&iacute;a (centrado en los signos y la sintaxis) hacia la etnoclasificaci&oacute;n (los signos distintivos de una &quot;tribu&quot;).</p><h3>Psicolog&iacute;a: Memorias transactivas</h3><p>Seg&uacute;n Wegner (1987), la interacci&oacute;n social es la base de creaci&oacute;n  de una <strong>memoria colectiva</strong>.  Esta memoria compartida tiene lugar preferentemente en grupos cohesionados que generan &quot;etiquetas&quot; (o jergas) que sirven como denominador com&uacute;n del grupo.</p><p>Un aspecto clave en las memorias transactivas es que es necesario saber qui&eacute;n es experto en qu&eacute; para que la informaci&oacute;n fluya y se convierta en parte cohesionadora del grupo.</p><h3>Sociolog&iacute;a</h3><p>La aportaci&oacute;n en este campo viene dada por Harper (1999). Este autor analiz&oacute; el acceso, evaluaci&oacute;n y proceso de informaci&oacute;n seg&uacute;n la motivaci&oacute;n y la relevancia.</p><p>Por ejemplo, es importante valorar c&oacute;mo afecta la autoridad del responsable de la informaci&oacute;n, si hay una revision del contenido, y la actividad del revisor.</p><p>Al conocer el contexto social (motivaci&oacute;n y actividad de autores e intermediarios) en el que se ha desarrollado la informaci&oacute;n, el receptor asigna un valor a &eacute;sta, no directamente por su contenido.</p><h2>Redes sociales</h2><h3>Caracter&iacute;sticas de las redes sociales</h3><p>Despu&eacute;s de analizar los conceptos te&oacute;ricos anteriores, el autor describe los elementos y procesos que describen las redes sociales. </p><p><strong>Atributos</strong>: densidad, centralidad, estructura, y puentes/transitividad.</p><p>De lo anterior vale la pena describir brevemente la <strong>transitividad</strong>, ya que interesa su aplicaci&oacute;n en sistemas de reputaci&oacute;n social.  Se debe entender la transitividad como la m&aacute;xima &quot;los amigos de mis amigos son mis amigos&quot;.  Desde luego esta m&aacute;xima no siempre tiene lugar, ya que depende de relaciones entre nodos que previamente son muy densas (muchas relaciones entre nodos).</p><h3>Teor&iacute;as en redes sociales</h3><blockquote>Seg&uacute;n Wellman (1990) describe tres caracter&iacute;sticas para definir la fortaleza de una relaci&oacute;n: intimidad (amistad), voluntariedad de la interacci&oacute;n (interacci&oacute;n) y participaci&oacute;n en contextos sociales comunes (multiplexidad).</blockquote><p>&nbsp;</p><p>Al analizar el conjunto de las relaciones entre miembros de la red, podemos llegar a la identificaci&oacute;n de focos de inter&eacute;s.  Estos focos pueden venir determinados por cuestiones psicol&oacute;gicas, sociales, legales o actividades comunes.  La probabilidad de relaci&oacute;n de dos personas con temas en com&uacute;n es mucho mayor.  Interesa identificar estos grupos para generar un mayor grado de recomendaci&oacute;n y facilitar el intercambio de conocimiento basado en las relaciones (memorias transactivas).</p><p>El an&aacute;lisis de estos focos diferencia entre relaciones intrafocales (micro-integraci&oacute;n) e interfocales (macro-integraci&oacute;n).  Mientras que las relaciones intrafocales fortalecen los grupos tem&aacute;ticos, las relaciones interfocales favorecen la interdisciplinariedad y limitan el riesgo de isolaci&oacute;n de nodos. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26799/navegacion-social-utilizando-tagging-1</link><pubDate>Sat, 21 Jun 08 00:15:35 +0200</pubDate></item><item><title><![CDATA[Las tareas y la motivaci&oacute;n]]></title><description><![CDATA[<p>&iquest;Podr&iacute;a este ordenador valorar la motivaci&oacute;n para tu lista de tareas? La respuesta es que quiz&aacute;s s&iacute;. El sistema no se basa en analizar la velocidad del tecleo ni de tu agilidad para cambiar de ventanas con el Alt+Tab.  Eso es t&eacute;cnica, y no motivaci&oacute;n.</p><p>Por aquella m&aacute;xima que dice que <em>hay que saber escuchar el silencio</em>, parece ser que la respuesta est&aacute; en los lapsos de tiempo entre tareas, o al menos as&iacute; lo afirma el an&aacute;lisis de la gesti&oacute;n de tareas en base a la motivaci&oacute;n... </p> <h2>Fundamentos te&oacute;ricos </h2><p>Tradicionamente, el proceso de resoluci&oacute;n de tareas se ha modelizado utilizando la denominada <a href="http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_Poisson" title="Wikipedia: Distribuci&oacute;n de Poisson">Ley de Poisson</a>, y que consiste en suponer que el n&uacute;mero de eventos que suceden dentro de una unidad temporal (llamadas a un tel&eacute;fono por hora, clientes por minuto en el cajero del supermercado), con un intervalo de tiempo entre eventos que sigue una <a href="http://es.wikipedia.org/wiki/Distribuci%C3%B3n_exponencial" title="Wikipedia: Distribuci&oacute;n Exponencial">Ley Exponencial</a>.</p><p>A nivel de an&aacute;lisis del proceso, la resoluci&oacute;n de tareas se modeliza aplicando la <a href="http://es.wikipedia.org/wiki/Teor%C3%ADa_de_colas" title="Wikipedia: Teor&iacute;a de colas">teor&iacute;a de colas</a>. Lo que plantea esta teor&iacute;a es que hay uno o m&aacute;s individuos (servidores) que procesa peticiones (clientes) uno tras el otro. Hay diferentes variantes en base al establecimiento de prioridades, si dos servidores colaboran o son independientes, etc. Aunque en general, si no se comenta lo contrario, el proceso de las peticiones se realiza seg&uacute;n el m&eacute;todo <a href="http://es.wikipedia.org/wiki/FIFO" title="Wikipedia: FIFO">FIFO</a>.</p><h2>De la gesti&oacute;n de tareas a la gesti&oacute;n de la motivaci&oacute;n</h2><p>El proceso explicado hasta aqu&iacute; es todo lo matem&aacute;tico que se puede esperar. Sin embargo hay una caracter&iacute;stica de la distribuci&oacute;n exponencial que la hace <em>demasiado racional</em>: Se considera que la distribuci&oacute;n exponencial <strong>no tiene memoria</strong>, es decir, que su probabilidad condicionada (el lapso de espera hasta el pr&oacute;ximo evento sabiendo el tiempo del anterior lapso) es igual a su probabilidad incondicionada.</p><p>Utilizando t&eacute;rminos m&aacute;s llanos: un proceso o una persona que se modeliza utilizando la ley exponencial no se cansar&iacute;a, ni se aburrir&iacute;a, ni se motivar&iacute;a.  Simplemente resolver&iacute;a seg&uacute;n la <em>dificultad racional</em> de la tarea.  Esta premisa quiz&aacute; sea aplicable a entornos de trabajo con alta mecanizaci&oacute;n de tareas, pero en entornos informacionalmente intensivos, el criterio no est&aacute; tan claro.</p><p>Ante este escenario, el Art&iacute;culo <a href="http://arxiv.org/abs/0711.0741" title="Arxiv: Human Dynamics with adaptive interest">Human Dynamics with Adaptive Interest</a> propone un cambio de paradigma para encontrar soluciones m&aacute;s ajustadas a la realidad, escogiendo el modelo basado en el inter&eacute;s (<em>interest-based model</em>) enfrente al orientado a tareas (<em>task based</em>). </p><h2>An&aacute;lisis y metodolog&iacute;a<br /></h2><p> La metodolog&iacute;a seguida en el estudio es el de la simulaci&oacute;n estad&iacute;stica del proceso, introduciendo el factor de motivaci&oacute;n como una variable m&aacute;s, y extrayendo de los resultados el nuevo modelo estad&iacute;stico de periodicidad en la resoluci&oacute;n de tareas.</p><p>Este cambio de modelo matem&aacute;tico trata de analizar el cambio del concepto <em>habilidad de resoluci&oacute;n</em> enfrente a <em>motivaci&oacute;n de la resoluci&oacute;n</em> de las tareas encomendadas. Sin &aacute;nimo de grandilocuencia, se podr&iacute;a decir que este cambio equivale al paso de la inteligencia racional a la inteligencia emocional. </p><p>El resultado de la simulaci&oacute;n demuestra que las fases m&aacute;s activas se concentran mucho m&aacute;s y las inactivas se dilatan dando lugar a fases fren&eacute;ticas (con niveles intensos de interacci&oacute;n) seguidas de fases m&aacute;s largas de inactividad (poca motivaci&oacute;n). Se entiende que son <em>m&aacute;s largas</em> <strong>en relaci&oacute;n a</strong> lo que cabr&iacute;a esperar aplicando los modelos Poisson-Exponencial.</p><h2>Conclusiones</h2><p>El estudio afirma que el modelo matem&aacute;tico que se ajusta a esta nueva circunstancia es una <a href="http://es.wikipedia.org/wiki/Ley_potencial" title="Wikipedia: Ley potencial">ley potencial</a> con exponente -1 para modelizar el tiempo entre eventos.</p><p>Esta conclusi&oacute;n puede ser de inter&eacute;s para analizar los patrones de fen&oacute;menos tan dispares como la navegaci&oacute;n web, el zapping, y en general cualquier tarea que implique motivaci&oacute;n.  Dos &aacute;reas de aplicaci&oacute;n que pueden ser interesantes son el an&aacute;lisis del tiempo en estudios de interacci&oacute;n persona-ordenador (para identificar el grado de usabilidad del sistema cuando existe motivaci&oacute;n por el usuario), y a un nivel m&aacute;s concreto, los estudios de b&uacute;squeda y recuperaci&oacute;n de la informaci&oacute;n, para obtener una m&eacute;trica de motivaci&oacute;n en el tiempo entre eventos.</p><p>A pesar de lo interesante del modelo, los autores apuntan algunas limitaciones de &eacute;ste, ya que existen muchos ingredientes que intervienen en la motivaci&oacute;n humana, varios de los cuales ni siquiera se han estudiado a fondo a nivel psicol&oacute;gico. Es un estudio que llevar&aacute; tiempo, para el que las conclusiones del estudio (que adem&aacute;s son simulaciones y no un trabajo de campo)  pueden servir de base para otros an&aacute;lisis.</p><p>Volviendo a la pregunta inicial, el ordenador no tiene toda la informaci&oacute;n necesaria para poder extraer conclusiones. Por ejemplo, el ordenador no tiene informaci&oacute;n sobre si est&aacute;s hablando por tel&eacute;fono o alguien te interrumpe a mitad de una tarea. Pero podr&iacute;a empezar a disponer de indicadores objetivos (matem&aacute;ticos) que le indicaran que te est&aacute; bajando la moral.</p><p>Y... &iquest;Qui&eacute;n lo sabe? Quiz&aacute; se est&aacute; creando un nicho de mercado para salvapantallas motivadores ;-).  </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26797/tareas-motivacion</link><pubDate>Sat, 21 Jun 08 00:13:38 +0200</pubDate></item><item><title><![CDATA[Reutilizar e intercambiar intereses con el tagging]]></title><description><![CDATA[<p>De los entornos comunitarios que han surgido con la web social, quiz&aacute; el que m&aacute;s ha cuajado en todos los niveles es el del etiquetado social.  Desde luego en el sector de los profesionales de la informaci&oacute;n es un tipo de aplicaci&oacute;n que ha despertado gran inter&eacute;s.</p><p>Y tambi&eacute;n es curioso que a menudo se ha percibido como una amenaza a la profesi&oacute;n, como muchas de las mejoras de acceso a la informaci&oacute;n que han llegado con la irrupci&oacute;n de Internet (con los buscadores la frente).</p><p>Teniendo todos los usuarios al alcance de la mano estas herramientas de bookmarking social, &iquest;qu&eacute; papel juegan los bibliotecarios y documentalistas? Probablemente esto depende de la utilidad que se extraiga del servicio. Esa utilidad depende a corto plazo del uso personal, pero a largo plazo depende de lo que podamos compartir con otros.</p><p>&iquest;Compartimos mucho a trav&eacute;s de los sitios de <em>social bookmarking</em>? Un estudio sugiere que no...</p> <h2>Motivaci&oacute;n y fuentes de datos </h2> <p>El art&iacute;culo <a href="http://arxiv.org/abs/0711.4142" title="Content Reuse and Interest Sharing in Tagging Communities">Content Reuse and Interest Sharing in Tagging Communities</a> recoge datos obtenidos a partir de los sitios <a href="http://www.citeulike.org/" title="CiteULike">CiteULike</a> y <a href="http://www.connotea.org/" title="Connotea">Connotea</a>.  Ambos parecen servicios m&aacute;s orientados a ambientes acad&eacute;micos y cient&iacute;ficos. Al menos lo parecen m&aacute;s que del.icio.us.</p><p>El estudio se centra en estudiar el grado de colaboraci&oacute;n, y analiza el nivel de reutilizaci&oacute;n de los contenidos, y la compartici&oacute;n de intereses.</p><p>En el estudio se cita a (Wu et al., 2006) en referencia a los mecanismos que debe incluir una comunidad de etiquetado social para convertirse en una buena herramienta de gesti&oacute;n del conocimiento: identificaci&oacute;n de la comunidad, recomentaci&oacute;n de usuarios/documentos, y generaci&oacute;n de ontolog&iacute;a.  Tambi&eacute;n se cita el grado de colaboraci&oacute;n como una herramienta eficiente que permitir&iacute;a complementar algoritmos como el <a href="http://es.wikipedia.org/wiki/PageRank" title="Wikipedia: Pagerank">PageRank</a> para la recuperaci&oacute;n de resultados.</p><p>Las citas se hacen argumentando que el &eacute;xito de implantaci&oacute;n de estas tres herramientas depende del grado de colaboraci&oacute;n de la comunidad, por lo que el an&aacute;lisis posterior viene a deducir la viabilidad de implantaci&oacute;n de tales servicios. </p> <h2>An&aacute;lisis</h2> <p>Se extraen datos de los dos sitios indicados antes y se analizan dos m&eacute;tricas: Reutilizaci&oacute;n de contenido (en base a la repetici&oacute;n de tags y conjuntos de tags). Una vez analizada la reutilizaci&oacute;n de etiquetas, es posible analizar el grado en que dos usuarios diferentes comparten intereses.</p><p>Para realizar el an&aacute;lisis se utilizan dos f&oacute;rmulas:</p> <ul><li>Relaci&oacute;n entre usuarios y recursos (User-Item): Dados dos usuarios distintos, se obtiene un cociente entre el n&uacute;mero de recursos que ambos han etiquetado (intersecci&oacute;n) y la suma de los recursos diferentes etiquetados por cada uno (uni&oacute;n).</li><li>Relaci&oacute;n entre usuarios y etiquetas (User-tag): An&aacute;logamente al anterior ratio, se divide el n&uacute;mero de etiquetas en las que ambos usuarios coinciden (intersecci&oacute;n), por el total de etiquetas diferentes de ambos usuarios (Uni&oacute;n).</li></ul> <p>Las conclusiones que se extraen utilizando ambos indicadores es que hay pocos usuarios que compartan recursos y a&uacute;n menos que compartan etiquetas.</p><p>En referencia a compartir recursos, el estudio apunta a que es posible que los usuarios empiecen a compartir, pero que no hay acuerdo en los tags utilizados para describir un &iacute;tem. No se apuntan causas para entender el por qu&eacute; de la diferencia. </p><h2>La estructura de los intereses compartidos</h2><p>El estudio diferencia tres niveles de intercambio, que recuerdan mucho a los estudios que analizan poblaciones con estructuras relacionadas con la Power law. En general los tres niveles se establecen en base a los dos ratios anteriores, pero por lo comentado antes, es m&aacute;s significativo el ratio de compartici&oacute;n de contenidos que el de etiquetas compartidas:</p><ul><li>Una mayor&iacute;a de usuarios (53% de los nodos) aislados, sin relaci&oacute;n con otros, o al menos con preferencias muy distanciadas del conjunto. </li><li> Una cantidad considerable (15% de los nodos) de subcomunidades pr&aacute;cticamente disjuntas entre ellas. Estas comunidades se agrupan principalmente en base a los recursos etiquetados, y una &iacute;nfima minor&iacute;a por las etiquetas compartidas. </li><li>Un n&uacute;cleo denso en el que se comparte establece un ratio medio de 0,66 para los recursos compartidos y un 0,17 para los tags compartidos.</li></ul><p>El estudio avisa que estas conclusiones est&aacute;n limitadas por el hecho de haber analizado s&oacute;lo dos de las comunidades de este tipo, aunque a&ntilde;aden que la representatividad de la muestra es suficiente para un an&aacute;lisis previo como este.</p><p>La principal conclusi&oacute;n es que <strong>debido a estos bajos niveles de colaboraci&oacute;n, est&aacute; teniendo lugar un bajo nivel de aprovechamiento de la inteligencia colectiva [social knowledge] que se produce</strong>.</p><p>Finalmente, se a&ntilde;aden algunos comentarios y mejoras para las comunidades de etiquetado:</p><ul><li>La colaboraci&oacute;n no surge de forma natural, y el efecto en estas comunidades es que los usuarios de estos servicios perciben m&aacute;s utilidad en su gesti&oacute;n personal que en la capacidad de agregaci&oacute;n de conocimiento.</li><li>Los sistemas de recomendaci&oacute;n se basan en la similitud de intereses entre usuarios, pero dado que hay poco nivel de similitud en el uso de las etiquetas y (a menor nivel) de recursos, el potencial de los sistemas de recomendaci&oacute;n en las comunidades analizadas es bajo. En cambio el grado de &eacute;xito de los sistemas de recomendaci&oacute;n llegan al 90% cuando se restringe las predicciones a &iacute;tems reutilizados. </li><li>Se comentan los sistemas de reputaci&oacute;n, que tambi&eacute;n se ven afectados debido a que la dispersi&oacute;n comentada favorece a la infiltraci&oacute;n de contenido pernicioso, que son dif&iacute;cilmente detectables debido a la poca densidad de relaciones de este entorno social (se asemeja al feudalismo informacional). Por otro lado, no es posible establecer una reputaci&oacute;n para los usuarios que no tienen un m&iacute;nimo nivel de reutilizaci&oacute;n de recursos.</li></ul><h2>Tagging disperso para profesionales de la informaci&oacute;n</h2><p>Es interesante comprobar que las circunstancias de aislamiento se pueden producir en un entorno cl&aacute;sico de organizaci&oacute;n de la informaci&oacute;n y en una red social de etiquetado.  A pesar que <a href="http://www.terremoto.net/tipologias-y-estlos-en-el-etiquetado-social/" title="Tipolog&iacute;as y estilos en el etiquetado social">hay una gran variedad de estilos de etiquetado</a>, hay un espacio en la oferta de servicios para usuarios que quieren aprovechar el esfuerzo de otros e integrarse sin la necesidad de ser pioneros. Incluso es importante entender que muchos usuarios ni siquiera se dan cuenta del potencial de compartir y analizar lo que otros indexan.<br /> </p><p>En ese gran espacio entre el n&uacute;cleo, las subcomunidades y los usuarios usuarios aislados, es posible que el profesional de la informaci&oacute;n pueda encontrar muchos espacios-nicho en los cuales analizar los usuarios con intereses cercanos a su nicho, agregarlos, seleccionar los recursos y reetiquetarlos para hacerlos llegar a otros usuarios.</p><p>El profesional se puede convertir en un catalizador de la comunidad (estoy seguro que la expresi&oacute;n no es nueva). Sus etiquetas pueden tener una estructura m&aacute;s est&aacute;ndar. Esta estandarizaci&oacute;n puede servir de puente para conectar las etiquetas de las fuentes y los destinatarios, explicitando a&uacute;n m&aacute;s el grado de reutilizaci&oacute;n.</p><p>El valor a&ntilde;adido es alto: </p><ul><li>S&oacute;lo buscas la mitad del tiempo, y parte de la otra mitad se dedica a evaluar los contenidos recibidos.</li><li>Si los recursos encontrados no convencen, es probable que aporten ideas sobre qu&eacute; buscar y qu&eacute; no. </li><li>El profesional puede actuar como referencista para dirigir al usuario hacia otros miembros de la comunidad que tengan intereses o recursos cercanos al que busca.</li></ul><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26796/reutilizar-intercambiar-intereses-tagging</link><pubDate>Fri, 20 Jun 08 18:44:46 +0200</pubDate></item><item><title><![CDATA[patrones organizativos y gesti&oacute;n de informaci&oacute;n]]></title><description><![CDATA[<h2>Punto de partida </h2><p>Una de las cosas que m&aacute;s tranquilizan al iniciar un proyecto de desarrollo es tener a mano los resultados de experiencias anteriores.  Da igual si se consigue mediante el benchmarking o con el intercambio de experiencia entre profesionales: conocer un caso de &eacute;xito es importante porque permite descartar cien casos de no-&eacute;xito (que no fracaso). </p><p>Cuando eso no se tiene en el entorno pero se analizan varios proyectos con caracter&iacute;sticas comunes, es  probable que se puedan identificar patrones organizativos entre varias organizaciones diferentes. </p><p>Salvando las diferencias de tama&ntilde;o o volumen de negocio, los productos o servicios determinan parcialmente la organizaci&oacute;n interna. Ello se debe tanto a las caracter&iacute;sticas del producto como a los recursos humanos especializados en esa tarea, las condiciones de producci&oacute;n, y las estrategias comerciales de cada sector.</p><p>A pesar de ello, acostumbra a haber un cierto grado de libertad en la creaci&oacute;n de la estructura y el organigrama, y en cualquier caso tambi&eacute;n depende de din&aacute;micas internas (econ&oacute;micas, sociales y de poder) que determinan siempre diferencias. </p> <h2>Patrones organizativos y de comportamiento<br /></h2><p>En el caso de organizaciones con un perfil muy centrado en el tratamiento de la informaci&oacute;n, acostumbran a tener algo en com&uacute;n: producen, capturan, filtran y ofertan informaci&oacute;n. No lo hacen como herramienta de soporte a su negocio, sino <strong>como fuente de negocio</strong>. Aunque se puedan dedicar a sectores muy distintos, comparten esa caracter&iacute;stica en com&uacute;n.</p><p>Uno de los aspectos que m&aacute;s ha variado en los &uacute;ltimos tiempos es la percepci&oacute;n del potencial de las TIC para conseguir una mayor productividad, cuando antes preponderaba la mejora de imagen y la sensaci&oacute;n de mayor control interno.</p><p>Eso supone un cambio de mentalidad respecto a lo que hab&iacute;a hace cinco a&ntilde;os. Por entonces se pod&iacute;a empezar un proyecto y saber que el cliente lo quiere &ldquo;porque hay que hacerlo&rdquo; o &ldquo;porque toda la competencia lo est&aacute; haciendo&rdquo;. No es raro ese planteamiento, lo que sucede es que no favorece a una implicaci&oacute;n de la gerencia. El mayor riesgo del proyecto era morir por inanici&oacute;n, si es que llegaba a finalizarse.</p><p>Ahora eso ha cambiado, y cada vez es m&aacute;s transparente la relaci&oacute;n entre los objetivos de negocio y las implantaciones TIC. No trato de generalizar, y adem&aacute;s estoy convencido que en esa percepci&oacute;n interviene las experiencias que he tenido. Pero s&iacute; es cierto que cuanto m&aacute;s proyectos salen a la luz, m&aacute;s se empieza a perfilar el por qu&eacute; de los beneficios (en un sentido amplio) de la introducci&oacute;n de la empresa en la Red.</p><p>Por muy abstracto que sea un concepto, siempre se echa mano de casos concretos para poder fijar mejor las ideas. Para el objetivo actual, las organizaciones que tengo en mente son organizaciones que pueden dedicarse a producir informaci&oacute;n interna, pero que tambi&eacute;n se dedican a capturar, filtrar y reprocesar informaci&oacute;n externa para ofrecer productos informacionales a sus clientes.</p><p>Uno se da cuenta que existe una coincidencia de patrones en la forma de producir informaci&oacute;n, seleccionar las fuentes, filtrarlas, y ofertarlas. Esas coincidencias no parecen ser superficiales:</p><ul><li>Problem&aacute;tica com&uacute;n al capturar y procesar informaci&oacute;n. Esto se refiere tanto a temas relacionados con el copyright, como temas t&eacute;cnicos (formatos y protocolos principalmente). La fuentes externas de informaci&oacute;n no son necesariamente de la web abierta, ya que tambi&eacute;n pueden proceder de fuentes de pago, etc. Pero las fuentes m&aacute;s complejas de tratar son las derivadas de la web social abierta o web-2.0. Se podr&iacute;a resumir que <strong>captar, procesar y adecuar informaci&oacute;n externa consume una gran cantidad de recursos</strong>.<br /></li></ul><ul><li>Fruto de esta heterogeneidad en las fuentes, acostumbra a existir un conflicto entre la asignaci&oacute;n de las tareas autom&aacute;ticas y las manuales en el proceso de filtrado, selecci&oacute;n y procesado. <strong>Es clave encontrar un equilibrio entre la eficiencia y la calidad en el filtrado de la informaci&oacute;n</strong>. Como en cualquier sistema de informaci&oacute;n hay muchas tareas automatizables, pero no existe la varita m&aacute;gica. Hay que valorar cada fuente, la relaci&oacute;n ruido-se&ntilde;al y el coste de ese filtrado en relaci&oacute;n al beneficio.</li></ul><ul><li>La forma de trabajar, o al menos en c&oacute;mo ha tenido que variar para adaptarse al nuevo entorno. Quiz&aacute; por ser informaci&oacute;n el principal activo, <strong>se tienen los ojos m&aacute;s abiertos hacia afuera de la organizaci&oacute;n</strong>.  Y tambi&eacute;n porque se toma conciencia de lo importante de mantener una pol&iacute;tica de acceso a la informaci&oacute;n adecuada.</li></ul><ul><li>El crecimiento de esta actividad viene acompa&ntilde;ado de un <strong>conflicto a nivel de recursos humanos</strong>: no tanto por capacidades del personal interno, sino <strong>por captar nuevos profesionales capacitados para el nuevo enfoque</strong>. En proyectos y portales web, es muy complejo encontrar personas todoterreno con conocimientos (no digo que dominen, pero s&iacute; que se defiendan) sobre XHTML y CSS, bases de datos, que escriban bien, sepan organizar la informaci&oacute;n y tengan un m&iacute;nimo gusto para el grafismo y la estructura visual, etc. S&oacute;lo dominando uno o dos de estos campos, y mantener una conversaci&oacute;n m&iacute;nima sobre el resto, un profesional as&iacute; tiene trabajo asegurado.</li></ul><ul><li>El abrirse a la Red como fuente de informaci&oacute;n y di&aacute;logo despierta el <strong>inter&eacute;s por incluir novedades de la web social en su modelo organizativo</strong>, tanto a nivel operativo como de negocio. En un momento u otro los miembros de estas organizaciones prueban nuevos servicios y extraen ideas interesantes para su tarea diaria o su relaci&oacute;n con los clientes.</li></ul><ul><li>Coincidencia en las caracter&iacute;sticas de los <strong>esquemas de pago para sus modelos de negocio</strong> con productos documentales. Se barajan estrategias que van desde el pago por elemento (<em>pay per view</em>) hasta el acceso por subscripci&oacute;n, que incluyen servicios de valor a&ntilde;adido, e incluso la incrustaci&oacute;n de contenidos en los portales corporativos de los clientes. Sobre esto s&oacute;lo apuntar las posibilidades que brindan los micropagos, aunque por la tarificaci&oacute;n y los m&aacute;rgenes que actualmente me constan, me parece un timo. </li></ul><p>Cada cual habr&aacute; identificado sus patrones organizativos, y probablemente exista gran cantidad de literatura al respecto. Pero me ha parecido interesante aportar un granito de arena en base a mi experiencia profesional.</p><p>En base a esta informaci&oacute;n he indagado sobre la estructura interna de la organizaci&oacute;n, la forma como se relaciona cada elemento con el conjunto, y el papel de la Red en todo esto. </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26794/patrones-organizativos-gestion-informacion</link><pubDate>Sat, 21 Jun 08 00:11:11 +0200</pubDate></item><item><title><![CDATA[Empresas informacionales: del 2003 al 2008]]></title><description><![CDATA[<p>A partir de lo comentado en el <a href="../../../../../../content/view/patrones-organizativos-gestion-informacion" title="Sopa de bits: patrones organizativos y gesti&oacute;n de informaci&oacute;n">post sobre patrones organizativos para mejorar la gesti&oacute;n de la informaci&oacute;n</a>, he buscado fuentes b&aacute;sicas para ubicar esos patrones en la estructura interna de las empresas.</p><p>Aunque sigue siendo v&aacute;lida la distinci&oacute;n entre informaci&oacute;n ambiental, interna y corporativa, esos l&iacute;mites cada vez se difuminan y se equilibran m&aacute;s.  No s&eacute; si <a href="http://es.wikipedia.org/wiki/Osmosis" title="Wikipedia: Osmosis">&oacute;smosis</a> ser&iacute;a el t&eacute;rmino m&aacute;s descriptivo de este fen&oacute;meno, en cualquier caso se acerca bastante: la informaci&oacute;n como solvente es el agente que equilibra el exterior y el interior de la empresa-c&eacute;lula.</p><p>Despu&eacute;s de ese proceso de introducci&oacute;n de los nutrientes necesarios, la c&eacute;lula debe saber procesarlos, para lo cual es imprescindible disponer de <a href="../../../../../../content/view/cadena-trofica-fagocitar-rumiar-digerir-informacion" title="Sopa de bits: rumiar">los medios necesarios para digerir</a>...</p> <p>El art&iacute;culo &ldquo;<a href="http://www.uoc.edu/dt/20138/index.html" title="La gesti&oacute; del coneixement en la nova economia">La gesti&oacute; del coneixement en la nova economia&rdquo;</a> <a href="http://www.uoc.edu/dt/20133/index.html" title="La gesti&oacute;n del conocimiento en la nueva econom&iacute;a">[en castellano</a>](2003) muestra como conclusi&oacute;n la creaci&oacute;n de los siguientes elementos clave dentro de las empresas dedicadas intensivamente al conocimiento</p><ul><li><strong>Servicio de Informaci&oacute;n corporativa (EIS)</strong>: Se trata de un sistema que debe proveer a la organizaci&oacute;n de toda la informaci&oacute;n de car&aacute;cter ambiental. <strong>El servicio de informaci&oacute;n corporativa incluye la informaci&oacute;n con una estructura documental</strong> (no se trata de datos data-centric sino document-centric).  En general se podr&iacute;a afirmar que este bloque es el que se refiere a lo conocido como Inteligencia competitiva.</li><li><strong>Repositorio de datos (Data warehouse)</strong>: Repositorio de <em>datos estructurados</em> dentro de la organizaci&oacute;n que pueden ser objeto de an&aacute;lisis y de soporte a la toma de decisiones.  Se puede tratar mayoritariamente de datos generados internamente (controles de calidad, cifras de ventas de productos, precios...) pero tambi&eacute;n pueden incluirse datos generados externamente (estad&iacute;sticas de un sector, mercado de valores, etc.). Por lo general se pueden aplicar t&eacute;cnicas de <strong>data mining</strong> para <strong>organizar y estructurar los datos </strong>del modo m&aacute;s rentable posible.</li><li><strong>Gestor de la relaci&oacute;n con los clientes (CRM)</strong>: Es la aplicaci&oacute;n que aglutina toda la documentaci&oacute;n sobre las <em>acciones comerciales</em>, informaci&oacute;n <strong>sobre los clientes</strong>, estudios de satisfacci&oacute;n y mercado, y tambi&eacute;n oportunidades de negocio. Por lo general se debe entender como un sistema de <strong>recopilaci&oacute;n del feed-back del entorno</strong> en referencia a los productos o servicios que la organizaci&oacute;n ofrece.</li><li><strong>Entorno de conocimiento (Knowledge Space)</strong>: Se trata de un dep&oacute;sito de documentos o archivos utilizados por la empresa, ya sean generados interna o externamente a esta.  Se supone que en la organizaci&oacute;n de este entorno la fuente constar&aacute; de alg&uacute;n modo. Este espacio ha recibido otros nombres como <em>knowledge base</em>, aunque en general se puede entender como un sistema de organizaci&oacute;n, almacenamiento y  recuperaci&oacute;n de la informaci&oacute;n (en forma de documentos).</li><li><strong>Red de intercambio (Sharing Network)</strong>: Se trata de un espacio de intercambio de ideas entre miembros de la organizaci&oacute;n. Principalmente se habla de medios para comunicar, o compartir.<br /></li><li><strong>Cultura organizativa innovadora:</strong> Se trata de el nexo de uni&oacute;n entre los cuatro aspectos anteriores.  Lo considero imprescindible, pero dado que profundizar en estos aspectos est&aacute; lejos del inter&eacute;s de este post, lo indicar&eacute; aqu&iacute; sin entrar m&aacute;s a fondo.</li></ul><p>El esquema que se presenta en ese documento tiene un enfoque principalmente conceptual, por lo que no establece el contexto ni la operativa de la relaci&oacute;n entre los anteriores elementos.</p><p>Tratando de entender m&aacute;s a fondo la operativa de una organizaci&oacute;n eficiente en la gesti&oacute;n de la informaci&oacute;n he reorganizado el esquema y lo he ampliado incorporando otros &iacute;tems de su entorno para contextualizarlo mejor.</p><p>Con el esquema ampliado me planteo incorporar los siguientes elementos:</p><ul><li>La forma que presentan las <strong>fuentes externas</strong>, tanto si se refieren a las caracter&iacute;sticas de los clientes como del resto del mercado y el entorno.</li><li>Los <strong>puntos de contacto </strong>entre los cuatro elementos anteriores.</li><li>Su <strong>relaci&oacute;n con las funciones de soporte</strong> (funciones transversales que se pueden encontrar en cualquier empresa) <strong>y de negocio</strong> (las funciones que generan valor y que se centran en los objetivos de la organizaci&oacute;n).<br /></li></ul><p>Siguiendo estas premisas, he desarrollado un esquema que trata de seguir siendo del a&ntilde;o 2003:</p><p align="center">&nbsp;</p><div style="text-align: center"><img src="/extranet/gallery/download/4476" alt="Esquema 2003" title="Esquema 2003" width="468" height="300" /></div><div align="justify" style="text-align: center"> </div> <p>El esquema es una aproximaci&oacute;n a algo m&aacute;s concreto que el esquema del art&iacute;culo indicado.  Desde luego, cuando se trata de implantar un sistema corporativo de informaci&oacute;n, las cosas no son as&iacute; de f&aacute;ciles.   Para el objetivo de este post es suficiente, pero desde luego habr&aacute; que seguir profundizando.</p><p>Los datos obtenidos por el EIS pueden provenir de fuentes ya estructuradas, pero tambi&eacute;n obtenidos por procesos de <strong>crawling</strong>, capturando agregadores RSS o parecido.  Se trata de recoger informaci&oacute;n sobre todos los factores susceptibles de alterar la adaptaci&oacute;n al entorno. Son documentos valorados por su contenido.</p><p>Los datos recopilados por el EIS se almacenan en el repositorio de documentos y archivos (<em>knowledge space</em>). Para facilitar la recuperaci&oacute;n posterior interesa poder aplicar herramientas documentales como tesauros o taxonom&iacute;as.</p><p>De forma complementaria, el repositorio de datos almacena informaci&oacute;n sistem&aacute;tica, principalmente datos tabulares. Se trata de una fuente que requiere un tratamiento previo antes de generar informaci&oacute;n.</p><p>Teniendo en cuenta el esquema datos-informaci&oacute;n-conocimiento, puede parecer que el repositorio de datos est&aacute; un paso por debajo del repositorio de documentos, pero es importante, porque es una fuente de datos primarios, de la que <strong>se pueden derivar documentos primarios</strong> con un valor elevado, a cualquier nivel de la organizaci&oacute;n.</p><p>La mayor&iacute;a de la informaci&oacute;n recopilada por el CRM se almacena en el data warehouse, ya que se trata de an&aacute;lisis de satisfacci&oacute;n, compra de productos, etc.  Toda esta informaci&oacute;n tiene un formato estructurado y por ello almacenable en un repositorio de datos. </p><p>Siempre hay informaci&oacute;n de car&aacute;cter cualitativo que debe ser almacenada en forma de documentos, ya sean en forma de art&iacute;culos, transcripciones de focus groups o informes sobre reclamaciones y quejas.<br />Quiz&aacute; lo menos definitivo sea la forma como se conecta el knowledge space, el data warehouse y el sharing network con las funciones de soporte y de negocio.  En general todos los datos se utilizan a nivel de las funciones de soporte.</p><p>Este esquema sigue estando anclado en un esquema organizativo poco orientado al trabajo colaborativo y en red.  Y probablemente ese nuevo modelo de trabajo y organizaci&oacute;n puede aportar mucho al modelo tradicional. </p><h2>El cambio del modelo organizativo</h2><p>Tratando de mantener al m&aacute;ximo los &iacute;tems del esquema anterior, he tratado de aproximar lo que podr&iacute;a ser la evoluci&oacute;n hacia lo que podr&iacute;a llamarse (perd&oacute;n por la pomposidad) la empresa 2.0.</p><p>No se trata de un esquema completo, sino m&aacute;s bien centrado en el papel de la gesti&oacute;n de la informaci&oacute;n y el conocimiento en la organizaci&oacute;n:</p><p align="center">&nbsp;</p><div align="justify" style="text-align: center"><img src="/extranet/gallery/download/4477" alt="Esquema 2008" title="Esquema 2008" width="452" height="176" /></div><div style="text-align: center"> </div><p align="center">El esquema deja bastante claro lo que bajo mi punto de vista ha primado:  el intercambio y la colaboraci&oacute;n.  Los contenidos forman parte imprescindible del conjunto, pero el potencial de la colaboraci&oacute;n en la empresa es mucho m&aacute;s alto. Incluso el CRM debe compartir protagonismo en la relaci&oacute;n con el cliente. </p><p align="center">La informaci&oacute;n siempre sufre del mal de obsolescencia, mientras que el intercambio tiene un factor inherente de actualidad. Situar en el centro de la organizaci&oacute;n el proceso de intercambio permite crear un ecosistema donde compartir equivale a reducir tiempo (filtrar la informaci&oacute;n externa, por ejemplo). Pero adem&aacute;s permitir&iacute;a detectar la informaci&oacute;n que se est&aacute; quedando obsoleta o la que tiene un peso central.</p><h2>Conclusiones </h2><p align="center">En todo este esquema s&oacute;lo a&ntilde;adir&iacute;a un concepto: la cadena de aprovisionamiento o <em>supply chain</em>. El <a href="http://en.wikipedia.org/wiki/Supply_chain_management" title="Wikipedia: Supply Chain Management">Supply Chain Management</a> fue uno de esos t&eacute;rminos que tanto sonaron en la primera burbuja. Al margen de esa euforia, es un t&eacute;rmino que lleg&oacute; para quedarse: s&oacute;lo hay que ver el papel tan importante que juega la log&iacute;stica en la actualidad.  Probablemente las empresas centradas en la informaci&oacute;n puedan extraer ideas de todo lo que supone la log&iacute;stica.  </p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26795/empresas-informacionales-2003-2008</link><pubDate>Sun, 07 Sep 08 22:45:22 +0200</pubDate></item><item><title><![CDATA[Aspectos clave del 2008 - Publicidad]]></title><description><![CDATA[<p>No ha sido el motor pero quiz&aacute;s si el lubricante. El modelo de los ingresos por publicidad ha sido el m&aacute;s utilizado y quiz&aacute; la esperanza m&aacute;s cercana de ingresos para muchas startups de la web 2.0.</p><p>Con Google y su Adwords (y luego doubleclick) como l&iacute;der en  el sector, y Yahoo! (habr&iacute;a que decir ya Microsoft?) rezagado; con Facebook y su proyecto Beacon, el papel de la publicidad no parece ser el de un actor secundario. </p><h2>Los conceptos b&aacute;sicos<br /></h2><p>No me puedo reconocer como un experto en el tema.  Por suerte hay bastantes documentos disponibles, por ejemplo la <a href="http://www.iab.net/iab_products_and_industry_services/1421" title="IAB - Standards, Guidelines &amp; Best Practices">Internet Advertising Bureau</a>, donde se puede encontrar referencias para temas b&aacute;sicos como los conceptos elementales, hasta las t&eacute;nicas de mejora del rendimiento de publicidad en medios m&oacute;viles, v&iacute;deos, etc.</p><p>Los conceptos b&aacute;sicos de la publicidad en Internet parten de lo que ya existe, aunque al ser un canal diferente y tener medios diferentes ha sido necesario adaptarlo a un entorno interactivo, para pasar de la difusi&oacute;n a la conversaci&oacute;n.</p> <br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26793/aspectos-clave-2008-publicidad</link><pubDate>Fri, 20 Jun 08 18:55:14 +0200</pubDate></item><item><title><![CDATA[Cuatro aspectos clave para el 2008 (I)]]></title><description><![CDATA[<p>Ahora que ya ha pasado la esperanza de los Reyes Magos para que nos traigan el regalito esperado, quiz&aacute; sea un buen momento para evaluar tendencias y reconocer factores clave.</p><p>Limitar&eacute; mi perspectiva al munto de la Red, y especialmente a la tecnolog&iacute;a web. La selecci&oacute;n tiene un claro hilo conductor y estoy convencido que sufre el sesgo de mi percepci&oacute;n, por eso cada cual puede hacer su lista.</p><p>En realidad me interesa especialmente todo lo que est&aacute; por venir en lo referente a modelos de negocio e ingresos por servicios. El 2008 se prepara como el a&ntilde;o en el que se empiece a vislumbrar lo que dar&aacute; ingresos, y lo que no. Tanto proyecto nuevo y tanta dispersi&oacute;n no tiene sentido. Si Internet es una aldea, est&aacute; saturada de actividad comercial, y aunque el tiempo de atenci&oacute;n de los internautas haya aumentado, no creo que haya muchos que se pasen el d&iacute;a mirando las novedades. </p><p>Bajo esa visi&oacute;n, los puntos clave que yo percibo son: Identidad, Redes Sociales, Microformatos y Publicidad. He optado por esta selecci&oacute;n teniendo en cuenta no s&oacute;lo la cantidad de informaci&oacute;n vertida sobre estos temas, sino lo esencial que tienen &eacute;stos para modelos de negocio derivados.</p><p>Comentar&eacute; los cuatro temas en cuatro posts separados, as&iacute; la lectura se har&aacute; m&aacute;s llevadera... </p> <h2>Identidad</h2> <p>Cuando todas las partes est&aacute;n interesadas en contactar abiertamente, m&aacute;s vale ponerle cara a la gente. Internet seguir&aacute; siendo un espacio de fantaseo y creaci&oacute;n de identidades irreales, pero a esto se deber&aacute; a&ntilde;adir su consolidaci&oacute;n como canal de difusi&oacute;n de la identidad personal y profesional.</p> <p>En los &uacute;ltimos a&ntilde;os han surgido varias tecnolog&iacute;as y est&aacute;ndares relacionados con la identidad del individuo en la red. Y quiz&aacute; sea importante diferenciar entre dos &aacute;reas de creaci&oacute;n de identidad en la red: la parte de la identidad que se forja para el individuo mismo, y la que se crea para el exterior. </p> <h3>Identidad personal &quot;para m&iacute;&quot; </h3> <p>Para la primera parte, la clave es que el usuario pueda crear una identidad disponiendo de una especie de <em>campo base</em>: un espacio localizado en la red (un nodo) que le permita unificar toda la actividad que desarrolla en la red.  Se trata de un espacio en el que se puede centralizar esa gesti&oacute;n de la identidad digital.</p> <p>Esta gesti&oacute;n se traduce generalmente en la gesti&oacute;n de los siguientes recursos:</p> <ul><li>la creaci&oacute;n de un curr&iacute;culum o presentaci&oacute;n personal, <br /></li><li>la <a href="http://www.error500.net/evolucion-blogging-convergencia-redes-sociales" title="La evoluci&oacute;n del blogging y la convergencia con las redes sociales. Tendencia 2008">producci&oacute;n de contenidos propios</a>, <br /></li><li>Herramientas de gesti&oacute;n de la informaci&oacute;n personal (tareas, documentos personales, calendario, anotaciones, etc.)<br /></li><li>selecci&oacute;n y agregaci&oacute;n de informaci&oacute;n procedente de fuentes externas, y<br /></li><li>Acceso a los medios de comunicaci&oacute;n necesarios para contactar con aquellos que nos interese, <a href="http://blogoscoped.com/archive/2007-12-28-n34.html" title="Google Blogoscoped: My social network">formen parte o no de nuestra red social</a>.</li></ul> <p>Independientemente del entorno en el que se gestione esta identidad (no s&oacute;lo estoy pensando en el software de redes sociales), el tipo de informaci&oacute;n var&iacute;a poco. Lo que s&iacute; var&iacute;a es el uso que se hace: es manifiesto que hay diferencias notables de objetivos entre la gesti&oacute;n para usos profesionales o para ocio. </p> <p>Unificar en un solo entorno nuestras gestiones e informaciones supone un aumento de potencial en cualquier sentido. Pero en cualquier caso permite que personas ajenas nos identifiquen (hasta cierto punto) con ese espacio.</p> <h3>Identidad persona &quot;para los otros&quot; </h3> <p>A partir de ese punto, el aspecto clave es garantizar a los dem&aacute;s que <em>yo soy quien digo que soy</em>. En este punto entramos en el mundo de la certificaci&oacute;n, la firma electr&oacute;nica o mecanismos de autenticaci&oacute;n. Y entre ellos destaco a <a href="http://openid.net/" title="OpenID">OpenId</a>.</p> <p>OpenId es un sistema distribuido para la gesti&oacute;n de la identidad digital <em>para los otros</em>. El objetivo principal es poder identificarse en varios portales y sitios distintos sin tener que crear continuamente nuevos usuarios con sus consabidas contrase&ntilde;as y todo lo dem&aacute;s. </p> <p>Creo que la creaci&oacute;n de una identidad en un solo sitio que se <em>difunda</em> en caso de necesidad es una herramienta muy potente si queremos disponer de un entorno personal de gesti&oacute;n de la identidad.  OpenId proporciona un punto de acceso a la identidad personal, mientras que el sistema en el que trabaje la persona deber&aacute; poder incorporar sistemas de <em>entrada de informaci&oacute;n</em>.</p> <p>Lo anterior incluye utilizar APIs de servicios en los que el usuario se ha registrado con OpenId. Por otro lado, aparte de los contenidos que el usuario ha generado en servicios externos, tambi&eacute;n est&aacute;n otro tipo de registros de actividad de &eacute;ste usuario en la red: por ejemplo, aportaciones en foros o comentarios en blogs, que son informaciones dispersas. &iquest;No estar&iacute;a bien poder mostrar estos datos en nuestro sitio?</p>  <h3>La s&iacute;ntesis: evoluci&oacute;n hacia la red social</h3>  <p>En la s&iacute;ntesis de los dos movimientos (<em>para m&iacute;</em> y <em>para los dem&aacute;s</em>) se puede localizar el concepto de red social.  Y de ese concepto nace el software de redes sociales, que presenta una tendencia de crecimiento notable para el 2008.   <br /> </p> <p>Como apunte final, s&oacute;lo comentar un aspecto ligado a la identidad: el uso de la informaci&oacute;n sobre la actividad del usuario empieza a introducir cuestiones relativas a privacidad. Alegorizando un poco, los espacios como el software de redes sociales han pasado de alquilarnos una habitaci&oacute;n donde invitar a los contactos, a ofrecernos una mesa en pleno espacio p&uacute;blico, con un micr&oacute;fono en el florero de la mesita, y con vendedores ambulantes alrededor. La combinaci&oacute;n de <a href="http://elprincipiodeincertidumbre.net/blog/2007/12/09/datos-usuarios-y-redes-sociales/" title="Datos, usuarios y redes sociales">datos usuarios y redes</a> promete dar para mucho. </p><p>&nbsp;</p><p>&nbsp;</p><br/><p>Este contenido ha sido publicado en <a href="http://sopadebits.com/">sopa de bits</a>. Sopa de bits es el blog de <a href="http://marioalberich.com/">Mario Alberich</a></p>]]></description><link>http://sopadebits.com/extranet/content/permalink/26788/aspectos-clave-2008-identidad</link><pubDate>Sat, 21 Jun 08 00:10:07 +0200</pubDate></item><item><title><![CDATA[Aspectos clave 2008 - Redes Sociales]]></title><description><![CDATA[<p>Como continuaci&oacute;n de la creaci&oacute;n de la identidad, comento el segundo punto, relativo a las redes sociales... </p><p>&nbsp;</p> <h2>Redes sociales</h2> <p>Siempre han estado ah&iacute;, pero nunca como ahora hab&iacute;an tenido tanto protagonismo. Forman parte de la identidad de los individuos y en cierto modo interact&uacute;an con esa identidad. Lo que el PageRank trat&oacute; de identificar en los contenidos, las plataformas redes sociales tratan de deducirlo de sus miembros.</p> <p>Se puede entender a la red social como algo ajeno a Internet. Mi red social existe, est&eacute; o no en mi cuenta de Gmail, Facebook o cualquier otra plataforma.</p>  <p>La combinaci&oacute;n red-plataforma es algo clave