Sopa de bits

Reflexiones sobre la información

By

Aspectos clave 2008 – Microformatos


Microformatos

Como extensión a los dos artículos anteriores, hay otro aspecto al cual habrá que hacer un seguimiento a lo largo de este año. Se trata quizá del escalón más fácil de subir entre la web "1.0", la web social y la semántica. Por todos es sabido que el escalón más fácil de subir es el más utilizado.

No sé si los microformatos proporcionan todo lo necesario para la semantización de la web, pero sí aportan su sistematización.

Definir los microformatos no es fácil. En general se pueden definir como documentos con un formato concreto dentro de otro formato general (para nuestro caso, XHTML). Se pueden entender como formatos utilizados para tratar conjuntos de información muy concretos y enfocados a usos muy determinados. Puedes encontrar información ampliada en microformats.org.

La sistematización en un entorno cargado de información y ruido permite la extracción de significado. En general, si un sistema automático es capaz de extraer información de una fuente, la información extraída es susceptible de ser más relevante para el destinatario. Esa es la primera consideración a tener en cuenta para entender el importante papel los microformatos.

Otra consideración a tener en cuenta es que esta sistematización favorece al intercambio de pequeños conjuntos de datos (tarjeta de visita, datos de un contacto, cita o evento de calendario…) y por lo tanto da un paso más allá en los mecanismos ya conocidos de intercambio y filtrado colaborativo en entornos sociales.

El principal problema que han tenido los sistemas hasta ese momento es que la información debía procesarse e identificarse. Hasta la llegada del XHTML, tratar de abordar un contenido HTML de una web y esperar que una máquina pudiera identificar fragmentos independientes y significativos de contenido era una utopía. Con la aparición del XHTML es posible plantear la inclusión de etiquetas significativas, bloques de información sistematizados, etc. Es decir, estamos trasladando la sistematización de la base de datos a la interficie, sin pérdida de transparencia para el usuario.

Dando dos pasos más hacia adelante, vale la pena poner énfasis en un aspecto: la simplificación del rastreo de información significativa y segmentada. Echando un vistazo a los posibles microformatos, nos encontramos hCard y hCalendar (contactos y eventos), hReview (comentarios y opiniones), hResume (Currículum / carrera profesional), y hAudio.

Los dos primeros coinciden con tipos de información comentados en el apartado de identidad: agenda, contactos, y tareas. También hResume cumple con su objetivo de estructurar el currículum personal. Lo que sí vale la pena es observar los otros tipos de microformatos: hAudio o hReview.

En ambos tipos de microformatos, será interesante comprobar hasta qué punto se integran en software colaborativo, pero tienen interés. Pongamos el caso de portales verticales de música, películas, videojuegos… Si tuvieran la capacidad de disponer de una lista de fuentes de información desde la que se pueda capturar estos datos, podrían proporcionar información completamente filtrada y preparada para el usuario final, y creada de forma distribuida.

En un escenario ideal, eso significa segmentación y relevancia. Y probablemente signifique mayores ingresos. Pero por encima de todo significa cambiar las reglas de los criterios de producción de contenidos. El prosumer se ha cansado que ganen dinero los otros.

Es así que sería posible, por ejemplo asistir a un proceso distribuido de producción de contenidos en el que un portal detectara líderes de opinión que disponen de su espacio personal (una especie de despacho profesional en Internet). Tras el contacto se pactarían los servicios y su frecuencia de colaboración. Es un modelo conocido, pero no por ello menos eficiente.

Estoy seguro que habrá miles de razones para abrazar el uso de los microformatos en la web, pero hasta aquí llego por ahora, que uno también sigue aprendiendo.

By

Cuatro aspectos clave para el 2008 (I)


Identidad

Cuando todas las partes están interesadas en contactar abiertamente, más vale ponerle cara a la gente. Internet seguirá siendo un espacio de fantaseo y creación de identidades irreales, pero a esto se deberá añadir su consolidación como canal de difusión de la identidad personal y profesional.

En los últimos años han surgido varias tecnologías y estándares relacionados con la identidad del individuo en la red. Y quizá sea importante diferenciar entre dos áreas de creación de identidad en la red: la parte de la identidad que se forja para el individuo mismo, y la que se crea para el exterior.

Identidad personal "para mí"

Para la primera parte, la clave es que el usuario pueda crear una identidad disponiendo de una especie de campo base: un espacio localizado en la red (un nodo) que le permita unificar toda la actividad que desarrolla en la red. Se trata de un espacio en el que se puede centralizar esa gestión de la identidad digital.

Esta gestión se traduce generalmente en la gestión de los siguientes recursos:

  • la creación de un currículum o presentación personal,
  • la producción de contenidos propios,
  • Herramientas de gestión de la información personal (tareas, documentos personales, calendario, anotaciones, etc.)
  • selección y agregación de información procedente de fuentes externas, y
  • Acceso a los medios de comunicación necesarios para contactar con aquellos que nos interese, formen parte o no de nuestra red social.

Independientemente del entorno en el que se gestione esta identidad (no sólo estoy pensando en el software de redes sociales), el tipo de información varía poco. Lo que sí varía es el uso que se hace: es manifiesto que hay diferencias notables de objetivos entre la gestión para usos profesionales o para ocio.

Unificar en un solo entorno nuestras gestiones e informaciones supone un aumento de potencial en cualquier sentido. Pero en cualquier caso permite que personas ajenas nos identifiquen (hasta cierto punto) con ese espacio.

Identidad persona "para los otros"

A partir de ese punto, el aspecto clave es garantizar a los demás que yo soy quien digo que soy. En este punto entramos en el mundo de la certificación, la firma electrónica o mecanismos de autenticación. Y entre ellos destaco a OpenId.

OpenId es un sistema distribuido para la gestión de la identidad digital para los otros. El objetivo principal es poder identificarse en varios portales y sitios distintos sin tener que crear continuamente nuevos usuarios con sus consabidas contraseñas y todo lo demás.

Creo que la creación de una identidad en un solo sitio que se difunda en caso de necesidad es una herramienta muy potente si queremos disponer de un entorno personal de gestión de la identidad. OpenId proporciona un punto de acceso a la identidad personal, mientras que el sistema en el que trabaje la persona deberá poder incorporar sistemas de entrada de información.

Lo anterior incluye utilizar APIs de servicios en los que el usuario se ha registrado con OpenId. Por otro lado, aparte de los contenidos que el usuario ha generado en servicios externos, también están otro tipo de registros de actividad de éste usuario en la red: por ejemplo, aportaciones en foros o comentarios en blogs, que son informaciones dispersas. ¿No estaría bien poder mostrar estos datos en nuestro sitio?

La síntesis: evolución hacia la red social

En la síntesis de los dos movimientos (para mí y para los demás) se puede localizar el concepto de red social. Y de ese concepto nace el software de redes sociales, que presenta una tendencia de crecimiento notable para el 2008.

Como apunte final, sólo comentar un aspecto ligado a la identidad: el uso de la información sobre la actividad del usuario empieza a introducir cuestiones relativas a privacidad. Alegorizando un poco, los espacios como el software de redes sociales han pasado de alquilarnos una habitación donde invitar a los contactos, a ofrecernos una mesa en pleno espacio público, con un micrófono en el florero de la mesita, y con vendedores ambulantes alrededor. La combinación de datos usuarios y redes promete dar para mucho.

 

 

By

Aspectos clave 2008 – Redes Sociales


Redes sociales

Siempre han estado ahí, pero nunca como ahora habían tenido tanto protagonismo. Forman parte de la identidad de los individuos y en cierto modo interactúan con esa identidad. Lo que el PageRank trató de identificar en los contenidos, las plataformas redes sociales tratan de deducirlo de sus miembros.

Se puede entender a la red social como algo ajeno a Internet. Mi red social existe, esté o no en mi cuenta de Gmail, Facebook o cualquier otra plataforma.

La combinación red-plataforma es algo clave para entender los pequeños detalles (por ejemplo, lo difícil que es a veces exportar los datos introducidos). Y es clave porque afecta al futuro de la gestión de la identidad personal hacia los demás. Claro que la decisión la toma cada usuario, y se entiende que los usuarios no técnicos escojan opciones más preparadas como Facebook o Google OpenSocial.

Hasta cierto punto voy a mezclar la velocidad con el tocino, pero prefiero OpenId antes que el API de Facebook, o el API de OpenSocial (y parece que no soy el único). Los dos primeros son servicios creados alrededor de una red concreta, y eso es ineficiente para la creación de la identidad. Si miramos al mundo real, cada cual tiene un espacio público y otro privado. En estas redes sociales esto se diluye un poco.

Siguiendo con el esquema para los otros – para mí, la información generada en estas redes sociales cerradas (por mucha API que tengan, exportar los datos es un drama) queda para el uso del responsable de la plataforma. El uso que haga de esta información viene justificado por el coste de uso que los usuarios hacen. En Data Mining citan una charla de Chris Anderson y lo explican introduciendo el concepto económico de "externalidad". En el momento que alguien puede imponer un para mí, el nuestro desaparece.

Es por eso que hay que entender las consecuencias de trabajar con un proveedor concreto de red social, y compararlo con OpenID como estándar abierto e independiente de proveedor. No tengo nada contra los dos primeros, sólo que ante la dificultad encontrada a menudo por salir (en contraste con la facilidad para entrar) uno aún desconfía.

Con los tres se puede establecer un modelo de negocio basado en la figura de intermediario (para la demanda) y distribuidor (para la oferta), y recogiendo información sobre la actividad de ese usuario identificado. Sin embargo un estándar abierto no necesariamente tiene que vincularse a fiscalizar la actividad del usuario para conseguir un gran volumen de datos y segmentar exhaustivamente los targets vendibles a anunciantes. Más allá de esto, no me resisto a citar el artículo aparecido en documenéame sobre The Guardian sobre Facebook y los neoconservadores: muy digno de lectura.

La inercia es el principar factor a favor de las redes sociales. Una vez un grupo de usuarios están en una red, es difícil romper la inercia del día a día y cambiar. Eso es algo conocido por las plataformas, y por lo tanto potencian esa sensación de holgazanería en el momento de tomar la decisión de cambiar: el número de usuarios registrados es importante para predecir ingresos: dejar borrar una cuenta equivale a tirar el dinero. En ese caso, mejor no facilitar las cosas.

La información generada por la relación entre usuarios genera información. Esa información puede utilizarse para captar tráfico (captar más demanda) o bien para segmentar mejor los perfiles (y con ello captar mejor oferta). Los contenidos que crean los usuarios definen aspectos de interés, segmentos, grupos de interés, necesidades, etc. Es información valiosa en marketing, especialmente cuando se quiere llegar a nichos determinados.

Sin embargo ha surgido hace relativamente poco la iniciativa dataportability.org, a la cual Facebook y Google ya se han apuntado, y algo más tarde también Microsoft. Para los no iniciados hay un vídeo introductorio que puede ser de utilidad, aunque las claves de este movimiento se irán viendo a lo largo de este año.

Para los que ya sepan por dónde va el tema de la portabilidad de datos, seguro que no les extrañará que todo esto también esté relacionado con formatos de exportación e importación, y que cuanto más estándares, mejor. Es por eso que esta evolución nos lleva al tercer punto de las tendencias: los microformatos.

By

Madame Briet


Artículo traducido

Suzanne Briet: Madame documentación y bibliotecaria extraodinaria

Este post va por todos aquellos biblitecarios y estudiantes de la escuela de ciencias de la información que leen este blog.

Una de las mejores cosas que tiene estar en la escuela de ciencias de la información es que consigues aprender todo tipo de cosas sobre gente que amó la información mucho antes que esta hubiera una economía para ésta. Uno de los profesores de mi facultad -Michael Buckland- siempre me asombra con historias sobre los grandes dioses y diosas de la información, muchos de los cuales nunca recibieron ningún crédito por su trabajo. Su último libro Emmanuel Goldberg and his knowledge machine sigue la historia de un inventor judío que escapó de Alemania sólo para ver cómo los americanos robaban varios de sus inventos. Crees que Vannevar Bush inventó el Memex? Piénsalo de nuevo.

Buckland llamó mi atención con otra historia de una bibliotecaria brillante que fue ignorada y olvidada: Suzanne Briet. Feminista, ensalzadora de multitudes e historiadora, Briet fue una de las primeras detrás del movimiento documentalista durante el periodo interino [interim period].

"Briet decía que los documentalistas deberían estar integrados [embedded] en los contextos culturales de los usuarios a los que sirven. Desde esta visión estratégica los documentalistas no deben sólo dedicarse a recuperar documentos, sino realizar prospecciones informacionales sobre las que aún no han sido preguntados, traducir información de otros idiomas, resumir e indexar documentos, y en general, trabajar proactivamente en una dinámica de avanzada del conocimiento en una disciplina (Day)"

Suena un poco a Google, ¿verdad?

"Los escritos de Briet se centraron en la importancia de las formas culturales y las situaciones sociales y las redes al crear y responder a las necesidades de información, más que tratar las necesidades de información como circunstancias como procesos psicológicos internos" (Day)

Sus escritos continúan anticipándose a la teoría del actor-red [actor-network theory] (un enfoque habitual en las escuelas de ciencias de la información). Desafió a las nociones cuantitativas y positivistas de la "información", atribuyendo un origen y función cultural a la documentación y los signos documentales ("What is documentation?").

A pesar de su brillantez, fue ignorada y olvidada. Sólo un bibliotecario fue a su funeral. La mayoría de sus escritos fueron ignorados y nunca se traducieron. Incluso hoy en día, pocos profesores de ciencias de la información tienen conocimientos sobre ella, y pocos enseñan sus aportaciones. Ni siquiera tiene una entrada en Wikipedia!

En un intento por hacer más accesible su trabajo, Ronald Day, Laurent Martinet y Hermina Anghelescu han traducido su trabajo "What is documentation?" al inglés y lo han convertido a archivo en formato PDF descargable. Conjuntamente con Buckland, le han dedicado un sitio web. Su esperanza es que exista más información sobre ella para que los alumnos puedan entender el contexto histórico de la cultura de la documentación. Personalmente estoy fascinada por aprender algo sobre una feminista erudita que tuvo tanta visión y fuera tan olvidada.

Queridos biblioteconomistas y comunidad de estudiantes de ciencias de la información, Michael Buckland, el rescatador de los bibliotecarios olvidados, sobre qué será necesario para que verdaderamente se resucite su memoria? Vivimos en un mundo de registros e información, aunque a menudo olvidamos los exploradores y fundadores (especialmente si son mujeres, personas de color, gays, o que no no sean cristianos). Cómo revivimos las historias de aquellos cuyas contribuciones fueron ignoradas?

Comentarios finales

Para empezar, existe un tono crítico en el post de Danah que debería ser verdaderamente contrastado. Entendiendo que las minorías que comenta han sufrido discriminaciones a lo largo de la historia, sería importante determinar hasta qué punto eso es cierto en el caso que comenta. Es de justicia decir que no he investigado más a fondo buscando en fuentes originales, aunque espero facilitar la tarea para aquellos que deseen hacerlo y no tengan facilidad con el inglés (tampoco es mi caso, seguro que más de uno se habrá dado cuenta).

Lo que más me ha llamado la atención del artículo son dos conceptos: integración y proactividad. Quizá sea por esas dos palabras por la que haya hecho un esfuerzo en traducirlo. Porque estas dos palabras son el abracadabra para que los profesionales de la información pasen de ser desconocidos a apreciados y respetados.

By

Por qué P = Q = 0,5?


El significado de P y Q

Cuando se realizan encuestas, y en general recogida de información, se da muy a menudo un tipo de preguntas que sólo pueden obtener como respuesta un Sí o un No (con el permiso del NS/NC, que ahora dejaremos de lado). Estas preguntas son las más sencillas de clasificar, ya que en el resto se pueden utilizar escalas diferentes como la del 0 al 10, escalas de Likert, gráficos, u otras.

Para estas preguntas, una proporción de los encuestados puede responder que sí, y otra que no (perogrullada al canto), lo que matemáticamente puede representarse como un 1 y un 0, respectivamente. En el caso de haber planteado un muestreo adecuado, la proporción entre ceros y unos debería ser representativa de la población general.

Sumando la cantidad de respuestas 1 y dividiéndolo por el número de encuestados, tenemos una proporción. Así por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que sí, tenemos que la proporción de síes suma en total:

P(X = sí) = 35/100 = 0,35

Lo que equivaldría a un 35% en términos porcentuales.

Sabiendo que sólo hay dos casos posibles sabemos que la proporción de noes ha sido:

P(X = no) = (100-35)/100 = 65/100 = 0,65

Es decir, un 65% de noes.

De lo anterior se deduce que sabiendo la proporción de respuestas afirmativas, deducimos la proporción de respuestas negativas. Por lo tanto:

P(X=no) = 1 – P(X=sí) = 1 – 0,35.

Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en minúsculas) a P(X=sí), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como Q.

En resumen:

P = P(X = Sí)
Q = P(X = No) = 1 – P

¿Hasta aquí se entiende? Bueno pues, sigamos.

En el peor de los casos

Dejando de lado las imperfecciones del trabajo de campo (que darían para mucho), supongamos que tenemos los medios necesarios para garantizar la representatividad de la muestra sólo teniendo en cuenta el tamaño (número de encuestados).

Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporción de individuos que contestarán sí o no a una determinada respuesta. Por eso es necesario suponer el peor de los casos.

Retornando al título del post, ya sabrás cuál es el peor de los casos, e intuitivamente incluso te puedes imaginar el por qué. Efectivamente, el peor de los casos ocurre cuando hay la misma proporción de individuos que contestan afirmativamente y negativamente.

Te puedes imaginar la situación: tu vas a suponer en cada momento qué va a contestar al siguiente. Si P = Q = 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo mínimo que cabría esperar si puedes elegir entre sí y no, y no hay más respuestas posibles.

Estadísticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar sobre un proceso de Bernouilli. Este modelo estadístico indica que la varianza de una muestra de una población que sigue este modelo es p·q.

Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo, multiplicando, no sumando.

Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1, tenemos los ingredientes necesarios para hacer un análisis de la función de la varianza. Representando el valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:

f(p) = p·q = p · (1-p) = p – p^2

tras lo cual tenemos un gráfico como el siguiente:

Parabola p-(p x p)

Se puede observar que en la mitad del gráfico está el pico máximo. Teniendo en cuenta que es un gráfico entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el análisis de funciones se utilizan las derivadas. No explicaré lo que son las derivadas, simplemente comentaré que para este caso son formas de detectar la “velocidad” y “aceleración” de la curva.

Esto es un salto sin red para quien no entienda del tema, pero seguro que podrá encontrar amplia literatura al respecto. Teniendo la función anterior:

F(p) = p – p2

Su primera derivada (que indicará la “velocidad”) es:

F’(p) = 1 – 2p

Mientras que la segunda derivada es:

F’(p) = -2

De lo anterior se deduce:

  • Dado que la segunda derivada es una constante negativa, la recta siempre está desacelerando. podemos comprobar que la recta ya “venía subiendo” pero cada vez un poco menos rápido, hasta que empieza a bajar, y luego cada vez va más rápido. Es decir lleva una aceleración negativa. Aunque llevara una inercia, la ha ido perdiendo. Por el hecho que la segunda derivada es una constante también se deduce que la curva es una parábola.
  • Dado que sabemos que siempre desacelera, sabemos que la curva es convexa (es decir, tiene la concavidad hacia abajo), por lo que si en algún momento la velocidad es nula (el objeto se ha frenado), podemos deducir que se ha llegado al máximo.

Trato de explicar este segundo punto en palabras más llanas: si estás desacelerando, llega un momento que te paras, y desaceleras más, vas en velocidad negativa. Es decir, que vuelves “hacia atrás” (o hacia abajo) por lo que se deduce que habías llegado al máximo de lejos que podías.

Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:

1 – 2p = 0

La resolución es fácil:

1 – 2p = 0 => 1 = 2p => 1/2 = p ==> p = 1/2 = 0,5

voilà. Tenemos la demostración matemática que la máxima varianza se tiene con p = 0,5!

Este cálculo da garantías al conjunto de la encuesta?

Por lo general, este modo de cálculo es una forma de definir un tamaño de muestra. Las encuestas acostumbran a ser mucho más complejas, pero lo cierto es que los casos en los que las respuestas son de sí/no son los más habituales en encuestas sociales. En otros casos se utilizan otros criterios (por ejemplo cuando lo que se busca no es un estudio de proporciones sino de medias o totales).

Lo que sí vale la pena comentar es que el tamaño de muestra obtenido utilizando este criterio proporciona un margen de error para cada pregunta estudiada de una en una.

De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas sean más falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para extraer conclusiones), ya que eso provocaría decisiones erróneas por asumir un riesgo mayor del supuesto.

Otras cuestiones que van más allá de este post son la información previa que tenemos sobre una determinada población, ya que ello nos permitiría reducir el margen de error. Esta reducción podría aplicarse en la fase de muestreo, utilizando uno de varios diseños muestrales existentes.