Sopa de bits

Reflexiones sobre la información

By

España en llamas: la dificultad de obtener la información

El proyecto España en llamas se promocionó desde la fundación Civio para recopilar la información sobre los incendios forestales en España a lo largo de los años. Posteriormente obtuvo la financiación necesaria vía goteo.org, y echó a andar.
Este proyecto es un caso especialmente representativo del “trabajo embarrado” que supone crear estadísticas económicas y sociales donde no estaban planteadas. Ante la búsqueda de datos sobre una estadística económica y social “estándar”, un ciudadano puede empezar a realizar su búsqueda en el INE, Eurostat o simliares.
Pero ¿Qué sucede cuando los datos en sí se encuentran recopilados en fuentes dispersas y no están sistematizadas? La operativa empieza a topar con obstáculos debidos a una burocracia que no tiene ese objetivo. Esa complejidad que sólo se centra en recopilar los datos pasa por:
  • Identificar las instituciones responsables.
  • Solicitar y/o obtener los datos (este proceso puede implicar transcripciones, fotocopias, personas que buscan y extraen informaciones de contenidos textuales, etc.).
  • Intentar organizar de forma sistemática toda esa información, tratando de coordinar los datos en base a elementos comunes (por lo general, fechas y ubicaciones).
Tratar de entender lo pesado que puede ser extraer y sistematizar toda esta información sólo se puede conseguir de una manera: probándolo. No es por contar batallitas, En mis años mozos tuve mis días y semanas de recopilar datos para trabajos universitarios, a menudo en base a fotocopias y posterior transcripción a hoja de cálculo. No es la tarea más agradecida. Un bravo por ese trabajo, y espero que sigan adelante.
El resultado es el que se puede ver en su mapa interactivo de incendios, que muestra datos de incendios hasta el 2011.

By

Los datos no crecen en las hojas de cálculo (mira en la basura)

En más de una conversación de café he sacado el comentario sobre lo vacíos que últimamente están los contenedores de basura. Por no hablar del metro y otros transportes públicos.  Son claros indicadores de la crisis, contrapuestos a la retórica de los macroindicadores.

Hay un caso especial en todas esas fuentes de datos: las que nadie (o pocos) más ven. Esos detalles, en los que pocos reparan y muchos rehuyen de observar, son los que más nos pueden explicar cómo está nuestro entorno, si entrenas esa mirada para escuchar lo que te explican.

Y he aquí que me veo ante un contenedor de basura. ¿Qué hago mirando en los contenedores de basura? Escuchar la realidad de un modo que pocos lo hacen.  No es que vaya metiendo la cabeza en todo contenedor abierto, pero tampoco es necesario.  Es fácil pensar que un estadístico sólo tiene en mente las cifras. Y desde luego trabajamos con datos… Pero para conectar la realidad con esos datos, a veces es necesario encontrarlos… en los contenedores. Esa frase que nos repitieron los padres: “El dinero no crece de los árboles”, pues bien, los datos no crecen en las hojas de cálculo.

Es en estos detalles en el que están los ojos estadísticos: en detectar una fuente de datos, integrada en un proceso. Descubrir un indicador cuya obtención apenas modifica el proceso que lo genera: fragmentos de realidad que chisporrotean datos. Trocitos de realidad, como una rama del árbol que empieza a surgir del tronco.

Y aunque sí es cierto que frente a sus ojos el paisaje puede estar plagado de ellos, la visión que requiere el análisis de datos nos lleva a dar un paso más allá. La doble visión de arte y ciencia aporta valor a la narrativa del análisis. Nos recuerda qué preguntas tratamos de reponder, y por qué nos las formulamos.

Y volviendo al indicador en cuestión: no soy el único que se ha dado cuenta. A mí, lo vacía que está la basura últimamente, me explica hasta qué punto la cosa está jodida. Para qué negarlo.

By

Prediciendo los trending topics de twitter antes que sucedan

Reconozco que afronto con escepticismo los análisis de predicción de tendencias.  Pero la metodología que han seguido, más allá del puro algoritmo matemático, merece mención aparte. Aunque no lo he puesto a prueba, merece mención por los resultados finales:

  • Seguimiento de 500 temas que fueron trending topics y otros 500 que no lo fueron.
  • Predicción del trending topic hora y media antes que twitter.
  • 79% de aciertos.

¿Cómo lo ha abordado?

En una sola palabra: descomponiendo. Ha detectado grupos de tendencias individuales, partiendo de la idea que el trending topic es una suma de varias tendencias dispares.

Esos datos de tendencias se comparan con los patrones que han seguido otros trending topics y con otros que no.  Lo que se hace es básicamente medir las distancias euclidianas entre las diversas curvas (la observada, y las de referencia).

También hay otro aspecto agradable del enfoque: el análisis es no-paramétrico.  Básicamente esto quiere decir que las tendencias de referencia no son un modelo matemático con parámetros, sino datos sobre los cuales no requerimos realizar estimaciones nada. Datos en su estado más puro. Elegancia hecha algoritmo.

Según su autor, la aplicación de este trabajo puede ir más allá de los trending topics. Esperemos que así sea.

By

Políticos accidentales: ¿Seleccionar legisladores aleatorios mejora la eficiencia parlamentaria?

Curioso artículo el que he encontrado hoy en arxiv.org, sobre una simulación que propone la hipótesis con la que titulo esta entrada (salvo los interrogantes, que los he añadido yo).  El preprint en cuestión está en inglés y se titula Accidental Politicians: How Randomly Selected Legislators Can Improve Parliament Efficiency (puedes descargar directamente la versión PDF del artículo).

El resumen (traducido y con resaltado mío) es el que sigue:

Estudiamos un modelo prototípico de un Parlamento con dos Partidos o dos Coaliciones políticas, y mostramos cómo la introducción de un porcentaje variable de legisladores independientes seleccionados aleatorioamente pueden aumentar la eficiencia global de una legislatura, tanto en términos del número de leyes aprobadas y de la media de bienestar social obtenido.  También encontramos analíticamente un “número áureo de la eficiencia” que permite establecer el número óptimo de legisladores que deben ser seleccionados aleatoriamente después de que las elecciones regulares hayan establecido la proporción relativa de los dos Partidos o Coaliciones.  Estos resultados están alineados tanto con el antiguo sistema democrático Griego como con el descubrimiento de que la adopción de las estrategias aleatorias pueden mejorar la eficiencia de las organizaciones jerárquicas.

El artículo utiliza la metodología de la simulación, por lo que no es un ejemplo real con datos basados en experiencias humanas.  Es por ello que el artículo se basa en una abstracción matemática que puede restar interés para quien no se quiera adentrar en los números.  Trataré de allanar un poco el camino.

Una explicación menos matemática

Para establecer un modelo de simulación como el del artículo es necesario establecer unas reglas de actuación y unos individuos (los agentes), que actuan con una lógica independiente sobre la cual toman decisiones individuales.  La suma de decisiones conforma un escenario que es el objeto del análisis.

En este caso, los agentes se encuentran en un espacio planteado por Carlo M. Cipolla, donde se plantean dos factores:

  • Acciones del individuo que resultan beneficiosas/perjudiciales para sí mismo.
  • Acciones del individuo que resultan beneficiosas/perjudiciales para los otros.

En el modelo, estos dos factores se transforman en:

  • Beneficio personal.
  • Beneficio social

Cada uno de estos factores puede tomar valores entre -1 (muy perjudicial) y +1 (muy beneficioso).  Los cuatro tipos extremos, con valores asignados según lo anterior, son:

  • Los Inteligentes se benefician a ellos y a los demás (+1, +1).
  • Los Incautos benefician a los demás pero no a ellos mismos (-1, +1)
  • Los Malvados se benefician a ellos y perjudican a los demás (+1, -1)
  • Los Estúpidos se perjudican a ellos y a los demás (-1, -1)

Lo anterior son valores extremos y no los casos típicos.  Los he utilizado para clarificar la conversión de palabrasnúmeros.  En la simulación se podrá encontrar agentes con coordenada (0.25, -0.1 -> algo egoísta, ligeramente malvado), por poner un caso.

La razón para escoger el intervalo entre +1 y -1, está en parte explicada en el artículo sobre normalización y distancias normalizadas.  En una palabra: simplicidad y facilidad de cálculo, aparte de ser muy intuitiva.  Se podría escoger +100 y -100, pero esto sólo aumenta la complejidad de los cálculos: a nivel de simulación no aportan valor alguno.

Los agentes pueden realizar dos acciones: presentar una ley, o bien votarla (a favor o en contra).

En el momento de la decisión, los agentes parten de su centro de gravedad, pero están de acuerdo con cualquier ley que tenga valores más positivos que su centro de gravedad.  Gráficamente: que se encuentren más a la derecha y por encima de su centro de gravedad personal.

Por otro lado, cuando los agentes son miembros de un partido, aceptan sus directrices.  Estas directrices se representan gráficamente por el círculo de tolerancia del partido.  Este círculo muestra las leyes que el partido en conjunto está dispuesto a votar.

En suma, el agente depende de su adscripción política (círculo de tolerancia) y de su postura personal (ventana de aceptación).  Esta dependencia impone las siguientes reglas en el juego:

  • El círculo de tolerancia de un agente miembro de un partido muestra en sus decisiones es el mismo que el del propio partido (lo que conocemos com disciplina de voto).
  • El agente miembro de un partido siempre vota a favor de las leyes que presenta alguien de su partido.
  • El círculo de tolerancia del partido es más o menos pequeño, dependiendo de si se trata de partidos más o menos autoritarios (o rígidos, si se prefiere).
  • Los parlamentarios elegidos aleatoriamente no podrán repetir en sucesivas elecciones, para evitar ser abducidos por los partidos mayoritarios.

Y ahí es donde esta la clave de la simulación, en combinación con la disciplina de partido.  Por resumirlo en una frase: Al seleccionar un grupo aleatorio de individuos se cubren las distancias entre los marcos de tolerancia de los partidos.

Gráficamente se puede imaginar dos grandes círculos (los partidos), con todo su entorno salpicado por los individuos seleccionados aleatoriamente.  Estos individuos pueden servir como soporte para leyes que quiera presentar el miembro de un partido, cuando estas leyes estén en el límite.

¿Cuántos diputados escoger aleatoriamente?

La fórmula para el cálculo de los diputados escogidos aleatoriamente (per la página 13 de la versión PDF del artículo) es aparentemente compleja, pero se basa en dos factores básicos:

  • El número de diputados del congreso en cuestión.
  • La proporción de diputados del partido mayoritario.

El gráfico de la página 14 del documento muestra el comportamiento de la función que calcula los diputados independientes.

Considerando el caso del bipartidismo, los votos del partido más votado pueden oscilar desde el 50% hacia arriba.  En el eje vertical vemos el número de diputados en el caso que el congreso tuviera 500 escaños (el caso de la simulación).

Como se puede ver, si el resultado es equilibrado (50-55% para el partido ganador: casi un empate técnico) el número de votantes independientes es pequeño porque es fácil desequilibrar la balanza.  Cuanto más grande es la mayoría, más independientes.

Quizá sea posible esperar nuevas simulaciones con multipartidismo, para así poder analizar casos más complejos.

Aunque la conclusión se basa en un análisis de los resultados de la simulación, la causa, según la explicación de los autores, es relativamente intuitiva:  Si la selección de independientes es realmente aleatoria, su soporte será mayoritario para el partido ganador.  Sin embargo, al evitar la disciplina de voto pueden favorecer a más acuerdos.

En palabras de los autores: No se pierde nada del sistema de partidos (efectividad en los sistemas de votación) y se gana todo por la aparición de diputados independientes (la calidad de sus propuestas).

Dudas

  • ¿Cómo afecta la inclusión de otros partidos a la cantidad de independientes?
  • ¿Por qué la ventana de aceptación de un individuo se establece con un mínimo y aceptar lo que sea siempre más positivo (sobretodo a nivel social)? ¿Se podrían plantear márgenes más cerrados?
  • A nivel de las interacciones: ¿Cómo afectaría al círculo de tolerancia de los partidos la aparición de los independientes?

Conclusiones y aplicaciones:

  • Tratándose de una simulación, el resultado no parece aplicable directamente.
  • El planteamiento del paper es por sí mismo muy creativo y sugerente.  Y eso no le resta en absoluto vínculos con la realidad.
  • ¿Quizá lo aplicable por fórmula del partido más votado se podría aplicar en base a la abstención? ¿Y sobre los votos en blanco?

Un apunte final: En relación a la selección aleatoria de individuos, encontré hace tiempo un artículo de (casi) los mismos autores relacionado con la Promoción aleatoria de personas en las empresas para evitar el principio de Peter.

By

Los datos abiertos son el micelio de la transparencia

Hace pocos días Matthew Hurst hacía un comentario en su blog Data Mining que posteriormente fue mencionado en Barrapunto a propósito de la presentación de Open Data Cordoba:

Los datos abiertos son una parte de la transparencia.  Son condición necesaria pero no suficiente.

Coincido con esta visión.  Sólo se puede afirmar que datos abiertos=transparencia cuando se disponen de las herramientas, la metodología y un criterio técnico mínimo.  Con esta receta es posible convertir datos abiertos en respuestas objetivas (transparencia) a preguntas concretas.  Luego sólo hace falta plantear las preguntas adecuadas.

Fuentes y datos

Cada vez son más las entidades están dando a conocer la disponibilidad de sus datos en abierto , ya sea por publicidad de las entidades que aplican las ideas del proyecto aporta, o bien por iniciativas tan imprescindibles como abredatos.es.

Quizá estamos presenciando una fase de crecimiento que permita imaginar (léase soñar) en una masa crítica de fuentes y datos.  Tanto unas como otros son imprescindibles para garantizar la posibilidad de contrastar, verificar y también adaptarse a las necesidades concretas.

En mi opinión, se llegará a la masa crítica en el momento que existan datos potencialmente vinculables (no sólo open, sino también linked) y posibilidad de consultas a nivel atómico, sólo recuperando una parte de la información (y no descargar necesariamente 100MB de datos, por ejemplo).

Datos abiertos públicos y privados

No sólo las administraciones públicas pueden abrir sus datos.  Entidades privadas (quizá sin ánimo de lucro o participadas por organismos públicos) pueden abrir conjuntos de datos para facilitar la creación de un ecosistema alrededor de su proyecto.

Ahora suena a una idea lejana, pero ¿no es así como floreció y maduró el código abierto? ¿Por qué no los datos? Como sucede con el primero, la idea de abrir datos puede tener efectos distintos en cada caso, pero eso no lo hace descartable.  Como comenta Nigel Shaboldt en la nueva revista thinkquarterly de Google:

Pregúntate: ¿Qué informaciones tienes? ¿Algunas de estas pueden ser publicadas libremente para mejorar la transparencia o mejorar la imagen de marca?

El escenario actual en relación a los datos abiertos guarda analogías con el del open source.  Por un lado la escasedad aparente, los riesgos de ceder terreno a la competencia, y la (aparente) inexistencia de un contexto adecuado.

No siempre funciona, pero ha funcionado.

Transparencia también es privacidad

Sinceramente no creo que la fase linked venga de la administración pública.  Sería deseable pero no lo veo factible a medio plazo (por ejemplo, por los riesgos en la privacidad derivados de seleccionar muestras muy pequeñas e identificar individuos concretos) y en la mayoría de casos incluso será innecesario.

Por ejemplo, en el caso de los datos municipales, varias administraciones pueden facilitar información.  Si es posible obtener datos de varias fuentes para los municipios de una provincia (por ejemplo, a través de la codificación de municipios), ya es suficiente. Utilizando estas codificaciones ya disponemos de un valor clave para vincular, por lo que se puede dar el paso al procesado (seleccionar los datos necesarios, crear variables derivadas, etc.) y análisis (obtener las respuestas).

La convivencia entre transparencia y privacidad es la garantía de subsistencia de los datos abiertos.  Todo aquello que enturbie esta convivencia (llámese cotilleo, vigilancia o como se quiera) es mejor que se quede al margen.

Generar el micelio

Buscando la imagen que más se ajusta al camino que queda por recorrer, pienso en el micelio.

Su forma, su existencia (principalmente en el subsuelo) y su ubicuidad lo asemejan a la existencia de datos.  Estos datos, que hasta hace poco eran difíciles de obtener, están empezando a aparecer (sí, como setas). En gran parte por nuestra actividad a través de dispositivos electrónicos e Internet, pero también por los datos abiertos.

Su existencia altera el contenido del substrato para crear relaciones simbióticas con (y a veces incluso preparar el terreno para) vegetales superiores.  Su capacidad para aparecer en los lugares más inhóspitos (porque los datos crecen en todas partes donde alguien quiera buscarlos) no tiene igual. Y por si fuera poco, evitan la erosión del suelo fértil donde se desarrolla.

Esas son las características deseables para los datos abiertos.  Pero quizá para explicar esto, lo mejor sea un vídeo de TED: seis maneras en que los hongos pueden salvar al mundo.

En especial me llamó la atención el fragmento de los minutos 8:00-9:35, pero el video en conjunto es muy recomendable: Paul Stamet impregna con pasión todas las revelaciones del vídeo.

By

Muestreo estadístico


Película, cámara, luz, plano, encuadre…

Reduciendo al mínimo las partes implicadas, se podría hablar de tres elementos en el proceso de muestreo-fotografía:

  • El entorno que es objeto de nuestro análisis: No es para nada homogéneo y además puede variar con el tiempo. Para complicarlo más, convive con elementos que pueden distorsionar nuestra percepción.
  • Las herramientas que utilizamos para capturar los datos de ese entorno: Considerando un grado asumible de imperfección, tienen unas características que conocemos y podemos utilizar en nuestro favor.
  • El sujeto que quiere capturar los datos con un objetivo concreto: No la quiere por sí misma, sino para extraer algo: una visión sintetizada de ese entorno y sus implicaciones.

En fotografía los elementos distorsionadores pueden ser la luz (exceso o defecto) y el movimiento.  En el muestreo, la distorsión estática puede crear un sesgo en los datos (fotografía muy clara o muy oscura, con colores más o menos saturados), mientras que la distorsión dinámica debida al movimiento genera ruido.

En el caso de las herramientas, huelga decir que la calidad de la cámara afecta al resultado de forma determinante.  Dependiendo de las exigencias, la calidad es un punto importante. El sistema óptico es clave, así como la velocidad del obturador y el angular.  También lo es la película utilizada: su granularidad y la sensibilidad, junto al enfoque, definen la precisión de los detalles.

Y finalmente nos queda el sujeto, que imprime su carácter al acto de fotografiar y al resultado.  A nivel estadístico, la visión artística queda a un lado para dejar paso a métodos de muestreo.  Lo que sucede a menudo es que hay muchas opciones para decidir cómo se muestrea. En ese punto entra en juego la visión del sujeto, el objetivo del análisis y los medios con que cuenta.  Y lo más importante de todo es que, como en el arte, el equilibrio entre lo bello a lo terrible es frágil.

La combinación de estos tres elementos es lo que puede convertir el muestreo en una mera rutina o en un arte.  La rutina intentará desdeñar los elementos distorsionadores del entorno y centrarse en los datos utilizando las mínimas herramientas, pero… es importante plantearse algunas preguntas:

  • ¿Y si resulta que la distorsión del entorno potencia algo que yo quiero analizar?
  • ¿Puedo alterar el entorno para que simplifique la recogida de datos?
  • ¿Si recogo una muestra destruyo el entorno que quiero analizar? Si es así, ¿puedo muestrear de forma indirecta?
  • Por extensión a lo anterior, ¿Hay algún dato en el entorno más fácil de capturar y que sea un buen indicador de lo que yo quiero analizar?
  • ¿Tengo datos anteriores que me ayuden a capturar partes concretas con más precisión para luego hacer un collage?
  • ¿Existen elementos monótonos o repetitivos?

Combinando estas técnicas se han desarrollado una gran cantidad de métodos de muestreo, adaptados a casos diversos, pero con un objetivo: recoger la mínima muestra posible y extraer la máxima información de ella.

La lista de métodos de muestreo no es para nada cerrada.  Lo que sucede a menudo es que los diferentes métodos se combinan. Eso sí, inventarse un método de muestreo no es algo baladí, la base matemática  que hay tras un método es muy intensa.

Más allá del muestreo aleatorio simple

Ahora daremos un salto hacia el periodismo.  Durante un rato serás un reportero/a que recorre las calles en busca de opiniones sobre noticias de actualidad.  Hoy te ha tocado ir a un par de barrios.  Antes de salir de la redacción te topas con un compañero que te dice: “en barrio A todos piensan exactamente lo mismo sobre este tema.  En el barrio B las opiniones son más diversas, pero más extremas que en el A“.

Con esta información, y dado que quieres hacer un reportaje lo más representativo posible (pero cuanto antes acabes mejor), te preguntas: ¿Cuántas opiniones recojo de cada barrio?  La lógica lleva a pensar que en el barrio A sólo vas a entrevistar a una sola persona (la segunda te dirá lo mismo que la primera), y en el barrio B, las que puedas recoger el resto del tiempo.

El resultado es que tardas una hora menos de lo habitual en recoger opiniones, con lo que llegas antes a casa. Eso sí, antes de tumbarte a hacer la siesta te apuntas en la agenda que debes un café a ese compañero.

En los procesos de muestreo sencillos, el aprovechamiento de esa información se obvia en detrimento del muestreo aleatorio simple.  En el caso de la reportera, eso equivale a recoger el mismo número de opiniones en los barrios A y B, con la consecuencia que obtienes *menos variedad* de opiniones con más esfuerzo.

Por lo tanto, el muestreo aleatorio simple es el primer escalón en las técnicas de muestreo, pero por ello el menos eficiente.  Si tienes información sobre la estructura del entorno, puedes aprovecharla y ahorrarte esfuerzo.  Algunas de las posibilidades son:

  • El entorno está diferenciado en conjuntos totalmente separados.  En ese caso puedes utilizar el muestreo estratificado. Lo que vas a hacer es recoger cantidades diferentes de ese estrato, y luego hacer una media ponderada de acuerdo con el peso de cada estrato en la población total. Ejemplos de estratos son la diferenciación por sexos, o edad, o nivel de ingresos.
  • Hay división de conjuntos, cada uno de los cuales es heterogéneo en su interior, y parecido al resto. Es decir, que tienes pequeñas muestras representativas de todo el conjunto.  En ese caso puedes utilizar el muestreo por conglomerados. Los conglomerados son lo opuesto a los estratos. Un ejemplo de conglomerado serían poblaciones de tamaño similar: en todas podemos encontrar su plaza, ayuntamiento, iglesia, su parte antigua y probablemente una parte nueva.  Esta repetición casi sistemática ayuda a tratar unos pocos pueblos representativos y luego trasladar los resultados al conjunto.
  • El entorno genera (o emite) elementos en serie, de forma rítmica y totalmente predecible. En ese caso, puedes aprovechar ese ritmo para aplicar un muestreo sistemático.  Este muestreo divide los elementos en grupos y selecciona uno o más de cada subgrupo. En esencia es similar al muestreo aleatorio simple, sólo que la forma de muestreo puede depender de las características de la /serie/.
  • Lo que quieres analizar es mucho más complejo de observar que otro elemento con el que tiene una relación causa-efecto.  En ese caso puedes aplicar un muestreo de razón (o de ratio).  Observando el segundo puedes deducir el primero por su correlación.

Estos sistemas de muestreo se pueden combinar y superponer según la complejidad de lo observado.  Por ejemplo, se puede analizar un primer nivel por conglomerados (árboles frutales) y luego establecer un muestreo de razón (frutas por rama), si eso reduce la muestra considerablemente. En este caso, cuanta menos muestra escojamos mejor, ya que cada fruta recogida para analizar su calidad es una fruta menos producida.

Comentarios finales

El muestreo es un arma de doble filo.  Es el medio que acercará nuestras conclusiones a la realidad, y también el principal factor de distorsión por un uso indebido.  Los trabajos de campo y muestreos son la comidilla de los argumentarios antiestadísticos.

Siempre es importante tener en cuenta que el usuario da valor a la herramienta, por lo que no se puede afirmar la veracidad de un estudio sin saber su método. Lo que sí es posible afirmar es que la selección correcta del método de muestro garantiza buenas conclusiones con poco esfuerzo.

A todo esto, sólo me queda añadir un detalle.  En el caso de las encuestas y estudios sociales con personas, hay otro elemento añadido: el cuestionario.  Este elemento es parte de la caja de herramientas de la estadística, y otro punto clave.  Pero esto, si lo considero oportuno, ya será motivo de otro artículo.

By

Por qué P = Q = 0,5?


El significado de P y Q

Cuando se realizan encuestas, y en general recogida de información, se da muy a menudo un tipo de preguntas que sólo pueden obtener como respuesta un Sí o un No (con el permiso del NS/NC, que ahora dejaremos de lado). Estas preguntas son las más sencillas de clasificar, ya que en el resto se pueden utilizar escalas diferentes como la del 0 al 10, escalas de Likert, gráficos, u otras.

Para estas preguntas, una proporción de los encuestados puede responder que sí, y otra que no (perogrullada al canto), lo que matemáticamente puede representarse como un 1 y un 0, respectivamente. En el caso de haber planteado un muestreo adecuado, la proporción entre ceros y unos debería ser representativa de la población general.

Sumando la cantidad de respuestas 1 y dividiéndolo por el número de encuestados, tenemos una proporción. Así por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que sí, tenemos que la proporción de síes suma en total:

P(X = sí) = 35/100 = 0,35

Lo que equivaldría a un 35% en términos porcentuales.

Sabiendo que sólo hay dos casos posibles sabemos que la proporción de noes ha sido:

P(X = no) = (100-35)/100 = 65/100 = 0,65

Es decir, un 65% de noes.

De lo anterior se deduce que sabiendo la proporción de respuestas afirmativas, deducimos la proporción de respuestas negativas. Por lo tanto:

P(X=no) = 1 – P(X=sí) = 1 – 0,35.

Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en minúsculas) a P(X=sí), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como Q.

En resumen:

P = P(X = Sí)
Q = P(X = No) = 1 – P

¿Hasta aquí se entiende? Bueno pues, sigamos.

En el peor de los casos

Dejando de lado las imperfecciones del trabajo de campo (que darían para mucho), supongamos que tenemos los medios necesarios para garantizar la representatividad de la muestra sólo teniendo en cuenta el tamaño (número de encuestados).

Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporción de individuos que contestarán sí o no a una determinada respuesta. Por eso es necesario suponer el peor de los casos.

Retornando al título del post, ya sabrás cuál es el peor de los casos, e intuitivamente incluso te puedes imaginar el por qué. Efectivamente, el peor de los casos ocurre cuando hay la misma proporción de individuos que contestan afirmativamente y negativamente.

Te puedes imaginar la situación: tu vas a suponer en cada momento qué va a contestar al siguiente. Si P = Q = 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo mínimo que cabría esperar si puedes elegir entre sí y no, y no hay más respuestas posibles.

Estadísticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar sobre un proceso de Bernouilli. Este modelo estadístico indica que la varianza de una muestra de una población que sigue este modelo es p·q.

Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo, multiplicando, no sumando.

Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1, tenemos los ingredientes necesarios para hacer un análisis de la función de la varianza. Representando el valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:

f(p) = p·q = p · (1-p) = p – p^2

tras lo cual tenemos un gráfico como el siguiente:

Parabola p-(p x p)

Se puede observar que en la mitad del gráfico está el pico máximo. Teniendo en cuenta que es un gráfico entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el análisis de funciones se utilizan las derivadas. No explicaré lo que son las derivadas, simplemente comentaré que para este caso son formas de detectar la “velocidad” y “aceleración” de la curva.

Esto es un salto sin red para quien no entienda del tema, pero seguro que podrá encontrar amplia literatura al respecto. Teniendo la función anterior:

F(p) = p – p2

Su primera derivada (que indicará la “velocidad”) es:

F’(p) = 1 – 2p

Mientras que la segunda derivada es:

F’(p) = -2

De lo anterior se deduce:

  • Dado que la segunda derivada es una constante negativa, la recta siempre está desacelerando. podemos comprobar que la recta ya “venía subiendo” pero cada vez un poco menos rápido, hasta que empieza a bajar, y luego cada vez va más rápido. Es decir lleva una aceleración negativa. Aunque llevara una inercia, la ha ido perdiendo. Por el hecho que la segunda derivada es una constante también se deduce que la curva es una parábola.
  • Dado que sabemos que siempre desacelera, sabemos que la curva es convexa (es decir, tiene la concavidad hacia abajo), por lo que si en algún momento la velocidad es nula (el objeto se ha frenado), podemos deducir que se ha llegado al máximo.

Trato de explicar este segundo punto en palabras más llanas: si estás desacelerando, llega un momento que te paras, y desaceleras más, vas en velocidad negativa. Es decir, que vuelves “hacia atrás” (o hacia abajo) por lo que se deduce que habías llegado al máximo de lejos que podías.

Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:

1 – 2p = 0

La resolución es fácil:

1 – 2p = 0 => 1 = 2p => 1/2 = p ==> p = 1/2 = 0,5

voilà. Tenemos la demostración matemática que la máxima varianza se tiene con p = 0,5!

Este cálculo da garantías al conjunto de la encuesta?

Por lo general, este modo de cálculo es una forma de definir un tamaño de muestra. Las encuestas acostumbran a ser mucho más complejas, pero lo cierto es que los casos en los que las respuestas son de sí/no son los más habituales en encuestas sociales. En otros casos se utilizan otros criterios (por ejemplo cuando lo que se busca no es un estudio de proporciones sino de medias o totales).

Lo que sí vale la pena comentar es que el tamaño de muestra obtenido utilizando este criterio proporciona un margen de error para cada pregunta estudiada de una en una.

De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas sean más falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para extraer conclusiones), ya que eso provocaría decisiones erróneas por asumir un riesgo mayor del supuesto.

Otras cuestiones que van más allá de este post son la información previa que tenemos sobre una determinada población, ya que ello nos permitiría reducir el margen de error. Esta reducción podría aplicarse en la fase de muestreo, utilizando uno de varios diseños muestrales existentes.