Sopa de bits » Blog » Muestreo estadístico
19
feb 2009

Muestreo estadístico

Quizá este artículo podría resumirse diciendo que el muestreo estadístico es algo similar a una fotografía, pero dirigido a los datos, no a las imágenes.

Bueno, ya está. Ha quedado claro ¿no? Si es así, déjame pensar: no te dedicas a la fotografía, ¿verdad? Un conocedor de este arte podría argumentar: "en fotografía hay muchos estilos, técnicas y herramientas".  En el muestreo también, sólo que un buen resultado no luce tanto Guiño.

El muestreo estadístico es la toma de contacto con la realidad antes de llevar la muestra al laboratorio.  Desde el punto de vista teórico de las matemáticas puras, es un mal necesario.  Pero desde el punto de vista del trabajo de campo y del análisis empírico, escoger el tipo de muestreo estadístico es todo un arte.

Y desde luego, es un arte que va mucho más allá que el muestreo aleatorio simple.

Película, cámara, luz, plano, encuadre...

Reduciendo al mínimo las partes implicadas, se podría hablar de tres elementos en el proceso de muestreo-fotografía:

  • El entorno que es objeto de nuestro análisis: No es para nada homogéneo y además puede variar con el tiempo. Para complicarlo más, convive con elementos que pueden distorsionar nuestra percepción.
  • Las herramientas que utilizamos para capturar los datos de ese entorno: Considerando un grado asumible de imperfección, tienen unas características que conocemos y podemos utilizar en nuestro favor.
  • El sujeto que quiere capturar los datos con un objetivo concreto: No la quiere por sí misma, sino para extraer algo: una visión sintetizada de ese entorno y sus implicaciones.

En fotografía los elementos distorsionadores pueden ser la luz (exceso o defecto) y el movimiento.  En el muestreo, la distorsión estática puede crear un sesgo en los datos (fotografía muy clara o muy oscura, con colores más o menos saturados), mientras que la distorsión dinámica debida al movimiento genera ruido.

En el caso de las herramientas, huelga decir que la calidad de la cámara afecta al resultado de forma determinante.  Dependiendo de las exigencias, la calidad es un punto importante. El sistema óptico es clave, así como la velocidad del obturador y el angular.  También lo es la película utilizada: su granularidad y la sensibilidad, junto al enfoque, definen la precisión de los detalles.

Y finalmente nos queda el sujeto, que imprime su carácter al acto de fotografiar y al resultado.  A nivel estadístico, la visión artística queda a un lado para dejar paso a métodos de muestreo.  Lo que sucede a menudo es que hay muchas opciones para decidir cómo se muestrea. En ese punto entra en juego la visión del sujeto, el objetivo del análisis y los medios con que cuenta.  Y lo más importante de todo es que, como en el arte, el equilibrio entre lo bello a lo terrible es frágil.

La combinación de estos tres elementos es lo que puede convertir el muestreo en una mera rutina o en un arte.  La rutina intentará desdeñar los elementos distorsionadores del entorno y centrarse en los datos utilizando las mínimas herramientas, pero... es importante plantearse algunas preguntas:

  • ¿Y si resulta que la distorsión del entorno potencia algo que yo quiero analizar?
  • ¿Puedo alterar el entorno para que simplifique la recogida de datos?
  • ¿Si recogo una muestra destruyo el entorno que quiero analizar? Si es así, ¿puedo muestrear de forma indirecta?
  • Por extensión a lo anterior, ¿Hay algún dato en el entorno más fácil de capturar y que sea un buen indicador de lo que yo quiero analizar?
  • ¿Tengo datos anteriores que me ayuden a capturar partes concretas con más precisión para luego hacer un collage?
  • ¿Existen elementos monótonos o repetitivos?

Combinando estas técnicas se han desarrollado una gran cantidad de métodos de muestreo, adaptados a casos diversos, pero con un objetivo: recoger la mínima muestra posible y extraer la máxima información de ella.

La lista de métodos de muestreo no es para nada cerrada.  Lo que sucede a menudo es que los diferentes métodos se combinan. Eso sí, inventarse un método de muestreo no es algo baladí, la base matemática  que hay tras un método es muy intensa.

Más allá del muestreo aleatorio simple

Ahora daremos un salto hacia el periodismo.  Durante un rato serás un reportero/a que recorre las calles en busca de opiniones sobre noticias de actualidad.  Hoy te ha tocado ir a un par de barrios.  Antes de salir de la redacción te topas con un compañero que te dice: "en barrio A todos piensan exactamente lo mismo sobre este tema.  En el barrio B las opiniones son más diversas, pero más extremas que en el A".

Con esta información, y dado que quieres hacer un reportaje lo más representativo posible (pero cuanto antes acabes mejor), te preguntas: ¿Cuántas opiniones recojo de cada barrio?  La lógica lleva a pensar que en el barrio A sólo vas a entrevistar a una sola persona (la segunda te dirá lo mismo que la primera), y en el barrio B, las que puedas recoger el resto del tiempo.

El resultado es que tardas una hora menos de lo habitual en recoger opiniones, con lo que llegas antes a casa. Eso sí, antes de tumbarte a hacer la siesta te apuntas en la agenda que debes un café a ese compañero.

En los procesos de muestreo sencillos, el aprovechamiento de esa información se obvia en detrimento del muestreo aleatorio simple.  En el caso de la reportera, eso equivale a recoger el mismo número de opiniones en los barrios A y B, con la consecuencia que obtienes *menos variedad* de opiniones con más esfuerzo.

Por lo tanto, el muestreo aleatorio simple es el primer escalón en las técnicas de muestreo, pero por ello el menos eficiente.  Si tienes información sobre la estructura del entorno, puedes aprovecharla y ahorrarte esfuerzo.  Algunas de las posibilidades son:

  • El entorno está diferenciado en conjuntos totalmente separados.  En ese caso puedes utilizar el muestreo estratificado. Lo que vas a hacer es recoger cantidades diferentes de ese estrato, y luego hacer una media ponderada de acuerdo con el peso de cada estrato en la población total. Ejemplos de estratos son la diferenciación por sexos, o edad, o nivel de ingresos.
  • Hay división de conjuntos, cada uno de los cuales es heterogéneo en su interior, y parecido al resto. Es decir, que tienes pequeñas muestras representativas de todo el conjunto.  En ese caso puedes utilizar el muestreo por conglomerados. Los conglomerados son lo opuesto a los estratos. Un ejemplo de conglomerado serían poblaciones de tamaño similar: en todas podemos encontrar su plaza, ayuntamiento, iglesia, su parte antigua y probablemente una parte nueva.  Esta repetición casi sistemática ayuda a tratar unos pocos pueblos representativos y luego trasladar los resultados al conjunto.
  • El entorno genera (o emite) elementos en serie, de forma rítmica y totalmente predecible. En ese caso, puedes aprovechar ese ritmo para aplicar un muestreo sistemático.  Este muestreo divide los elementos en grupos y selecciona uno o más de cada subgrupo. En esencia es similar al muestreo aleatorio simple, sólo que la forma de muestreo puede depender de las características de la /serie/.
  • Lo que quieres analizar es mucho más complejo de observar que otro elemento con el que tiene una relación causa-efecto.  En ese caso puedes aplicar un muestreo de razón (o de ratio).  Observando el segundo puedes deducir el primero por su correlación.

Estos sistemas de muestreo se pueden combinar y superponer según la complejidad de lo observado.  Por ejemplo, se puede analizar un primer nivel por conglomerados (árboles frutales) y luego establecer un muestreo de razón (frutas por rama), si eso reduce la muestra considerablemente. En este caso, cuanta menos muestra escojamos mejor, ya que cada fruta recogida para analizar su calidad es una fruta menos producida.

Comentarios finales

El muestreo es un arma de doble filo.  Es el medio que acercará nuestras conclusiones a la realidad, y también el principal factor de distorsión por un uso indebido.  Los trabajos de campo y muestreos son la comidilla de los argumentarios antiestadísticos.

Siempre es importante tener en cuenta que el usuario da valor a la herramienta, por lo que no se puede afirmar la veracidad de un estudio sin saber su método. Lo que sí es posible afirmar es que la selección correcta del método de muestro garantiza buenas conclusiones con poco esfuerzo.

A todo esto, sólo me queda añadir un detalle.  En el caso de las encuestas y estudios sociales con personas, hay otro elemento añadido: el cuestionario.  Este elemento es parte de la caja de herramientas de la estadística, y otro punto clave.  Pero esto, si lo considero oportuno, ya será motivo de otro artículo.

Comentarios

05/03/2009 22:54:33 por huho

esto es una tremenda basura... perras esto no sirve.... MATENCE


06/03/2009 04:14:42 por Mario

¿Andas buscando información más concreta sobre el tema? Me queda claro que este post no te ha valido de nada. Mi intención es simplemente introducir el tema, nada más.

Si puedes aclarar lo que buscas quizá te pueda ayudar en algo, y sino... pues nada.

26/11/2009 21:16:08 por Alba

Hola, mi pregunta no va específicamente dirigida al muestreo estadístico pero tiene mucho que ver. En realidad tendría que poner este comentario en otro post, pero se habían cerrado ya los comentarios para esa entrada. Ese post al que hago referencia tiene el título de "Por qué P = Q = 0,5?" "Significado de p y q". Pues bien, me lo he leído y como mi nivel de matemáticas es bastante bajo no lo he entendido muy bien. Mi problema es el siguiente: tengo entendido que p y q son las probabilidades de que una variable exista o no exista dentro de la muestra estudiada.
Así si p=0,10 entonces q=0,90, en este caso la muestra que necesitaríamos para el mismo error muestral sería menor que si p=q=0,5. Hasta ahí todo bien.
Sin embargo, la lógica me dice que si en un bombo metemos 90 bolas negras y sólo 1 blanca, la probabilidad que tengo de que me salga una bola blanca es muy baja y para que realmente fuese representativo necesitaría coger muchas bolas para que, al fin, apareciese una blanca. No sé si me he explicado, pero vengo a decir que mi lógica parece negar que cuando p=q sea cuando necesito la mayor muestra para el mismo nivel de error.
Si alguien me entiende y ve dónde está mi error agradecería mucho que me contestase en unos términos que pueda entender...jajaja


26/11/2009 22:32:23 por Mario

Hola Alba,

Para empezar, creo que te has explicado estupendamente, por lo que intentaré estar a la altura.

Lo que comentas aquí no es un error en sí, sino dos cuestiones diferentes:una de concepto, y otra de tamaño de la muestra. Vaya por delante que esta cuestión es habitual, por ejemplo, en estadísticas electorales donde hay partidos pequeños, por lo que es un tema con aplicaciones prácticas importantes: la estimación de proporciones pequeñas.

Sobre la cuestión de concepto, básicamente estás jugando "en los dos lados": creas la población y luego intentas muestrearla. En estadística sólo se juega a un bando: muestreas. Pongamos un caso: si un amigo tuyo pone las bolas sin que lo veas, ¿A que cambiaría la situación? Es decir, sólo cuando partes del desconocimiento, y el proceso de conocer tiene un coste, tiene sentido el muestreo.

Al no conocer las proporciones, no conoces p ni q (de hecho es lo que preguntaría tu amigo), por lo que tienes que suponer el peor caso (es decir, el que tiene más varianza y por tanto más posibilidad de error). Y ese caso es 0,5.

Por lo que respecta a la cantidad, aquí es donde entra el tamaño de la muestra. Cuando tienes una población tan pequeña (las 91 bolas), necesitas extraer una muestra proporcionalmente más grande (quizá 40-50 bolas) para tener un nivel de confianza satisfactorio. En cambio, si tuvieras 91.000 bolas (con la misma proporción blancas/negras), no necesitarías extraer 40.000 o 50.000: con unas 500 quizá tendrías suficiente.

Me encantaría saber si te he aclarado tus dudas. En caso contrario, continuamos hablando.

30/11/2009 18:55:48 por Alba

Hola!
Bueno, lo primero: mil gracias por la explicación.
Siento decirte que a pesar de tus esfuerzos hay cosas que sigo sin entender.
No entiendo por qué cuando p y q=0,5 es cuando hay más posibilidades de error. Creo que a lo mejor mi falta de entendimiento está en que no me han explicado el concepto de varianza (estoy estudiando esto dentro de una asignatura de investigación de mercados en Publcidad y RRPP).
Por otro lado, entiendo perfectamente la segunda parte que me has explicado de tamaño de la muestra, pero si relaciono la primera parte de concepto con la segunda de tamaño me surge la siguiente duda (a ver si con un ejemplo queda más claro):
Tengo dos situaciones:
1.- 90 bolas: 45 blancas y 45 negras
2.- 90 bolas: 89 blancas y 1 negra.
¿en cual necesitaría más muestra para que sea representativo?... Comparando ambos casos, si aplicamos la teoría de p y q , el caso donde necesitaría más muestra sería el 1 puesto que p y q =0,5 ¿no?. Sin embargo, mi (maldita) lógica me dice que para conocer la realidad en el caso 2 necesitaría más muestra que en el caso 1....
Creo que después de esto te vas a querer meter un tiro....jajajja
Si te sirve de consuelo mi profesor también ha considerado que esto es una contradicción y no me ha sabido dar un explicación... Así que tampoco tengo muchas esperanzas por conseguir entenderlo... De todas formas me encantaría que siguieses intentándolo.

Gracias de antemano. Un saludo.

30/11/2009 22:15:00 por Mario

Primero de todo, me alegro por tu perseverancia. Seguro que acabaremos sacando algo en claro que otros puedan aprovechar.

Seguiré con los dos casos que comentas para intentar aclarar tus dudas. En cualquiera de los dos casos voy a suponer que sólo puedes coger 5 bolas. Para abreviar, pongo "1B, 4N" para decir que en la muestra ha salido 1 bola Blanca y 4 Negras, ¿de acuerdo?

* En el primer caso, cuántas combinaciones posibles hay?

- 5B, 0N
- 4B, 1N
- 3B, 2N
- 2B, 3N
- 1B, 4N
- 0B, 5N

* En el segundo caso, cuántas combinaciones posibles hay (recuerda que como máximo podemos sacar 1 bola negra, y siempre extraemos 5 bolas)?

- 4B, 1N
- 5B, 0N

Lo que creo que te indica la intuición es que en el segundo caso, si no escoges la bola negra, te da que es un 100% de bolas blancas y eso es falso. Vale, de acuerdo, hay una bola negra. ¿Pero qué distancia hay entre tu estimación y la realidad?

Pues paradójicamente, si cogemos 5B (5 bolas blancas) sólo nos hemos distanciado un poco más de un 1% de la realidad (!): la proporción de bolas negras es 1/89 = 0,0112. O si lo prefieres, un 1.12%. Este es el error de tu estimación, porque al sacar 5B has supuesto que hay un 0% de bolas negras.

En cambio, si nos apareciera la bola negra, supondríamos que el 20% de la bolas son negras (1 bola negra entre 5 bolas extraídas = 0.20, un 20%), y eso es mucho más erróneo. Al sacar la bola negra, tu error respecto a la realidad se "dispara" hasta casi un 19%. Por suerte, este caso es poco probable (si la muestra es realmente aleatoria).

Vamos al caso de más error, donde p=q=0,5 (45B, 45N). En este caso, mirando los dos extremos, (5B o 5N) es donde salta a la vista la diferencia.

- Sabemos que hay un 50% de bolas de cada color.

Caso extremo: sacamos 5B, 0N.
Proporción que suponemos por la muestra: 100% bolas blancas, 0% negras.
Diferencia respecto a la realidad: 50% (!!)

A la inversa (0B, 5N) estamos en lo mismo.

Siguiente paso: ahora supondremos que extraemos 15 bolas en vez de 5.

En el primer caso (89B, 1N), nos encontramos como antes:

- Combinaciones posibles: 14B-1N, ó 15B, 1N

Y en este caso qué sucede si extraemos la bola negra? Pues que la proporción estimada se reduce a 1/15 = 0,06 periódico, 6,6% si lo prefieres. Al triplicar la muestra hemos reducido el error máximo de nuestra estimación.

En el caso 45B-45N, el número de combinaciones posibles es más amplio (desde 0B-15N hasta 15B-0N), pero creo que puedes comprobar que el error persiste: en cualquiera de los dos extremos la distancia entre la media de tu muestra y la media real sigue en un 50%.

La única opción que tendrías para reducir ese error es extraer más de la mitad de las bolas.

En cuanto a las diferencias entre poblaciones pequeñas y grandes, entiendo que parezca una contradicción. Intentaré explicarlo a la inversa. La importancia de cada bola cuando hay pocas es mucho mayor que cuando tienes muchas: cada bola que dejas de coger importa más cuando tienes 90, que cuando tienes 10000. Por decirlo de algún modo, el azar está más "diluído" entre la multitud. Eso sí (quizá era necesario aclararlo), siempre en términos de porcentaje. Si lo miras en cuanto al total (1% de 90 respecto al 1% de 10000) no hay color. Pero en este caso se estudia la proporción, y no el total.

¿Qué tal ahora?

30/11/2009 22:23:34 por Mario

Pequeño lapsus:

En el caso de extraer 15 bolas en el grupo donde sólo hay una bola negra, las combinaciones posibles son: 14B-1N, ó 15B-0N.

01/12/2009 19:23:59 por Alba

Vale, fenomenal....

Mi problema residía en no tener en cuenta el error muestral!!!!!!
Quiero decir, sí lo tenía en cuenta (de hecho la fórmula de p y q la estudiamos en el apartado de error muestral), pero no la introducía como variable a la hora de pensar en el caso de una población pequeña, sólo pensaba en que no saldría representada. Pero ya he entendido que aunque no salga representada, el error que tiene esa muestra es muy pequeño y por tanto para un mismo error muestral, el tamaño de la muestra es menor en estos casos.

Fenomenal!! Creo que está entendido, muchas gracias.

Ahora mi pregunta es cómo lo hacen para decir el porcentaje de personas a las que afecta una enfermedad rara. Por ejemplo " la osteogénesis imperfecta afecta a menos de un 1 por mil de la población" ¿cómo saben realmente que esa es la proporción? Porque como tú bien dices "la importancia de cada bola cuando hay pocas es mucho mayor que cuando tienes muchas", y si en vez de un caso, en la muestra encuentras dos, la probabilidad ya cambia justo al doble... Pero ya entiendo que tampoco tendrá un error muestral demasiado grande.
Es un tema curioso, lo estudiaré más.

Aparte de eso, muchísimas gracias de nuevo por tu ayuda. Un saludo y hasta otra.

01/12/2009 20:40:35 por Mario

Perfecto! Lo hemos conseguido ;-)

Respecto a la precisión (este 1 por mil que comentas), seguro que ya has llegado tíú misma a la conclusión: la muestra es enorme (o quizá incluso se tienen todos los datos).

En general, las estadísticas sanitarias y/o oficiales se basan en los historiales médicos, y en recopilaciones anuales de datos. Tanto las estadísticas de morbilidad y decesos son datos recopilados por las agencias estadísticas públicas.

No podrías dar ese mismo margen de error en una estadística de mercado: quizá te implicaría un muestreo de 20.000-30.000 individuos.

Ánimos con la asignatura de estadística!

20/12/2009 22:41:36 por Alba

Hola otra vez!
Creo que esos datos (los de las enfermedades raras) los sacan del censo electoral, que como es una encuesta que deben rellenar todos los españoles (y si no se rellena hay multa) pues aprovechan ahí para obtener este tipo de información.
Tengo el martes el examen... así que antes de hacerlo, gracias de nuevo!!

21/12/2009 12:10:43 por Mario

Hola Alba,

Antes que nada, ¡muchos ánimos para la recta final de tu estudio!

Respecto a lo que comentas, creo que no es así. Va mas bien por otro lado: la fuente primaria son los centros de salud y los historiales clínicos. Como fuente de información es más fiable que un médico haya diagnosticado una enfermedad.

Para muestra un botón: basta con preguntarte con quién tienes la necesidad de hablar si tienes una enfermedad contagiosa o crónica, ¿Con un médico, o con un encuestador (aunque venga de un Instituto Oficial de Estadística)?

Escribe tu comentario

Nombre   
Comenta Escribe la cuarta palabra que aparece en la lista siguiente:

otro, monótonos, llegas, pueden, convertir, vista, antigua, claro, concretas, analizar

Palabra: