La próxima semana tendremos elecciones en México. El miércoles es el último día en que los medios podrán difundir encuestas. Tras el cierre de casillas vendrá el PREP y el conteo rápido… y con ello un montón de confusiones.
Muchos desconfían de las encuestas, ya sea por buenas o malas razones. Una de las malas razones es la dificultad de creer que entrevistar a 1000 o 2000 personas basta para medir la tendencia central de las intenciones de voto de todo un país. Lo mismo puede ocurrir con el conteo rápido: ¿cómo es posible que baste con la información de 7597 casillas para anticipar el resultado de más de 140 mil casillas instaladas en todo el país?
Una forma de ilustrar por qué las estimaciones muestrales funcionan es utilizar una base de datos conocida, tomar muestras aleatorias (ie, representativas) de la misma, y comparar los datos del “universo” contra la “estimación muestral“.
Aquí encontrarán una hoja de excel con los cómputos distritales a nivel casilla de la elección para diputados federales en México 2009 (Fuente: IFE). (Ojo, es un archivo algo pesado –20mb– pues contiene datos de las 139,959 instaladas en aquel año.)
En la misma hoja de cálculo generé 3 muestras aleatorias con aproximadamente 1%, 5% y 10% de casillas, respectivamente. La idea de las 3 muestras es comparar sus resultados (los estimadores muestrales) con el porcentaje de votos obtenido por cada partido o coalición en la votación total del país (el universo o población). He aquí el resumen de los resultados:
¿Están cuchareadas mis muestras? No. Juro que desconozco el algoritmo generador de números pseudo-aleatorios de Excel. Pero no tienen por qué creerme. Basta con presionar la tecla F9 en Excel para volver a generar 3 muestras aleatorias y comparar sus resultados con el cómputo nacional conocido ya por todos.
El primer reto es este: ¿cuántas veces tienes que presionar F9 para darte cuenta de que las estimaciones muestrales están libres de sesgo (ie, se parecen mucho a los resultados nacionales) y que su precisión (ie, el error estándar) depende solamente del tamaño de la muestra?
¿Y esto qué tiene que ver con el 2012? Una de las muestras del archivo considera sólo 5% de casillas, una cifra similar a la que se usará para el conteo rápido de este 1o de julio. La muestra del conteo rápido se generará la noche del sábado 30 de junio y se entregará a oficinas distritales hasta el domingo. La idea es que nadie, ni partidos ni funcionarios de casilla, sepa qué casillas son parte de la muestra hasta que la jornada electoral esté en marcha para así evitar cualquier tipo de intervención o contaminación en tales casillas. ¿Confiarás en el conteo rápido?
Será posible conseguir esa misma información pero con los datos del 2006?
¡Claro, absolutamente! Y como en el IFE puedes obtener los datos históricos, si de veras deseas tomarte la molestia y el tiempo para solicitarlos, una vez que los tengas contigo verás que la estadística se comporta de la misma manera…
En definitiva !!!
Pingback: Encuesta de encuestas (27 junio 2012) | Javier Aparicio dot net