Participación electoral 2012

La votación total en la más reciente elección presidencial fue de 50,323,153, lo que representa el 63.34% de la lista nominal. La participación promedio en todas las casillas, un indicador algo distinto, fue de 61.34%.

1. La participación electoral tiene una variación importante entre una entidad y otra (between state variation), y al interior de cada estado (within state variation). Estos histogramas ilustran la distribución de la participación electoral a nivel casilla en cada entidad:

¿Cómo explicar la variación entre entidades? Dos factores observables pueden ayudar a explicar estas diferencias: el partido en el gobierno y las elecciones coincidentes. Continue reading

El swing de 2012

Estos son los triplots a nivel casilla de la elección presidencial de 2012 y 2006. Observe de cerca lo que ocurre entre uno y otro y discuta.

¿Cómo se interpreta un triplot?

Si consideramos solamente la suma de votos obtenidos por EPN, AMLO y JVM, y calculamos los porcentajes respectivos, podemos utilizar una gráfica triangular (triplot) para ilustrar el resultado de cada casilla. La gráfica tiene dos páneles, uno para casillas urbanas y otro para no urbanas. Cada punto en el triángulo ilustra la proporción de votos de EPN, AMLO y JVM en una casilla (normalizadas para que sumen 100%). El color de cada punto denota el candidato ganador en esa casilla. El eje horizontal mide el porcentaje de EPN, la diagonal izquierda el de AMLO y la derecha el de JVM. De este modo los puntos cercanos a la “Y” que se dibuja en el centro del triángulo indican casillas donde la competencia fue más reñida, mientras que casillas cercanas a los vértices del triángulo denotan casillas cargadas hacia uno de los candidatos.

Como se aprecia, las casillas no urbanas tienen una alta proporción de casillas sobrecargadas hacia Peña. Por otro lado, en casillas urbanas hubo mucho más casillas reñidas entre EPN y AMLO (ver brazo izquierdo de la “Y”) que entre EPN y JVM.

En 2012 se aprecia que la mayor competencia ocurrió en la región derecha del triángulo de casillas urbanas, es decir, entre AMLO y Calderón. Si observas con cuidado, entre 2006 y 2012, la “nube de casillas” se desplazó de la derecha a la izquierda del trángulo, indicando un fuerte cambio de preferencias hacia el PRI o su candidato. Este es el swing de 2012.

 

Lecciones del resultado electoral

Los amigos de Animal Político me invitaron a escribir unas líneas sobre:

¿Qué lecciones hay en los resultados electorales por casilla y entidad?

Las bases de datos a nivel casilla del PREP y cómputos distritales del IFE nos permiten hacer una primera radiografía del resultado de la elección presidencial 2012. En este blog invitado comentaré algunos resultados estadísticos que pueden ayudarnos a comprender mejor las claves del éxito o fracaso de cada uno de los candidatos presidenciales.

Aquí pueden leer el resto de la nota. Aquí mis conclusiones:

Varias lecciones surgen del análisis anterior. Para concluir destaco sólo dos. La primera es una lección importante para cualquier candidato presidencial: la elección fue mucho más reñida de lo que aparenta en las casillas urbanas que, al representar casi dos tercios de las casillas del país, prácticamente garantizan el triunfo al candidato que gane en ellas. Baste recordar que tanto Peña hoy como Calderón en 2006 ganaron por márgenes similares en casillas urbanas. La segunda es quizá más importante para futuros candidatos de izquierda: para ganar en las zonas urbanas del país no basta con arrasar en una o dos entidades. En 2006 AMLO ganó holgadamente en el DF, Edomex y en las casillas rurales y no bastó. En 2012 volvió a arrasar en la capital y dio una buena batalla en Edomex. Pero no fue suficiente porque se topó con el bajío y un resucitado voto rural priísta. El centro político-electoral del país no está en el “centro”.

Cómputos 2012: resultados por tipo de casilla

Circula en redes sociales una nueva mentira sobre la elección 2012 (bajo otras condiciones diría que es un malentendido o confusión pero según el sapo es la piedra). Según esta nota de Jorge A. González y Jorge A. López Gallardo (doctor en física y profesor de la Univ. de Texas en El Paso), y esta otra donde citan la primera, las casillas especiales son una muestra representativa del país porque “estuvieron distribuidas a lo largo y ancho del país, y en ellas votaron tanto habitantes de zonas urbanas como rurales”, y no sólo eso, son una “súper encuesta cuyos resultados son extremadamente confiables en términos estadísticos”.

Y como AMLO ganó en las casillas especiales, la lógica indica que AMLO debió haber ganado en el resto del país. Y como los cómputos deI IFE dicen lo contrario, cómo dudarlo, ¡ésta puede ser una evidencia más del fraude!

Todo lo anterior es falso por una razón muy sencilla: la premisa inicial es falsa. Las casillas especiales NO son una muestra representativa del país por varias razones: 1. El número y ubicación de las casillas especiales es determinado por cada consejo distrital (es decir, no son aleatorias). 2. Al ubicarse en puntos de alto tránsito, son predominantemente urbanas. 3. Los ciudadanos dispuestos a formarse varias horas para votar en una casilla especial tampoco son representativos del votante mexicano típico.

Va la demostración con 3 sencillas gráficas de pastelito.

1. En el país se instalaron 143,437 casillas, 64% de ellas en zonas urbanas y 36% en zonas no urbanas. Sin embargo, 82% de las casillas especiales son urbanas. Por lo tanto son un muestra sesgada y no representativa del país.

2. En las casillas ordinarias (142,535) EPN obtuvo la mayoría de votos. En las 902 casillas especiales, AMLO obtuvo más votos que EPN pero esto no implica que haya ganado en el resto del país ni que hubo ningún tipo de fraude.

3. Si comparamos los resultados de casillas urbanas vs. no urbanas veremos que EPN tuvo más votos en ambos tipos de casillas. Sin embargo, la ventaja de EPN sobre AMLO es más holgada en las casillas no urbanas (43.4%  vs. 26.7%)  que en las urbanas (35.59% vs. 34.02%). Esto implica que las casillas especiales ni siquiera son representativas de las casillas urbanas.

Conclusión: las casillas especiales, donde AMLO ganó, no son representativas de las preferencias de todo el país. Las casillas urbanas, donde EPN ganó por escaso margen, tampoco lo son. Las casillas para recibir el voto de mexicanos en el extranjero, donde JVM ganó, tampoco lo son. ¿Saben qué cosa sí lo era? El conteo rápido del IFE, mismo que anticipó los resultados del PREP y del cómputo distrital.

¿Qué opinaba López Gallardo del PREP? Que tenía un algoritmo trampso porque había una R de Pearson sospechosamente alta. Eso también era falso y lo dijimos aquí.

¿Por qué ganó AMLO en casillas especiales y JVM en el voto desde el extranjero? Buenas preguntas para su politólogo o sociólogo de confianza. Yo tengo mis teorías al respecto pero ese no es el punto de esta entrada.

(¿Déjà vu? En 2006 se decía una falacia similar a la anterior sobre las actas con inconsistencias que habían quedado fuera del PREP, que eran predominantemente rurales, y donde AMLO derrotaba a Calderón.)

Resultados por distrito y tipo de casilla

Este domingo el Consejo General del IFE reportó el cómputo distrital para la elección presidencial de México en 2012. Como vimos ya, este coincide en gran medida con los resultados del PREP.

Muchos se clavan en las texturas de “por qué llegan primero unas casillas que otras” (porque la geografía y la distancia importa) y/o por qué el flujo de datos del PREP no es 100% aleatorio (porque hay factores sistemáticos y preferencias políticas regionales que lo afectan), cuando lo realmente importante es analizar con cuidado los resultados a nivel distrito y casilla.

En esta entrada les comparto el excelente análisis de Fernando Pérez Cervantes (@EulerEquation), candidato a Doctor en Economía por la Universidad de Chicago.

  • Mapa de resultados de la elección presidencial a nivel distrital (con base en datos del PREP 2012 del IFE). Aquí una versión interactiva del mismo mapa.
  • Histogramas de resultados a nivel casilla en casillas urbanas y no urbanas para EPN, AMLO y JVM, así como votos totales.

Las gráficas se explican por sí mismas, creo.

¿Qué es eso de un histograma y cómo se lee? Un histograma ilustra la distribución de frecuencias de una variable o conjunto de datos. En este caso, en el eje horizontal se encuentra el total de votos o bien el voto de cada candidato, mientras que en el eje vertical relfeja el número de casillas para cada nivel de votación. Los histogramas ilustran tanto la tendencia central o promedio de una variable (fíjate en “el pico de la gráfica”), como la dispersión o varianza de la misma (fíjate en que tan “aplanada o picuda” es la gráfica). Por último, el histograma también refleja si una distribución es simétrica (como una campana) o sesgada (con una cola más delgada que otra). Enjoy!

Conteo rápido vs cómputo distrital 2012

En unos minutos concluirá el cómputo distrital (incluyendo recuentos) del IFE para la elección presidencial. Hasta ahora, el cómputo distrital tiene un nivel de avance similar al que tuvo el PREP en su cierre de las 8pm del lunes 2 de julio: 98.5 vs. 98.9%.

¿Cómo se comparan estos resultados con los del conteo rápido? Muy bien, reafirmando una vez más, la validez metodológica del los estudios probabilísticos basados en muestras representativas, mejor conocidos como encuestas.

La concordancia o consistencia de los tres levantamientos es una pieza clave del proceso electoral.

  • Si el conteo rápido y el PREP no coincidieran, una de dos, o la muestra estuvo mal diseñada, o algo raro pasó en la captura de los datos del PREP.
  • Si el conteo rápido y el cómputo distrital no coincidieran, una de dos, o la muestra estuvo mal diseñada, o algo raro pasó con las actas entre el cierre de casillas y el cómputo distrital.
  • Por últimp, si el PREP y el cómputo distrital coinciden tras realizar numerosos recuentos, implica que los errores o inconsistencias de las actas PREP no tuvieron un sesgo, y que los escrutinios realizados en las mesas de casilla son confiables.

(Actualización 6 de julio: el cómputo distrital para presidente ha concluido. La tabla incluye ya los resultados respectivos.)

Elección presidencial México 2012
Candidato Conteo rápido PREP Cómputo distrital
EPN 37.93 – 38.55 38.15% 38.21%
AMLO 30.9 – 31.86 31.64% 31.59%
JVM 25.1 – 26.03 25.40% 25.41%
GQT 2.27 – 2.57 2.30% 2.29%
Margen victoria 6.86* 6.51% 6.62%
Cobertura Muestra 5% 98.95% 100%
*Asumiendo el promedio del intervalo de EPN y AMLO.

PREP 2012 III

Mañana inician los cómputos distritales en los 300 consejos distritales del IFE en el país. En estas sesiones se cotejan las actas de escrutinio originales de cada paquete con las copias de actas en manos de los partidos políticos y, en caso de haber inconsistencias evidentes o de cumplirse alguna de las hipótesis de recuento marcadas en la ley, se abre y revisa el paquete electoral.

Los datos de las “actas PREP” son meramente preliminares y en este momento sólo sirven de guía para identificar casillas con problemas evidentes. Los resultados de las actas originales (que se encuentran al interior de cada paquete) se vuelven a capturar, previa revisión de los consejos distritales y siempre en presencia de representantes de partido político.

En esta última entrada sobre el PREP para presidente 2012, dejaré de lado el “flujo temporal” de los datos (discutido aquí y aquí) para analizar rápidamente algunos resultados clave que ayudarán a comprender lo que viene mañana: el cómputo y posible recuento de casillas.

Distribución de casillas urbanas y no urbanas 

UBICACION 
CASILLA    | Frec.   Porcentaje %Acum.
-----------+-----------------------------------
 Urbana    | 89,955   64.28     64.28
 No urbana | 49,986   35.72    100.00
------------+-----------------------------------
 Total     | 139,941 100.00

 Resultados promedio en casillas urbanas (N=89955)
 Variable | Media    Desv.Est. N
-------------+------------------------------
 epn      | 130.3143 43.60015 89955
 amlo     | 124.7646 64.06251 89955
 jvm      | 94.84739 54.11944 89800
 v_total  | 366.6762 86.89272 89955
 particip | .6244781 .0923858 89228
--------------------------------------------
Resultados promedio en casillas no urbanas (N=49986)
 Variable | Media    Desv.Est. N
-------------+------------------------------
 epn      | 141.7618 64.75295 49986
 amlo     | 87.77438 66.89149 49986
 jvm      | 80.07348 56.75102 49862
 v_total  | 326.9012 118.0007 49986
 particip | .6427021 .1238378 49833
--------------------------------------------

35.7% de las casillas están clasificadas como no urbanas y 64.3% como urbanas. Como se aprecia en la tabla, EPN superó a AMLO por 5.5 votos (130.31 vs. 124.76) en casillas urbanas pero este margen se amplía hasta 53.9 (141 vs. 87) votos en casillas no urbanas. Otro dato curioso es que las casillas no urbanas muestran una mayor tasa de participación que las urbanas: 64.2% vs. 62.4%. (La ventaja rural de EPN ya se había comentado aquí.)

Esta gráfica de caja (box plot) ilustra la distribución de votos (percentil 25, mediana y percentil 75) en casillas urbanas y no urbanas. El panel derecho indica la ventaja de EPN en casillas no urbanas. El panel izquierdo indica que los votos de AMLO a nivel casilla tienen mayor dispersión (varianza) que los de EPN y JVM.

Candidato ganador por casilla

 Ganador |
 casilla | Frec. Porcentaje % Acumulado
---------+-----------------------------------
 JVM     | 25,348  18.04   18.04
 EPN     | 70,657  50.29   68.33
 AMLO    | 44,491  31.67  100.00
---------+-----------------------------------
 Total   | 140,496        100.00

De acuerdo al PREP, EPN ganó en poco más la mitad de las casillas del país: 70,657 casillas. Aquí va un gráfico de pastel (cualquier parecido a los de las encuestadoras es mera coincidencia):

Casillas zapato

Según el PREP, EPN obtuvo el 100% de votos en 9 casillas, AMLO en 6 y JVM en 8. Estas casillas por definición se recuentan durante los cómputos: no se preocupen.

Participación electoral, votos por candidato y margen (EPN – AMLO)

Tradicionalmente, se dice que una mayor participación electoral perjudica al PRI. Dicho de otro modo, que el abstencionismo le beneficia. Una simple matriz de correlaciones (¡la famosa correlación de Pearson aquí sí aplica!) de los resultados por casillas indica lo siguiente:

                   % EPN   %AMLO  %JVM   Margen%  %Particip  
                                         EPN-AMLO
----------------+---------------------------------------------
           %EPN |  1.0000
          %AMLO | -0.5529  1.0000
           %JVM | -0.2589 -0.6398 1.0000
Margen EPN-AMLO |  0.8454 -0.9125 0.2830  1.0000
    % Particip. | -0.0597  0.0173 0.0412 -0.0404 1.0000

N = 127300 casillas

Como se aprecia en la matriz, la correlación entre la tasa de participación de electoral de cada casilla y el porcentaje de votos de EPN es ligeramente negativa, mientras que para AMLO y JVM es ligeramente positiva. La correlación entre participación y margen EPN-AMLO también es negativa: a mayor participación electoral, menor ventaja de EPN sobre AMLO.

Estas correlaciones están dominada por los resultados de casillas urbanas (64% del total de casillas reportado en PREP). Como tenemos evidencia que indica que las casillas urbanas y no urbanas tuvieron patrones de voto distintos, vale la pena analizar la relación participación vs. margen EPN-AMLO en ambos tipos de casillas. Como indica esta última gráfica, en las casillas urbanas en el país hay una correlación negativa entre participación y ventaja de EPN (-0.19). Pero si sólo consideramos casillas no urbanas, la correlación se vuelve positiva (0.07).

Actualización 4-julio-2012.
Sabemos que EPN ganó en la mayoría de casillas y entidades pero el margen de victoria no necesariamente es el mismo. Esta gráfica ilustra el promedio estatal del margen %EPN – %AMLO calculado con base en todas las casillas reportadas en el PREP.

Actualización: 11-julio-2012
Por último, esta gráfica ilustra el margen promedio %EPN – %AMLO en las casillas de cada entidad, distinguiendo entre casillas urbanas y no urbanas (calculado con base en PREP 2012):

PREP 2012 II

El PREP 2012 ya ha finalizado. Aquí les dejo algunas gráficas sobre la evolución del PREP desde su inicio y hasta las 8pm del 2 de julio.

La primera gráfica ilustra la evolución del porcentaje de votos de EPN, AMLO y JVM conforme fueron llegando los paquetes de casilla a las juntas distritales del IFE. Como sabemos, las primeras casillas en llegar son urbanas. SI JVM obtuvo más apoyo en zonas urbanas que rurales, esto puede explicar porque su nivel de votos eoluciona de “más a menos”. AMLO también parece tener cierta ventaja en zonas urbanas, sobre todo en el DF, lo cual puede explicar la curva en forma de U invertida. Por último, EPN parece haber ganado con un amplio margen en zonas rurales, lo cual explica por qué su nivel de votos aumenta lentamente hacia las últimas horas del PREP (las casillas rurales son minoría en el país, pero parecen ayudarle bastante).

La segunda gráfica ilustra la evolución del diferencial o margen porcentual de votos entre EPN y AMLO. El patrón en forma de U verifica los que dije antes: AMLO tuvo cierta ventaja en zonas urbanas –lo cual explica la caída del margen en las primeras 50 mil casillas del PREP, tal y como vimos anoche antes de las 3am– pero EPN se recuperó con las casillas rurales.

Vale la pena destacar que la evolución del PREP no es aleatoria puesto que se trata de un flujo de datos de casillas en tiempo real (“se capturan y suman como van llegando”), y como tal tiene un sesgo urbano y de otro tipo, tales como clima, geografía, tiempo que tarde en cerrarse una casilla, etc. El PREP no es representativo de los resultados nacionales sino hasta que acumula un avance de 80% o más. Lo que sí es cierto es que los porcentajes de voto reflejados en el PREP paulatinamente convergen o se van acercando a la estimación del conteo rápido–la cual sí es representativa del resultado nacional al tener como base una muestra aleatoria de casillas.

Las estimaciones centrales del conteo rápido del IFE, anunciadas antes de la medianoche del domingo, fueron estas: EPN 38.24%, AMLO 31.38%, y JVM 25.56%, con un margen de error máximo de +/- 0.48 puntos porcentuales. Al cierre del PREP, los porcentajes de los candidatos fueron: EPN 38.15, AMLO 31.64, JVM 25.4%. La consistencia entre PREP y conteo rápido son un mecanismo de control muy importante del proceso electoral: si no coincidieran sus tendencias, querría decir que, una de dos, o la muestra estuvo mal diseñada, o algo raro ocurre con las actas del PREP.

SOBRE La sospechosa correlación de Pearson

La tercera gráfica ilustra un punto obvio: si analizamos los votos acumulados de los tres candidatos, encontraremos tres líneas ascendentes con muy alta correlación entre ellas: ¡Lo que sube linealmente correlaciona fuertemente con otra cosa que también sube! Esto de ninguna manera es una anomalía del PREP, sino un error o un engaño (ustedes decidan). De hecho, cualquier suma acumulada tendrá correlaciones de Pearson cercanas a uno. Aquí te comparto mi “PREP de mentiritas” (es un archivo en Excel) para que juzgues por ti mismo.

El flujo de casillas del PREP no es 100% aleatorio

Muchos asumen, equivocadamente, que el flujo de datos del PREP debe ser tan aleatorio como uno proceso estocástico sin tendencia o bien mostrar vaivenes como los de un electrocardiograma. ¿Cómo se vería un PREP 100% aleatorio? Fácil, las primeras 500 o 1000 casillas serían una muestra representativa de las tendencias nacionales y de ahí en adelante las cosas serían bastante aburridas. Para bien o para mal, el PREP no es tan aleatorio como muchos quieren, ni podría serlo, una vez que entiendes que es un proceso de acopio de datos de más de 140,000 casillas hacia 300 centros de captura (y en ese proceso la distancia, infraestructura y geografía de cada distrito importan tanto como las prefencias políticas de cada región). Aquí una gráfica de un PREP 100% aleatorio:

Materiales relacionados

Encuesta de encuestas al 27 de junio de 2012

Hoy es el último día para difundir encuestas electorales en México debido a una extraña veda llamada “período de reflexión”. Pues bien, ¿qué mejor forma de reflexionar tu voto que considerar la evolución de las preferencias a lo largo de la campaña y/o cuales son las tendencias finales? Las encuestas de cierre son un buen insumo para decidir, por ejemplo, un voto útil o no, o bien un voto diferenciado o un voto uniforme.

A mi modo de ver, la mejor recopilación de encuestas durante esta campaña es la de ADNpolítico (aquí los datos a la fecha). Por otro lado, el mejor esfuerzo para ponderar estos datos y estimar un intervalo de confianza es el de Diego Valle Jones. He aquí las dos gráficas de su encuesta de encuestas final para la elección presidencial 2012:

Entradas relacionadas en este blog:

Estimadores muestrales y conteo rápido

La próxima semana tendremos elecciones en México. El miércoles es el último día en que los medios podrán difundir encuestas. Tras el cierre de casillas vendrá el PREP y el conteo rápido… y con ello un montón de confusiones.

Muchos desconfían de las encuestas, ya sea por buenas o malas razones. Una de las malas razones es la dificultad de creer que entrevistar a 1000 o 2000 personas basta para medir la tendencia central de las intenciones de voto de todo un país. Lo mismo puede ocurrir con el conteo rápido: ¿cómo es posible que baste con la información de 7597 casillas para anticipar el resultado de más de 140 mil casillas instaladas en todo el país?

Una forma de ilustrar por qué las estimaciones muestrales funcionan es utilizar una base de datos conocida, tomar muestras aleatorias (ie, representativas) de la misma, y comparar los datos del “universo” contra la “estimación muestral“.

Aquí encontrarán una hoja de excel con los cómputos distritales a nivel casilla de la elección para diputados federales en México 2009 (Fuente: IFE). (Ojo, es un archivo algo pesado –20mb– pues contiene datos de las 139,959 instaladas en aquel año.)

En la misma hoja de cálculo generé 3 muestras aleatorias con aproximadamente 1%, 5% y 10% de casillas, respectivamente. La idea de las 3 muestras es comparar sus resultados (los estimadores muestrales) con el porcentaje de votos obtenido por cada partido o coalición en la votación total del país (el universo o población). He aquí el resumen de los resultados:

¿Están cuchareadas mis muestras? No. Juro que desconozco el algoritmo generador de números pseudo-aleatorios de Excel. Pero no tienen por qué creerme. Basta con presionar la tecla F9 en Excel para volver a generar 3 muestras aleatorias y comparar sus resultados con el cómputo nacional conocido ya por todos.

El primer reto es este: ¿cuántas veces tienes que presionar F9 para darte cuenta de que las estimaciones muestrales están libres de sesgo (ie, se parecen mucho a los resultados nacionales) y que su precisión (ie, el error estándar) depende solamente del tamaño de la muestra?

¿Y esto qué tiene que ver con el 2012? Una de las muestras del archivo considera sólo 5% de casillas, una cifra similar a la que se usará para el conteo rápido de este 1o de julio. La muestra del conteo rápido se generará la noche del sábado 30 de junio y se entregará a oficinas distritales hasta el domingo. La idea es que nadie, ni partidos ni funcionarios de casilla, sepa qué casillas son parte de la muestra hasta que la jornada electoral esté en marcha para así evitar cualquier tipo de intervención o contaminación en tales casillas. ¿Confiarás en el conteo rápido?

Sobre el conteo rápido 2012

El TEPJF acaba de revocar el acuerdo del IFE mediante el cual, al igual que en procesos pasados, el IFE implementaría un conteo rápido en la elección presidencial de 2012 (SUP-RAP-0118-2012).

El argumento de la sentencia incurre en varios errores que vale la pena repasar uno por uno, cosa que hice hace rato en mi cuenta de twitter… pero que vale la pena exponer con mayor detenimiento aquí. Entretanto, va un copy-paste de mis últimos tuits sobre este tema:

[lo que sigue es un vil borrador, conste]

  • El TEPJF does it again: revocan conteo rápido con el chafa argumento de que estimaciones probabilísticas se prestan a especulación.
  • El conteo rápido usa una muestra aleatoria (ie, representativa), ergo es MENOS sesgado que el PREP.
  • El conteo rápido es probabilístico Y representativo. Por ello abona en favor de la certeza del proceso electoral.
  • En un entorno de encuestas (ajá, probabilísticas) chafas, el conteo rápido del IFE brinda MAS información confiable (no menos).
  • En 2006 el PREP sobreestimó la ventaja de Calderón en casi el doble (1% vs el famoso 0.56%) mientras que conteo rápido dijo “margen<0.6%”.
  • Sin el conteo rápido “oficial” del IFE, quedamos a merced de “lo que digan” las exit polls y el sesgado PREP la noche del domingo.
  • El PREP es un censo en tiempo real (“de a como van llegando las actas”), transparente, sí, pero con sesgo urbano.
  • El conteo rápido esta basado en una amplia muestra representativa de casillas y cierra 11pm. El PREP tarda 24 hrs.
  • El conteo rápido ofrece un “control” de calidad al cómputo distrital. Si uno y otro difieren, algo anda mal: o la muestra o las actas.
  • Qué pena que el TEPJF no entienda que, frente a la incertidumbre electoral, más información oportuna es SIEMPRE mejor que menos.
  • Bajo la lógica del Tribunal, habría que prohibir encuestas de salida porque también son probabilísticas y se prestan a especulación.
  • Pero claro, si alguien quisiera construir una “narrativa de fraude”, el conteo rápido le estorbaría.
  • Si la muestra del conteo rápido y el cómputo oficial coinciden, es evidencia que no hubo manipulación de actas de casilla entre el cierre de casillas y el cómputo.
  • Claro, queda el PREP y el cómputo oficial para cotejar, pero hay casillas que no llegan al PREP son ilegibles o erradas (por ello su sesgo).
  • Se dice que el PREP y el conteo rápido son reduntantes. Es cierto, ambos registran información a nivel casilla pero sólo el conteo tiene una estimación representativa confiable a las 11pm, mientras que las tendencias del PREP se consolidan hasta muy avanzada la madrugada del lunes.

Información relevante:

Estas gráficas resumen la información que reveló el conteo rápido del 2 de julio de 2006:

Como se explica en este reporte, hubo 3 estimaciones distintas (robusta, clásica y bayesiana) con base en una muestra de 7636 casillas. Este marco muestral estaba diseñado para poder declarar ganador siempre que el margen de victoria fuera mayor a  0.6%.

Por desgracia, el margen fue de 0.58% (0.56% tras recuentos del TEPJF), razón por la cual el IFE no pudo adelantar ganador la noche misma de la elección.  Pero ojo, esto no quiere decir que el conteo rápido era inútil: el conteo permitía afirmar que le elección estaba cerrada a menos de 0.6% y, por lo tanto, que si cualquier candidato se declaraba ganador con base en encuestas de menor precisión, estaba mintiendo.

Como se aprecia en la gráfica, la estimación bayesiana daba como ganador a Calderón, mientras que las otras dos lo ubicaban por arriba de AMLO pero dentro del margen de error al 95%. En todo caso, esta información sugería que Calderón tenía mayor probabilidad de ganar que AMLO, como se evidenció horas después con el PREP y el cómputo distrital.  En esto radica la utilidad del conteo rápido: dar luz cuando el PREP apenas acumula cierto avance y cuando medios y candidatos juegan con cifras de encuestadoras no siempre confiables.

Basta recordar que siempre es posible dar mayor precisión a un conteo rápido ampliando la muestra: por ejemplo, con  una muestra de 10 mil casillas, Calderón hubiera quedado fuera del margen de error.

Predisposición autoritaria en México

Ayer se presentó al público la Encuesta Nacional de Valores: lo que une y lo que divide a los mexicanos, 2010″, realizada por Banamex y la Fundación Este País. La encuesta reviste particular importancia por su tamaño (casi 16 mil encuestados) y un diseño muestral representativo a nivel estatal. Con motivo del evento, Banamex invitó a un grupo de académicos a analizar diversos temas de la encuesta. En concreto, me interesé en la pregunta:

P.45. ¿Con cuál de las siguientes frases está usted más de acuerdo?

  1. La democracia es preferible a cualquier otra forma de gobierno.
  2. En algunas circunstancias, un gobierno autoritario puede ser preferible a uno democrático.
  3. A la gente como uno, nos da lo mismo un régimen  democrático que uno no democrático.
Con la colaboración de Georgina Flores Ivich, realizamos un análisis preliminar de la predisposición autoritaria entre los mexicanos, y algunos de sus determinantes. Esta gráfica ilustra la frecuencia nacional de respuesta (62, 20, 18%, respectivamente):

La directiva Elba y el 2006

[Update 13-julio: una versión revisada de este análisis, con datos a nivel casilla y algunos modelos de regresión, está aquí (pdf)]

Según diversas fuentes, el “arreglo político” entre Felipe Calderón y Elba Esther Gordillo consistió en intercambiar apoyo electoral (whatever that means) por cargos importantes en la administración federal y otras prebendas.

Según algunas versiones, parte de la estrategia con que el Partido Nueva Alianza consiguió el registro como partido político nacional (¿se acuerdan del “uno de tres“?) instruía a los agremiados del SNTE a dar (o conseguir) votos al PANAL en la boleta para diputados federales y, a su vez, votar por Felipe Calderón en la boleta presidencial. Por sencillez, llamémosle “la directiva Elba” a esta estrategia y exploremos sus implicaciones. Otra parte de la estrategia involucraba utilizar a los operadores electorales del SNTE para favorecer a Calderón de uno u otro modo: por desgracia, es difícil encontrar evidencia de compra o coacción de votos si sólo analizamos los resultados electorales.

Una parte de la estrategia funcionó. Según el cómputo distrital del IFE, Nueva Alianza obtuvo 1,872,283 votos, equivalentes al 4.48% de la votación nacional emitida para diputados de mayoría relativa, mientras que su candidato presidencial, Roberto Campa, sólo obtuvo 401,804 votos (0.96%). Por oto lado, los senadores de Nueva Alianza obtuvieron 1,677,033 votos (4%). Así las cosas, entre 1.27 y 1.47 millones de ciudadanos que votaron por los legisladores del PANAL no apoyaron a Campa para presidente.

¿A dónde se fueron los votos diferenciados del PANAL (split ticket voters)? Es muy difícil dar una respuesta precisa, puesto que los votos son anónimos y los votos diferenciados pueden tener múltiples configuraciones: a lo mejor alguien voto por Campa pero no votó por los diputados del PANAL, quizá algunos votaron por Calderón y por los diputados del PRI, y quizá otros más votaron por Patricia Mercado y por el PANAL. Es por ello que la mejor forma de medir el voto diferenciado es mediante las encuestas de salida. Por ejemplo, según la encuesta de salida de IPSOS-BIMSA 2006, 22.7% de los ciudadanos que votaron por los diputados del PANAL votaron por Felipe Calderón para presidente, mientras que 27.8% de ellos lo hicieron por Andrés Manuel López Obrador.

¿Podemos usar los datos agregados por casilla o distrito para validar este hallazgo? Una primera aproximación consiste en analizar la relación entre los resultados distritales de cada partido en la elección presidencial y en la de diputados federales, como en esta matriz de correlaciones. De acuerdo con estos datos, el partido que tuvo mayor voto diferenciado fue ASDC, seguido del PANAL–y el que menos voto diferenciado tuvo fue el PAN (a menor coeficiente de correlación entre el voto de diputados y presidente de un mismo partido, marcados en rojo, mayor voto diferenciado).

Si la “directiva Elba” hubiera sido obedecida a pie juntillas deberíamos observar que, en aquellos distritos donde hubo un mayor porcentaje de votos para PANAL-Diputados (y menos para Campa), habrá más votos para Felipe Calderón. Una segunda implicación observable de la directiva Elba sería que allí donde el diferencial (Voto PANALdiputados – Voto Campa) sea mayor, menos votos habrá para Andrés Manuel López Obrador. En resumen, a mayor voto diferenciado del PANAL en cierto distrito, debe irle mejor a Calderón y peor a AMLO.

Esta gráfica ilustra el diagrama de dispersión (scatterplot) entre nuestras tres variables de interés, medidas a nivel distrital: 1) El diferencial de votos del PANAL (%voto diputados – %voto Campa), 2) el porcentaje de votos de Calderón, y 3) el porcentaje de votos de López Obrador. Como se aprecia, la correlación entre el diferencial de votos del PANAL y los votos de Calderón es ligeramente positiva… como también lo es la de López Obrador. Una correlación de 0.108 no permite rechazar la directiva Elba, pero la correlación positiva (y de magnitud similar, 0.096) con el voto de AMLO sí la contradice.

La siguiente gráfica analiza a mayor detalle la relación entre el porcentaje de votos del PANAL-diputados y los votos obtenidos por Felipe Calderón a nivel distrital (aquí el coeficiente de correlación es de 0.146). La gráfica incluye una línea de regresión simple en color naranja (R2 = 0.021).

Los votantes de los distritos que están por debajo de la recta naranja no parecen haber cumplido con la directiva, y los que están por encima quizá sí lo hicieron. Como se aprecia, el 5o distrito de Sinaloa está muy cerca de la línea de regresión. El distrito que dió mayores votos al PANAL-diputados fue el 4o distrito de Puebla (cabecera en Zacapoaxtla) con 14%. Sin embargo, en ese distrito ganó Roberto Madrazo con 31.9%, seguido de AMLO con 28.2% y Calderón quedó en tercer lugar con 27.8%. En Santa Catarina, cabecera del primer distrito de Nuevo León, la historia fue distinta: el PANAL obtuvo 11.2% y Calderón 57.7% de votos.

Antes de desgarrarse vestiduras con base en un regresión simple, consideren la misma gráfica pero con un ajuste cuadrático (R2 = .045). De acuerdo a esta regresión, si el PANAL alcanzaba más de 6.7% de votos para sus diputados, la relación con el voto de Calderón se vuelve negativa (y NL1 es un outlier). Una relación cóncava como ésta contradice la directiva Elba.

Vale la pena aclarar que esta evidencia es meramente sugestiva: claramente, hay muchos otros factores que explican los resultados electorales de 2006 (por ello la R2 de las regresiones reportadas arriba es tan baja). Además, el análisis a nivel distrital padece de la llamada “falacia ecológica”, que consiste en atribuir a individuos el comportamiento agregado de un distrito (por eso la mejor forma de medir este fenómeno es con una encuesta de salida).

A pesar de esto, si recurrimos a los datos a nivel casilla, la inferencia es mucho más precisa pues se cuenta con datos de más de 130 mil casillas. La siguiente gráfica ilustra el diagrama de dispersión entre las mismas tres variables de interés, medidas a nivel casilla. Como se aprecia, la correlación entre el diferencial de votos del PANAL y los votos de Calderón es ligeramente positiva (0.074), pero la de López Obrador es aún mayor (0.11). En breve, si bien la primera correlación no permite rechazar la directiva Elba, la segunda correlación sí la contradice.

Así las cosas, la evidencia en favor de la directiva Elba no parece ser muy robusta. La evidencia sugiere que, si bien el SNTE pudo ser capaz de movilizar hasta 4.4% de los votos para diputados y con ello conseguir su registro, no se puede descartar que los votos movilizados por el SNTE favorecieron en mayor medida a Andrés Manuel López Obrador que a Felipe Calderón. Esta evidencia ayuda a poner en perspectiva la capacidad de movilización del SNTE y el partido Nueva Alianza, así como su capacidad de influir en elecciones nacionales.

Temas relacionados:

“Elba Esther o la ilusión del atajo”: artículo de Denise Maerker en El Universal.
La deuda con Elba Esther: artículo de Carlos Tello en Milenio.
Resultados electorales Nueva Alianza en 2006 y 2009.
Análisis estadístico de la elección presidencial en México 2006.

[Update 13-julio: una versión revisada de este análisis, con datos a nivel casilla y modelos de regresión, está aquí (pdf)]

Capos y violencia

Por razones obvias, de un tiempo a esta parte ha habido un creciente debate sobre la causalidad entre los operativos federales–“la caída de capos”–y los niveles de homicidios en diferentes regiones del país. La versión oficial sugiere que los operativos llegan a donde se han detectado severos problemas de violencia e inseguridad: el bombero va al fuego. Versiones alternativas sugieren diferentes mecanismos mediante los cuales los operativos mismos pueden producir aumentos en la violencia.

Trágico como es, el tema es un claro ejemplo de lo difícil que resulta inferir causalidad a partir de datos no experimentales: o la violencia causa a los operativos, o los operativos mismos causan más violencia, o ambos son causados por un tercer factor no identificado aún. En términos  metodológicos hay un problema de endogeneidad que no permite identificar plenamente el sentido de la causalidad con los datos disponibles a la fecha.

De hecho, si impartiera un curso de diseño de investigación, lo iniciaría precisamente con este debate. He aquí algunas lecturas obligadas:


Alternancia municipal en México

El día de hoy, Esteban Guzmán Saucedo defendió la tesina “Determinantes de la alternancia política a nivel municipal en México, 1988 a 2008” para obtener el título de Licenciado en Ciencia Política y Relaciones Internacionales en el CIDE.

Si bien la (posibilidad de) alternancia se considera un elemento sustancial de una democracia, hay pocos estudios sistemáticos que nos permitan estimar con cierta generalidad los determinantes de la alternancia en los municipios mexicanos. A partir de los datos electorales de CIDAC, Esteban construyó una base de datos con los resultados electorales municipales entre 1988 y 2008, y a partir de ella construyó un indicador binario de alternancia para cada municipio. Esta variable se actualiza cada tres años dependiendo del calendario electoral de los estados.

¿Hay estados con más alternancia que otros? Un primera aproximación puede hacerse calculando la proporción de municipios de cada estado que han tenido alternancia en un período dado. La siguiente figura ilustra los estados con alternancia alta, moderada, poca o nula–medido en el período 1988 – 2008. Vale la pena destacar, por ejemplo, que hay una mayor proporción de municipios con alternancia en estados como Veracruz, Michoacán y Guerrero, que en estados como Nuevo León o San Luis Potosí. Hasta 2008, 240 municipios mexicanos no habían tenido alternancia.

La proporción de municipios con alternancia al interior de un estado también cambia a lo largo del tiempo. En México, en general ésta aumentó a lo largo de los noventas para luego estabilizarse en algunos estados, o incluso disminuir en otros. La siguiente figura ilustra la historia de la alternancia municipal en cada estado entre 1988 y 2008.

Evidentemente, la variable dependiente de interés es la probabilidad de alternancia de cada municipio, misma que puede estimarse con un modelo panel logit. En su tesina, Esteban estimó el efecto de diferentes factores que, según la literatura exitente, pueden producir alternancia: participación electoral, cultura cívica, gobiernos yuxtapuestos y niveles de marginación, controlando por otros factores (población, número efectivo de partidos, coaliciones, efectos municipales y anuales). Los principales resultados son: 1. Tanto participación como mayores niveles de educación (proxy de cultura cívica) aumentan la alternancia esperada. 2. La yuxtaposición entre estado y municipio tiene un mayor impacto que aquella entre gobierno federal y municipal. 3. Una vez que se controla por educación y población, la marginacion no tiene un impacto significativo en la probabilidad de alternancia. Hay más resultados interesantes, pero mejor léanla.