Análisis descriptivo

Comenzamos por cargar los datos

diputaciones <- read.csv('diputaciones.csv')
distritos <- read.csv('PORCENTAJES_INE_DISTRITO_2020.csv')

donde * diputaciones: continen los resultados de la votación por acta a nivel Federal. * distritos: es la base de datos que hemos venido trabajado.

Problema 1

Calcular porcentajes a favor de cierto partido o coalicíon, por ejemplo, Morena para cada distrito electoral (si es una coalicíon, se deben sumar varias columna, donde las coaliciones son va por México (vxm) y Juntos haremos historia (jhh)).

Solución: Comenzaremos por hallar el porcentaje a favor de los partidos individualmente. Recordemos que el porcentaje de un cierto número de datos se calcula como

\[ \frac{(\textrm{ciertos datos})\times 100}{\textrm{total de datos}} \] por lo que

# Calculamos el total de votos
total_votos<-sum(diputaciones$TOTAL_VOTOS_CALCULADOS)

distritos$PAN<-diputaciones$PAN/ total_votos * 100 
distritos$PRI<-diputaciones$PRI/ total_votos * 100 
distritos$PRD<-diputaciones$PRD/ total_votos * 100 
distritos$PVEM<-diputaciones$PVEM/ total_votos * 100 
distritos$PT<-diputaciones$PT/ total_votos * 100 
distritos$MC<-diputaciones$MC/ total_votos * 100 
distritos$MORENA<-diputaciones$MORENA/ total_votos * 100 
distritos$PES<-diputaciones$PES/ total_votos * 100 
distritos$RSP<-diputaciones$RSP/ total_votos * 100 
distritos$FXM<-diputaciones$FXM/ total_votos * 100 
distritos$CI<-diputaciones$CI/ total_votos * 100

donde

  • PAN - Número de votos para el Partido Acción Nacional
  • PRI - Número de votos para el Partido Revolucionario Institucional
  • PRD - Número de votos para el Partido de la Revolución Democrática
  • PVEM - Número de votos para el Partido Verde Ecologista de México
  • PT - Número de votos para el Partido del Trabajo
  • MOVIMIENTO CIUDADANO- Número de votos para el Partido Movimiento Ciudadano
  • MORENA - Número de votos para el Partido Morena
  • PES - Número de votos para el Partido Encuentro Solidario
  • RSP - Número de votos para el Partido Redes Sociales Progresistas
  • FXM - Número de votos para el Partido Fuerza Por México
  • CI - Número de votos para la candidatura independiente

Después proseguimos a los porcentajes de las coaliciones

distritos$VXM<-(diputaciones$PAN + diputaciones$PRI + diputaciones$PRD + diputaciones$PAN.PRI.PRD + diputaciones$PAN.PRI + diputaciones$PAN.PRD + diputaciones$PRI.PRD) / total_votos * 100 
distritos$JHH<-(diputaciones$MORENA + diputaciones$PT + diputaciones$PVEM + diputaciones$PVEM.PT.MORENA + diputaciones$PVEM.PT + diputaciones$PVEM.MORENA + diputaciones$PT.MORENA) / total_votos * 100 

Finalmente sobre los votos nulos y los candidatos no registrados

distritos$VOTOSNULOS<-diputaciones$VOTOS.NULOS / total_votos * 100 
distritos$CNR <- diputaciones$CANDIDATO.A.NO.REGISTRADO.A / total_votos * 100

Problema 2

Generar diagramas de dispersíon entre la variable construida en 1) con cada una de las 5 variables construidas en clase sobre estad́ısticas censales a escalas geoelectorales. Esto es

  • (VPH_CEL) % Viviendas particulares habitadas que disponen de teléfono celular
  • (VPH_EXCSA) % Viviendas particulares habitadas que disponen de excusado o sanitario
  • (PSINDER) % Población sin afiliación a servicios de salud
  • (HOGJEF_F) % Hogares censales con persona de referencia mujer
  • (P15yM_ANSEIN)% Poblacion de 15 años y más analfabeta, sin escolaridad y con primaria incompleta

Finalmente, interprete.

Solución: Compararemos cada una de las variables anteriores respecto a las coaliciones, donde además se mostrará individualemnte la comparación entre la variable de interés con cada partido de dicha coalición. Para ello

VPH_CEL contra VXM

pairs(~VPH_CEL + PAN + PRI + PRD + VXM , data= distritos , lower.panel = NULL)

Para la interpretación bastará con tomar de ejemplo un sólo gráfico de dispersión. En nuestro caso tomaremos el siguiente:

plot(diputaciones$PAN, distritos$VPH_CEL, pch=21,
     main = 'VPH_CEL vs diputaciones PAN' )

podemos decir que la mayoría del porcentaje de votación por el PAN mantiene constante el porcentaje de celulares por vivienda entre el 70% y 100%. De la misma forma podría realizarse la interpretación de la variable VPH_CEL con respecto al porcentaje de votación del resto de partidos de la coalición.

P15YM_ANSEIN contra VXM

pairs(~P15YM_ANSEIN + PAN + PRI + PRD + VXM , data= distritos , lower.panel = NULL)

Para la interpretación bastará con tomar de ejemplo un sólo gráfico de dispersión. En nuestro caso volveremos a realizar la interpretación de contrastar P15YM_ANSEIN contra PAN

plot(diputaciones$PAN, distritos$P15YM_ANSEIN, pch=21,
     main = 'P15YM_ANSEIN vs diputaciones PAN' )

en el cual puede decirse que el porcentaje de votaciones por el PAN mantiene un porcentaje de personas mayores a 15 y más analfábeta entre el 0% y el 40% (en su mayoría).

Ejercicio 1

Termina el código para el contraste entre las variables VPH_EXCSA, PSINDER y HOGJEF_F y la coalición VXM. Además, toma individualmente un diagrama de dispersión como se ha hecho anteriormente e interpreta.

VPH_CEL contra JHH

Continuamos realizando el análisis de las 5 variables contra la coalición Juntos haremos historia. Sólo graficaremos los diagramas de VPH_CEL contra JHH y nos concentraremos en particular en VPH_CEL contra MORENA.

pairs(~VPH_CEL + PVEM + PT +  MORENA + JHH  , data= distritos , lower.panel = NULL)

Y en particular tomamos

plot(diputaciones$MORENA, distritos$VPH_CEL, pch=21,
     main = 'VPH_CEL vs diputaciones MORENA' )

del cual podemos decir que el porcentaje de votación por MORENA mantiene constante el porcentaje de celulares por vivienda entre el 70% y el 100%.

Ejercicio 2

  1. Gráfica los diagramas de dispersión del resto de las variables contra la coalición JHH (deberás utilizar el comando pairs).

  2. De los diagramas graficados anteriormente toma un diagrama de dispersión en particular e interpreta.

  3. Gráfica los diagramas de dispersión de las 5 variables contra la coalición de los partidos MC, PES, RSP y FXM. Toma un diagrama de dispersión individual e interpreta.

  4. Gráfica los diagramas de dispersión de las 5 variables contra el porcentaje de votos para candidaturas indpendientes (CI), votos nulos (VOTOSNULOS) y candidatos no registrados (CNR). Toma un diagrama de dispersión individual e interpreta.

Problema 3

Generar un ańalisis descriptivo de la variable construida en 1) por circunscripcíon. Interprete.

Solución:

Ocuparemos nuevamente un vector de colores para identificar a las circunscripciones

color<- c('#DDA0DD', "#6A5ACD", "#708090", '#800000','#DA70D6' )

Luego

summary(distritos$PAN)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.001715 0.023664 0.042404 0.060032 0.087088 0.289960

de donde podemos decir que al rededor del 6% de los mexicanos votó por el PAN y además la mayoría de estos votos provinieron de la circunscripción 2. Para notar lo último anterior basta con ver el siguiente boxplot

boxplot(distritos$PAN ~ distritos$CIRCUNSCRIPCIONES, col= color )

Procedemos después al análisis de los votos por MORENA por circunscripción

summary(distritos$MORENA)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.02914 0.09274 0.11633 0.11318 0.13526 0.19723
boxplot(distritos$MORENA ~ distritos$CIRCUNSCRIPCIONES, col= color )

de donde al rededor del 11% de los mexicanos votó por MORENA y la mayoría de estos votos provinó de la circunscripción 3.

Finalemnte analicemos el contraste entre las coaliciones VXM y JHH por circunscripción. Primero

# VXM
summary(distritos$VXM)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01051 0.09063 0.12546 0.13209 0.16282 0.35140
# JHH
summary(distritos$JHH)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.04476 0.11898 0.14145 0.14259 0.16819 0.31651

podemos notar que en promedio los mexicanos votaron más por JHH que por VXM sin embargo la diferencia es de un punto porcentual. Luego el distrito que tiene una mayor inclinación por JHH es el tres y para VXM es el dos.

Para VXM

boxplot(distritos$VXM ~ distritos$CIRCUNSCRIPCIONES, col= color )

Para JHH

boxplot(distritos$JHH ~ distritos$CIRCUNSCRIPCIONES, col= color )

Ejercicio 3

Elige al menos 5 bloques de código de

summary(distritos$PRI)
boxplot(distritos$PRI ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$PRD)
boxplot(distritos$PRD ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$PVEM)
boxplot(distritos$PVEM ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$PT)
boxplot(distritos$PT ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$MC)
boxplot(distritos$MC ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$PES)
boxplot(distritos$PES ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$RSP)
boxplot(distritos$RSP ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$FXM)
boxplot(distritos$FXM ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$CI)
boxplot(distritos$CI ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$VOTOSNULOS)
boxplot(distritos$VOTOSNULOS ~ distritos$CIRCUNSCRIPCIONES, col= color )
summary(distritos$CNR)
boxplot(distritos$CNR ~ distritos$CIRCUNSCRIPCIONES, col= color )

y efectúa un análisis como el realizado anteriormente.

Problema 4

Generar diagramas de dispersión entre la variable construida en 1) con cada una de las 5 variables construidas en clase sobre estadísticas censales a escalas geoelectorales, pero considerando como dato adicional la variable que indica la circunscripción a la que pertenece cada distrito. Calcular estadísticas descriptivas para complementar. Interprete.

Solución:

Comenzaremos trabajando con la variable VPH_CEL contra FXM con un diagrama de dispersión, pero identificaremos a cadauno de los puntos por colores clasificados de acuerdo a la circunscripción

plot(distritos$VPH_CEL, distritos$FXM, pch=21, bg=c('#DDA0DD', "#6A5ACD", "#708090", '#800000','#DA70D6')[unclass(distritos$CIRCUNSCRIPCIONES)])

legend('topleft', legend = c('C1', "C2", "C3", 'C4','C5'),
       lwd = 2, col=c('#DDA0DD', "#6A5ACD", "#708090", '#800000','#DA70D6'))

en el cual podemos ver que, cuando el porcentaje es menor que 55% (apróx) en teléfonos por hogar, el porcentaje de votos por FXM corresponde exclusivamente a la circunscripción 3.

Continuamos con P15YM_ANSEIN contra FXM

plot(distritos$P15YM_ANSEIN, distritos$FXM, pch=21, bg=c('#DDA0DD', "#6A5ACD", "#708090", '#800000','#DA70D6')[unclass(distritos$CIRCUNSCRIPCIONES)])

legend('topright', legend = c('C1', "C2", "C3", 'C4','C5'),
       lwd = 2, col=c('#DDA0DD', "#6A5ACD", "#708090", '#800000','#DA70D6'))

del cual, a partir de un porcentaje de 50% en P15YM_ANSEIN tenemos que los votos por FXM fueron de las circunscripciones 3 y 4. También se puede decir que hubo una concentración importante de votos en las diversas circunscripciones entre el 0 y 20% de población de 15 años y más analfabeta.

Ejercicio 4

  1. Realiza un análisis similar el hecho anteriormente con el resto de las variables (VPH_EXCSA, PSINDER y HOGJEF_F) contra FXM.

  2. Realiza un análisis similar el hecho anteriormente con las cinco variables respectivas contra JHH.