domingo, 30 de abril de 2017

Ejercicio de relaciones entre variables categóricas no ordenadas (sin solución)


Córrase la sintaxis que sigue y se creará una base de datos.

***************************************************
clear all
set obs 180
set seed 1625
gen editorial= rbinomial(2, 0.40)
label define editorial 0 "FCU" 1"McGrawHill" 2 "Prentice Hall"
label values editorial editorial
gen ilustraciones = rbinomial(2, 0.30) if editorial ==2
replace ilustraciones = rbinomial(2, 0.60) if editorial ==1
replace ilustraciones = rbinomial(2, 0.87) if editorial ==0
label define ilustraciones 0 "Ninguna" 1 "Pocas" 2 "Muchas"
label values ilustraciones ilustraciones
gen color_tapa = trunc(runiform()*4) + 1
label define color_tapa 1 "Amarillo" 2 "Verde" 3 "Rojo" 4 "otro"
label values color_tapa color_tapa
tab2 editorial ilustraciones
tab2 editorial color_tapa
***************************************************


Relación editorial - ilustraciones


  1. Haga una tabla cruzada que vincule las variables editorial e ilustraciones, y preste atención a cuántos casos hay en cada celda.
  2. Asumiendo que estamos en presencia de una muestra aleatoria extraída de un universo mucho más amplio, ¿el tamaño de las celdas permite hacer una prueba de significación de chi cuadrado o deberá preferirse el test exacto de Fisher?
  3. Haga el test que corresponda e indique si la relación es significativa.
  4. Haga una tabla de porcentajes. Se utilizará la variable editorial como variable independiente e ilustraciones como dependiente. Indique en qué celdas hay excesos relativos de casos. Interprete la tabla.
  5. Haga una gráfica de tipo spineplot e interprétela.
  6. Indique la fuerza de la asociación utilizando la V de Cramer. Comente.


****

Relación editorial - color de tapa


  1. Haga una tabla cruzada que vincule las variables editorial y color de tapa. Preste atención a cuántos casos hay en cada celda.
  2. Asumiendo que estamos en presencia de una muestra aleatoria extraída de un universo mucho más amplio, ¿el tamaño de las celdas permite hacer una prueba de significación de chi cuadrado o deberá preferirse el test exacto de Fisher?
  3. Haga el test que corresponda e indique si la relación es significativa.
  4. Haga una tabla de porcentajes. Se utilizará la variable editorial como variable independiente e color de tapa como dependiente. Indique en qué celdas hay excesos relativos de casos.
  5. Haga una gráfica de tipo spineplot e interprétela.
  6. Indique la fuerza de la asociación utilizando la V de Cramer. Comente

martes, 25 de abril de 2017

Relaciones bivariadas entre dos variables categóricas no ordenadas. Tab2 y spineplot. Video


Probablemente la herramienta más útil para estudiar relaciones entre dos variables categóricas no ordenadas sea la tabla de porcentajes.

Imaginemos que en una encuesta deseamos estudiar la relación entre sexo y afiliación a sindicato, y que pensemos que el sexo puede influir en la decisión de afiliarse. Realizaríamos esta tabla.





En la tabla anterior nos encontraríamos que no hay asociación entre estas variables: ser hombre o ser mujer no torna más probable estar afiliado. Esta es una NO ASOCIACION perfecta. No hay nada de asociación.


*

Imaginemos ahora que queremos estudiar la relación entre sexo y gusto por el boxeo, y que una encuesta arrojase los siguientes resultados.







En esta tabla la ASOCIACION es perfecta, porque la diferencia entre quienes gustan del boxeo es máxima entre sexos: gusta al 100% de los hombres y al 0% de las mujeres.

Usualmente se ven situaciones intermedias.

Ambas tablas tienen la variable dependiente (sexo) en las columnas y se pide el porcentaje por columnas. Luego se comparan los porcentajes a través.


Si hay relación en una muestra y queremos saber si podemos descartar la hipótesis nula de no asociación en el universo, tenemos dos pruebas de significación: chi cuadrado y test exacto de Fisher. La prueba de chi cuadrado requiere que menos del 20% de las celdas tengan cinco casos o menos. Si no se diera esto, recurrimos al test exacto de Fisher.

Una buena manera de graficar la relación entre dos variables categóricas es con el llamado diagrama de mosaico. Podemos efectuarlos con ayuda del programa de usuario spineplot.

La fuerza de la asociación se puede medir con la V de Cramer, en donde 0 significa no asociación, y +1 y -1 significan asociaciones perfectas (según la diagonal que concentre los casos será +1 o -1).

Se mostrará como ejecutar estos análisis en el video que sigue.


Video



jueves, 20 de abril de 2017

Ejercicio de comparación de medias (o medianas) con Anova, Kruskal Wallis y prueba de la mediana (sin solución)

Ejecútese la sintaxis que sigue y se dispondrá de una base de datos para realizar el ejercicio.


************************************************
clear all
set obs 200
set seed 1234
gen dieta = trunc(runiform()*3)
label define dieta 0 "Bajas calorías" 1 "Bajos carbohidratos" 2 "Bajas grasas"
label values dieta dieta
replace dieta = 1 if dieta == 2 & runiform() < 0.5
gen perdida_peso = rnormal(7,2) if dieta == 0
replace perdida_peso = rnormal(15, 5) if dieta == 1
replace perdida_peso= rnormal(8,1) if dieta == 2
gen colesterol = rnormal(180, 4)
gen edad = round(rnormal (50, 4))
replace edad = edad + 6 if dieta == 1
*************************************************

En esta base hay cuatro variables:

  • Dieta (de bajas calorías, de bajos carbohidratos y de bajas grasas)
  • Pérdida de peso
  • Colesterol
  • Edad



Se asume que tres grupos de personas fueron sujetos a diferentes dietas durante algún tiempo, y que al fin del período se miden la pérdida de peso y el nivel de colesterol. Asimismo se registró la edad de los participantes.

Se pide al estudiante:


Colesterol:


  1. Grafique la relación entre colesterol y dieta. ¿Las gráficas muestran una distribución razonablemente simétrica, que sugiera normalidad? ¿Las varianzas son aparentemente iguales? ¿Las medias tienen grandes diferencias?
  2. Ejecute una prueba de Anova. ¿Qué dice el test de Bartlett sobre las varianzas: que son estadísticamente significativas o no? 
  3. Si las diferencias entre las varianzas no son estadísticamente significativas interprete Anova. ¿Hay diferencias significativas entre las medias?
  4. Si hay diferencias significativas entre las medias, indique entre qué dietas mediante una prueba post-hoc



Edad


  1. Grafique la relación entre edad y dieta. ¿Las gráficas muestran una distribución más o menos simétrica, que sugiera normalidad? ¿Las varianzas son aproximadamente iguales? ¿Las medias parecen tener diferencias importantes?
  2. Efectúe la prueba de Anova. ¿Qué dice el test de Bartlett sobre las varianzas: que son estadísticamente significativas o no?
  3. Si las diferencias entre las varianzas no son estadísticamente significativas interprete Anova. ¿Hay diferencias significativas entre las medias?
  4. Si hay diferencias significativas entre las medias, efectúe análisis post-hoc, para ver entre qué medias hay diferencias.




Pérdida de peso


  1. Grafique la relación entre pérdida de peso y dieta. ¿Las gráficas muestran una distribución más o menos simétrica que sugiera normalidad? ¿Las varianzas son aproximadamente iguales? ¿Las medias tienen grandes diferencias?
  2. Aún si hay fuertes diferencias entre las varianzas, ejecute Anova, simplemente para ver si el resultado del test de Bartlett. ¿Indica que las diferencias entre las varianzas es estadísticamente significativa?
  3. Si las diferencias entre las varianzas se muestran estadísticamente significativas, abandone el test de Anova y efectúe dos pruebas no paramétricas: la de Kruskall Wallis y la prueba de la mediana.
  4. Indique qué conclusiones saca de estas pruebas no paramétricas y si coincide con lo que esperaba a partir de la gráfica para ver la relación entre estas variables (pérdida de peso y dieta).







sábado, 15 de abril de 2017

Relación entre una variable continua y una categórica con tres valores o más. Video.


Imaginemos que estudiantes se han inscripto en un curso y han sido asignados a tres docentes distintos, y que se desea saber si los puntajes que obtienen los estudiantes de los tres docentes son todos iguales o no.


Prueba de ANOVA

Para saber si las diferencias que de estos tres grupos son significativas se puede efectuar la prueba de ANOVA (por ANalisys Of VAriance, análisis de varianza). La hipótesis nula en la prueba de Anova es que las medias de los distintos grupos son iguales entre sí, y la hipótesis alternativa es que al menos alguna de las medias es distinta de las otras.

La prueba de Anova tiene tres supuestos:

  • las observaciones son independientes 
  • cada uno de los grupos tiene igual varianza
  • las distribuciones de la variable continua son normales dentro de cada uno de los grupos.



La normalidad de la variable continua pierde importancia si los grupos son grandes. Llamaremos grande a un grupo si tiene 30 observaciones o más (algunos estadísticos se inclinan por otras cifras, pero 30 es un criterio más o menos usual).

La igualdad de varianzas en cada uno de los grupos pierde importancia si todos los grupos tienen igual tamaño.


Ahora bien, si las varianzas son fuertemente desiguales y son distintos los tamaños de los grupos, Anova es poco confiable. Mejor realizar una alternativa no paramétrica.


Si la prueba de Anova es significativa, se sabe que al menos uno de los grupos es significativamente distinto de los otros. Pero ¿cuál es significativamente distinto de cuál? Para esto están las llamadas pruebas post-hoc, que comparan la media de cada grupo con la media de los otros grupos. Stata ofrece tres pruebas post-hoc: Bonferroni, Scheffe y Sidak.

¿Como pedir una prueba de Anova de una vía en Stata?

Una buena forma, mediante sintaxis, es la que sigue.

oneway var_continua var_categorica, tab bonf

Otra manera es llamando al cuadro de diálogo con

db oneway

En ese cuadro, la variable de respuesta es la variable continua, y la variable factor es la variable categórica.



Por ejemplo, si quisieramos comparar salarios medios entre razas, podríamos pedir:

oneway salario raza, tab bonf

la opción tab genera una tabla con las medias y las frecuencias de los diferentes grupos.
la opción bonf nos procura un análisis de bonferroni.


En el ejemplo anterior supusimos que se cumplen los supuestos de Anova. ¿Pero que pasa si claramente no se cumplen? Para esto están las pruebas no paramétricas.




Pruebas no paramétricas: Kruskall Wallis y prueba de la mediana

Cuando no están dados los supuestos del análisis de Anova, se pueden efectuar las pruebas de Kruskall Wallis o la prueba de la mediana.

La prueba de la mediana testea si las diferencias son significativas. Necesita diferencias más marcadas que otras pruebas para considerar que hay evidencias significativas.

La prueba de Kruskal Wallis compara rangos. Es similar, aunque no idéntica, a la prueba de la mediana. Es más sensible.


Para Kruskal Wallis:

kwallis wage, by(race)


Para la prueba de la mediana:

median wage, by(race)

Si preferimos, podemos llamar a las pruebas anteriores con el comando db (dialog box)


Video


lunes, 10 de abril de 2017

Ejercicio. Relaciones entre variables dicotómicas y variables continuas (sin solución).


Para realizar la primera parte de este ejercicio se trabajará con el archivo nlsw88.dta provisto por Stata.

  1. Abra el archivo nlsw88.dta.
  2. Indique cuántos casos y cuántas variables tiene.
  3. Se desea estudiar la relación entre age (edad) y south (vive en el sur o no). La variable south ¿es dicotómica?
  4. ¿Cuántos casos tiene cada uno de los grupos? ¿Son muestras "grandes"? Explique.
  5. Grafique la relación entre age y south. Interprete la gráfica.
  6. Haga una tabla con ayuda del comando tabstat que indique la media de edad de los que viven en el Sur y de los que no viven.
  7. Asumiendo que estamos en presencia de una muestra aleatoria simple, realice una prueba t con las opciones que correspondan e indique si la diferencia de medias de edad es significativa. Explique.





De aquí en más se trabajará con un archivo creado al efecto.


*************************************************
clear all
set obs 20
set seed 153
gen dieta = 1 in 1/10
replace dieta = 2 in 11/20
gen peso = rchi2(1) * 2 + 10 if dieta == 1
replace peso = rchi2(1) * 2 + 13 if dieta == 2

*************************************************

Imaginemos que se tienen 20 lechones, y a 10 se los alimentó con la dieta 1 y a los otros 10 con la dieta 2.

Se pide:
  1. Verifique que fueron 10 los lechones alimentados con la dieta 1 y 10 con la dieta 2.
  2. Grafique la relación dieta - peso e interprete la gráfica. 
  3.  Haga una tabla que indique la media de peso para la dieta 1 y para la dieta 2.
  4. Indique qué prueba de significación haría para establecer si se puede descartar la hipótesis nula de igualdad de medias, y ejecútela.
  5. Comente los resultados.














miércoles, 5 de abril de 2017

Relaciones bivariadas: variable dicotómica y variable continua. Video


Las variables dicotómicas son variables que pueden tomar exactamente dos valores: sexo (hombre/mujer), estudia (si/no), tiene hijos (sí, no).

En muchas ocasiones interesa ver si dos variables, una dicotómica y una continua están relacionadas.

Un ejemplo: ¿están relacionadas sexo y salario? Esto en general quiere decir: ¿tienen la misma media los salarios de hombres y mujeres?

Otro ejemplo: ¿la altura y el sexo están relacionados? En general esta pregunta la contestamos averiguando si la altura media de los hombres es igual a la altura media de las mujeres.

Otro ejemplo: ¿Trabajan la misma cantidad de horas en promedio quienes tienen hijos que quienes no los tienen?

Para contestar a este tipo de preguntas recurrimos a gráficas tales como diagramas de caja, a tablas producidas por el comando tabstat, a pruebas t de significación y a pruebas no paramétricas con el comando ranksum.

De todo lo anterior tratará este video.

Trabajaremos primero con el archivo nlsw88.dta provisto por Stata, y allí veremos el uso del ttest para grupos independientes (test t de Student para grupos independientes. Allí los grupos comparados son grandes, esto es, cada uno tiene más de 30 observaciones. Veremos dos alternativas de la prueba t: con varianzas asumidas iguales y con varianzas desiguales.



Luego trabajaremos con el archivo generado por la siguiente sintaxis.

********************************************
clear all
set obs 30
set seed 15899
gen valor_hora = 50 + rchi2(2) in 1/15
replace valor_hora = 70 + rchi2(2) in 16/30
gen sexo = 1 in 1/15
replace sexo = 2 in 16/30
label define sexo 1 "Hombre" 2 "Mujer"
label values sexo sexo
set seed 15915
gen notas_geog = rnormal(50, 15)
********************************************

Aquí tendremos muestras pequeñas (15 hombres vs 15 mujeres) y usaremos el ttest o una alternativa no paramétrica, el ranksum, que implementa la prueba de Wilcoxon, casi idéntica a la U de Mann Whitney.


Video