sábado, 15 de abril de 2017

Relación entre una variable continua y una categórica con tres valores o más. Video.


Imaginemos que estudiantes se han inscripto en un curso y han sido asignados a tres docentes distintos, y que se desea saber si los puntajes que obtienen los estudiantes de los tres docentes son todos iguales o no.


Prueba de ANOVA

Para saber si las diferencias que de estos tres grupos son significativas se puede efectuar la prueba de ANOVA (por ANalisys Of VAriance, análisis de varianza). La hipótesis nula en la prueba de Anova es que las medias de los distintos grupos son iguales entre sí, y la hipótesis alternativa es que al menos alguna de las medias es distinta de las otras.

La prueba de Anova tiene tres supuestos:

  • las observaciones son independientes 
  • cada uno de los grupos tiene igual varianza
  • las distribuciones de la variable continua son normales dentro de cada uno de los grupos.



La normalidad de la variable continua pierde importancia si los grupos son grandes. Llamaremos grande a un grupo si tiene 30 observaciones o más (algunos estadísticos se inclinan por otras cifras, pero 30 es un criterio más o menos usual).

La igualdad de varianzas en cada uno de los grupos pierde importancia si todos los grupos tienen igual tamaño.


Ahora bien, si las varianzas son fuertemente desiguales y son distintos los tamaños de los grupos, Anova es poco confiable. Mejor realizar una alternativa no paramétrica.


Si la prueba de Anova es significativa, se sabe que al menos uno de los grupos es significativamente distinto de los otros. Pero ¿cuál es significativamente distinto de cuál? Para esto están las llamadas pruebas post-hoc, que comparan la media de cada grupo con la media de los otros grupos. Stata ofrece tres pruebas post-hoc: Bonferroni, Scheffe y Sidak.

¿Como pedir una prueba de Anova de una vía en Stata?

Una buena forma, mediante sintaxis, es la que sigue.

oneway var_continua var_categorica, tab bonf

Otra manera es llamando al cuadro de diálogo con

db oneway

En ese cuadro, la variable de respuesta es la variable continua, y la variable factor es la variable categórica.



Por ejemplo, si quisieramos comparar salarios medios entre razas, podríamos pedir:

oneway salario raza, tab bonf

la opción tab genera una tabla con las medias y las frecuencias de los diferentes grupos.
la opción bonf nos procura un análisis de bonferroni.


En el ejemplo anterior supusimos que se cumplen los supuestos de Anova. ¿Pero que pasa si claramente no se cumplen? Para esto están las pruebas no paramétricas.




Pruebas no paramétricas: Kruskall Wallis y prueba de la mediana

Cuando no están dados los supuestos del análisis de Anova, se pueden efectuar las pruebas de Kruskall Wallis o la prueba de la mediana.

La prueba de la mediana testea si las diferencias son significativas. Necesita diferencias más marcadas que otras pruebas para considerar que hay evidencias significativas.

La prueba de Kruskal Wallis compara rangos. Es similar, aunque no idéntica, a la prueba de la mediana. Es más sensible.


Para Kruskal Wallis:

kwallis wage, by(race)


Para la prueba de la mediana:

median wage, by(race)

Si preferimos, podemos llamar a las pruebas anteriores con el comando db (dialog box)


Video


No hay comentarios:

Publicar un comentario