jueves, 25 de julio de 2019

Notación factorial. Texto

La notación factorial de Stata facilita mucho el trabajo con regresiones.

Hay cuatro elementos:


i.

Se usa en las regresiones para decirle a Stata que una variable es categórica, y así no tener que hacer variables dummy una por una.

Por ejemplo, si queremos predecir ingresos a partir de la variable profesión (con varias categorías) escribiríamos:

regress ingresos i.profesion



#
Se usa en las regresiones para que Stata genere una variable producto de dos variables. Cuando se desean analizar interacciones, se necesitan variables producto. También para cuando se desean valores al cuadrado o al cubo.


Por ejemplo, si deseamos ver la influencia de raza, genero y de su interacción en los ingresos, pediríamos:

regress ingresos i.raza i.genero i.raza#i.genero

i.raza#i.genero calcula automáticamente la variable producto de raza por género, que es necesaria para estudiar interacción. Si no fuera por esta notación, deberíamos crear dicha variable producto con generate.

También se usa para los cuadrados y los cubos en regresiones cuadráticas y cúbicas.
Por ejemplo, si quisiéramos una regresión que tenga como variables predictoras continuas a X y a X cuadrado, pediríamos:

regress y X c.X#c.X

Y si quisiéramos tomar como variables independientes a las variables continuas X, Xcuadrado y Xcubo, podríamos pedir

regress y X  c.X#c.X   c.X#c.X#c.X




c.

Se usa en las regresiones para decirle a Stata que una variable independiente es continua. Siempre se puede usar. En algunas ocasiones es imprescindible usar la c y en otras es opcional. Es obligatorio cuando hay interacciones.

Ejemplos:

regress salario c.aniosEducacion // aquí la c es opcional.

regress salario c.aniosEducacion   i.raza   c.aniosEducacion#i.raza //En las interacciones es obligatoria la c para las variables continuas.




##

El doble numeral indica que se desean los efectos principales y la interacción.

Por ejemplo,

regress y c.x##c.z  // Este comando indica que en la regresión de y, las variables predictoras son tres:  x, z y la interacción entre x y z. (En el ejemplo de arriba la c. indica adicionalmente que las variables son continuas).


Otro ejemplo:

regress rendimiento ansiedad##ansiedad, significa que las variables predictoras son dos: ansiedad y ansiedad multiplicada por ansiedad, es decir, ansiedad y ansiedad al cuadrado.


Otro ejemplo:
Si queremos regresar Y con la variable continua X, con X al cuadrado y con X al cubo,
podemos pedirlo también de la siguiente manera:

regress Y c.X##c.X##c.X


Escribiendo esto así, regresará Y con las variables independientes X, X al cuadrado y X al cubo.



Es extremadamente importante familiarizarse con esta nomenclatura: los comandos margins y marginsplot que se verán más adelante no funcionan si no es con ella.





Ejemplos varios:


regress cholesterol i.smoker##i.agegrp c.bmi i.smoker#c.bmi

Aquí las variables independientes son smoker (categórica), agegrp (categórica),
su interacción, bmi (variable continua: bmi por body mass index) y la interacción
de smoker con bmi.




regress price weight length headroom c.length#c.weight

Aquí las variable independientes son price (es continua, no está la c porque es opcional, weight (continua con c opcional). headroom, y la interacción entre length y weight (en las interacciones con variables continuas, la c es obligatoria).



regress peso_bebe c.edad_madre##i.fumadora

Aqui las variables independientes son edad de la madre (variable continua), su caracter de fumadora (variable categórica) y la interacción entre ambas variables.






No hay comentarios:

Publicar un comentario