La
notación factorial de Stata facilita mucho el trabajo con
regresiones.
Hay
cuatro elementos:
i.
Se
usa en las regresiones para decirle a Stata que una variable es
categórica, y así no tener que hacer variables dummy una por una.
Por
ejemplo, si queremos predecir ingresos a partir de la variable
profesión (con varias categorías) escribiríamos:
regress
ingresos i.profesion
#
Se
usa en las regresiones para que Stata genere una variable producto de
dos variables. Cuando se desean analizar interacciones, se necesitan
variables producto. También para cuando se desean valores al cuadrado o al cubo.
Por
ejemplo, si deseamos ver la influencia de raza, genero y de su
interacción en los ingresos, pediríamos:
regress
ingresos i.raza i.genero i.raza#i.genero
i.raza#i.genero
calcula automáticamente la variable producto de
raza por género, que es necesaria para estudiar interacción. Si no
fuera por esta notación, deberíamos crear dicha variable producto
con generate.
También se usa para los cuadrados y los cubos en regresiones cuadráticas y cúbicas.
Por ejemplo, si quisiéramos una regresión que tenga como variables predictoras continuas a X y a X cuadrado, pediríamos:
regress y X c.X#c.X
Y si quisiéramos tomar como variables independientes a las variables continuas X, Xcuadrado y Xcubo, podríamos pedir
regress y X c.X#c.X c.X#c.X#c.X
c.
Se
usa en las regresiones para decirle a Stata que una variable
independiente es continua. Siempre se puede usar. En algunas
ocasiones es imprescindible usar la c y en otras es opcional. Es
obligatorio cuando hay interacciones.
Ejemplos:
regress
salario c.aniosEducacion // aquí la c es opcional.
regress
salario c.aniosEducacion i.raza
c.aniosEducacion#i.raza //En las interacciones es obligatoria
la c para las variables continuas.
##
El
doble numeral indica que se desean los efectos principales y la
interacción.
Por
ejemplo,
regress
y c.x##c.z // Este comando indica que en la regresión de y,
las variables predictoras son tres: x, z y la interacción
entre x y z. (En el ejemplo de arriba la c. indica adicionalmente
que las variables son continuas).
Otro
ejemplo:
regress
rendimiento ansiedad##ansiedad, significa que las variables
predictoras son dos: ansiedad y ansiedad multiplicada por ansiedad,
es decir, ansiedad y ansiedad al cuadrado.
Otro ejemplo:
Si queremos regresar Y con la variable continua X, con X al cuadrado y con X al cubo,
podemos pedirlo también de la siguiente manera:
regress Y c.X##c.X##c.X
Escribiendo esto así, regresará Y con las variables independientes X, X al cuadrado y X al cubo.
Es
extremadamente importante familiarizarse con esta nomenclatura: los comandos margins y marginsplot que se verán más adelante no funcionan si no es con ella.
Ejemplos
varios:
regress
cholesterol i.smoker##i.agegrp c.bmi i.smoker#c.bmi
Aquí
las variables independientes son smoker (categórica), agegrp
(categórica),
su
interacción, bmi (variable continua: bmi por body mass index) y la
interacción
de
smoker con bmi.
regress
price weight length headroom c.length#c.weight
Aquí
las variable independientes son price (es continua, no
está la c porque es opcional, weight (continua con c opcional).
headroom, y
la interacción entre length y weight (en las interacciones con
variables continuas, la c es obligatoria).
regress
peso_bebe c.edad_madre##i.fumadora
Aqui
las variables independientes son edad de la madre (variable
continua), su
caracter de fumadora (variable categórica) y la interacción entre
ambas variables.
No hay comentarios:
Publicar un comentario