En este video se muestra que es un outlier, cuál es su influencia en las regresiones lineales, y posibles cursos de acción si los hay.
El video hace uso de la base que genera el correr la siguiente sintaxis:
************************************
clear all
set obs 25
set seed 5628
gen años_educacion = round(rnormal(15, 3))
gen salario_hora = 25 + 3 * años_educacion + rnormal(0,5)
set obs 26
replace años_educ = 28 in 26
replace salario_hora = 48 in 26
************************************
Video
jueves, 30 de mayo de 2019
domingo, 26 de mayo de 2019
Regresión lineal. Ejercicio con variable predictora con cuatro categorías (sin solución)
Corra la sintaxis que sigue a fin de generar una base de datos.
***************
clear all
set obs 400
set seed 1234
gen metodo= trunc((runiform() * 4) + 1)
gen palabras = trunc(rnormal(3000, 400))
replace palabras = palabras + 500 if metodo == 3
***************
La base simula la cantidad de palabras aprendidas en inglés luego de cursos de duración similar dictados según varios métodos de enseñanza, aquí llamados método 1, 2, 3 y 4.
Se pide al estudiante:
1) Haga un análisis gráfico que muestre la relación entre los distintos métodos y la cantidad de palabras aprendidas. ¿Cuáles son las conclusiones preliminares que saca?
2) El análisis gráfico, ¿sugiere que es posible realizar una regresión lineal para predecir la cantidad de palabras aprendidas en función del método?
3) Efectúe la regresión lineal anterior. ¿Cuál es la ecuación de regresión?
4) ¿Cuál es el método que en principio lleva a aprender más palabras?
5) La variable método, ¿es significativa?
6) ¿Entre qué métodos hay diferencias significativas, si las hay?
sábado, 25 de mayo de 2019
testparm y pwcompare. Video
Dos comandos útiles para analizar las variables categóricas en el seno de regresiones son testparm y pwcompare. Estos son comandos postestimación: primero debe hacerse la regresión que interesa y luego de estimarla se corren estos comandos.
testparm es útil para testear la hipótesis de que una variable categórica, introducida como un conjunto de variables dummy, no aporta al modelo. Por ejemplo, podemos tener en una regresion lineal la variable profesion con valores abogacía, escribanía y diplomacia.
testparm testea que los coeficientes de abogacía, escribanía y diplomacia son simultáneamente 0. Si el p-valor de testparm es mayor a 0.05, no podemos descartar la hipótesis nula de que todos los coeficientes sean 0 en el universo, y entonces probablemente no tiene sentido mantener la variable profesión en el modelo.
Si en cambio testparm arroja un p-valor menor a 0.05, no todas las profesiones tienen coeficientes iguales entre sí e iguales a 0 (recuérdese que en un modelo de regresión lineal la categoría base siempre tiene un coeficiente 0).
Y lo que hace pwcompare es comparar cada coeficiente con cada uno de los otros, y establecer cuáles de las diferencias son significativas. Por ejemplo, puede llegarse a la conclusión de que abogacía y diplomacia no tienen diferencias significativas entre sí, pero que sí las tienen con escribanía.
do file
Video
lunes, 20 de mayo de 2019
Ejercicio de regresión lineal con variable cualitativa no dicotómica (sin solución).
El siguiente ejercicio pedirá la construcción e intepretación de una regresión lineal con una variable predictora cualitativa no dicotómica. Se trata de hallar el valor esperado de quienes practican cricket, fútbol, básquetbol, maratonismo y golf dada la base de datos que se genera a partir de sintaxis.
**************************************
clear
set obs 300
set seed 12589
gen deporte = trunc(runiform()*5)
label define deporte 0 "cricket" 1 "futbol" 2 "basquetbol" 3 "maratonismo" 4 "golf"
label values deporte deporte
gen puntaje_aerobico = round(rnormal(100,15)) if deporte <=2
replace puntaje_aerobico = round(rnormal(140,15)) if deporte == 3
replace puntaje_aerobico = round(rnormal(60,15)) if deporte == 4
**************************************
Ejercicio
- Pida las medias de puntaje para cada uno de los deportes.
- Corra la regresión, tomando como variable a predecir el puntaje en prueba aeróbica y como variable predictora el deporte practicado (No olvide pedirle a Stata que a partir de la variable deporte genere variables dummy).
- ¿Se puede rechazar la hipotesis nula de que conocer el deporte que practica no aporta a la predicción del puntaje aeróbico? Explique.
- ¿Cuál es la varianza explicada por el modelo?
- ¿Cuál es la ecuación de predicción del modelo?
- ¿Qué predice el modelo para quienes practican cricket, fútbol, básquetbol, maratonismo y golf?
- ¿Coinciden estas predicciones con las medias de puntaje de los distintos deportes?
- Efectúe una regresión pidiendo como categoría base el golf. ¿Cuántos puntos adicionales sobre el golf se esperan para un maratonista?
- Los datos probablemente mostrarán mayor capacidad aeróbica del maratonista. ¿Se puede concluir solo a partir de estos datos que hay aquí una relación causal en la que el maratonismo incrementa la capacidad aeróbica? Fundamente su respuesta.
viernes, 10 de mayo de 2019
Regresión lineal simple. Variables cualitativas no dicotómicas. Video
En un video anterior, dijimos que en la regresión lineal pueden usarse como variables predictoras, variables cuantitativas y variables cualitativas, a condición de que estas sean dicotómicas, esto es, que tomen solo dos valores.
¿Pero que pasa cuando tenemos una variable caulitativa que toma 3 o más valores?
Estas variables también podemos usarlas como variables predictoras, a condición de transformarlas en variables dicotómicas (dummies).
En este video mostraremos como hacerlo.
Se trabajará con la base que genera la siguiente sintaxis.
********************************
clear all
set obs 200
set seed 5635
gen metodo_ensenanza = trunc(runiform() * 4 + 1)
gen puntaje = round(rnormal(200,15)) if metodo_ensenanza < 4
replace puntaje = rnormal(300,15) if metodo_ensenanza == 4
********************************
Video
¿Pero que pasa cuando tenemos una variable caulitativa que toma 3 o más valores?
Estas variables también podemos usarlas como variables predictoras, a condición de transformarlas en variables dicotómicas (dummies).
En este video mostraremos como hacerlo.
Se trabajará con la base que genera la siguiente sintaxis.
********************************
clear all
set obs 200
set seed 5635
gen metodo_ensenanza = trunc(runiform() * 4 + 1)
gen puntaje = round(rnormal(200,15)) if metodo_ensenanza < 4
replace puntaje = rnormal(300,15) if metodo_ensenanza == 4
********************************
Video
Suscribirse a:
Entradas (Atom)