martes, 30 de abril de 2019

Ejercicio de regresión lineal simple (sin solución).

Imaginemos que un conservatorio musical registró el tiempo que los estudiantes dedicaron al estudio y las evaluaciones que obtuvieron de expertos. Asumamos que los datos son los de la base que se genera a partir de la sintaxis que sigue.

****************************
clear all
set obs 200
set seed 1457
gen tiempo_estudio = round(runiform()* 30 + 150)
gen evaluacion= round(-60 + 1.6 * tiempo_estudio + rnormal(15,8))

****************************




Ejercicio

Genere una base de datos a partir de la sintaxis de arriba. Luego:

  1. Grafique la relación entre tiempo de estudio y evaluación.
  2. ¿La relación se muestra aproximadamente lineal?
  3. ¿Hay outliers (valores extremos) muy marcados? ¿Hay puntos muy apartados de la nube de puntos?
  4. Si la relación es aproximadamente lineal y no hay grandes outliers, halle la ecuación de regresión para predecir el resultado de la evaluación usando como variable predictora el tiempo de estudio.
  5. ¿El modelo es significativo? Explique cómo lo sabe a partir de la regresión y qué significa esto.
  6. ¿Cuál es el R cuadrado del modelo? ¿Cuál es el valor máximo y el valor mínimo que puede tomar el R^2? ¿Qué nos dice el R^2 del modelo?
  7. ¿Cuál es la ecuación de regresión para este modelo?

sábado, 20 de abril de 2019

Regresión lineal simple. Video


En este video se verán los primeros conceptos de regresión lineal simple. Se analizará la relación entre dos variables continuas: notas promedio en liceo y notas promedio en universidad.

Se trabajará con la base que surge de la siguiente sintaxis:

***************************
clear all
set obs 200
set seed 1458
gen notas_liceo = runiform() * 6 + 6
gen notas_universidad = notas_liceo + rnormal(0,1)
drop if notas_universidad > 12
gen sexo = rbinomial(1, 0.4)
label define sexo 0 "Hombre" 1 "Mujer"
label values sexo sexo
***************************


Video

miércoles, 10 de abril de 2019

Ejercicio de conversión de variables almacenadas como cadenas a variables almacenadas numéricamente (sin solución)

Genere una base de datos corriendo el siguiente archivo do:

***********************
clear all
set obs 200
set seed 1269
gen altura = rnormal(1.70, 0.06)
label variable altura "Altura en metros"
gen peso = altura*100 - 100 + rnormal(0,6)
gen cintura = peso + rnormal(5,7)
label variable cintura "Cintura en cm"
tostring altura, replace force
tostring peso, replace force
tostring cintura, replace force
replace peso = "Sin dato" in 4/6
replace peso = subinstr(peso, ".", "," , .)

***********************

Imaginemos que estos datos los obtuvimos de una base recogida en un servicio de salud.

Se le pide:
1) indique cuál es la media de peso.
2) indique cuál es la media de altura.
3) calcule el índice de masa corporal (IMC), que tiene como fórmula
IMC= peso en kg / (altura en metros) ^2
4) grafique la relación entre cintura e IMC, e interprete la gráfica