martes, 30 de mayo de 2017

Comandos generate y replace. Video

En este video se verá el principal comando para crear nuevas variables, generate, y el principal comando para modificar valores de variables ya creadas, replace.

Asimismo se mostrarán los comandos label variable, label define y label values, que permiten rotular las variables y los valores que estas pueden tomar.

Se trabajará sobre la base de datos que se genera ejecutando la sintaxis que sigue:

*****************************************************
cls
clear all
set obs 200
set seed 1234
gen salario_hora_pesos = (rchi2(2) + 5) * 30
gen desocupacion = rbinomial(1, 0.10)
label define desocupacion  0 "Ocupado" 1 "Desocupado"
label values desocupacion desocupacion
replace salario_hora = . if desocupacion == 1
gen altura_pulgadas = round(rnormal(68, 3))
gen peso_kg = round(altura *2.5 - 100 + rnormal(0, 7))
gen ppol = trunc((runiform() *4)+ 1 )
gen horas_trab = rnormal(140, 5) if desocupacion == 0
******************************************************

Para ilustrar el uso de los comandos, se ejecutarán las instrucciones que siguen:


Llevar la altura, que está en pulgadas, a metros. Se recuerda que un metro son 39,37 pulgadas

Calcular el índice de masa corporal: IMC = peso en kilos / (altura en metros) ^2

Calcular el sueldo mensual = salario hora * horas trabajadas

Calcular impuesto1 =
10% del sueldo si el sueldo es menor a 23000,
20% si es de 23000 o más y menos de de 27000,
30% si es de 27000 o más.

Calcular impuesto2 =
15% del sueldo si el salario es menor a 25000
30% del sueldo si el salario es mayor o igual a 25000


Video





miércoles, 24 de mayo de 2017

Ejercicio de relaciones bivariadas. Revisión 2 (sin solución)

Ejercicio de relaciones bivariadas, previa exploración univariada





Se trabajará con la base Mundo95.dta, que se adjunta.
  1. Cuántas variables tiene la base?
  2. Cuántos casos tiene la base?




Exploración univariada
  1. Explore la variable relig gráficamente, haciendo que las categorías más frecuente queden primero.
  2. Explore la variable religión mediante una tabla de frecuencias, haciendo que las categorías más numerosas queden primero.
  3. Qué observa sobre dicha variable? Comente.
  4. Explore la variable población gráficamente.
  5. La población, ¿tiene una distribución aproximadamente normal? ¿Hay outliers muy marcados?
  6. Con ayuda del comando de usuario “extremes”, indique si hay outliers en la variable poblac y a qué países corresponden.
  7. Según la forma de la distribución, pida la media y la desviación estándar o bien un resumen de 5 puntos.
  8. ¿Qué aspectos le llaman más la atención de esta distribución?
  9. Explore gráficamente la variable mortalidad infantil.
  10. ¿Es una distribución aproximadamente normal? ¿Es simétrica o asimétrica? ¿Tiene outliers muy marcados?
  11. Si los hay, con ayuda del comando de usuario “extremes”, indique sus valores y a qué países corresponden.
  12. Dada la forma de la distribución, ¿es mejor representarla mediante media y desvío estándar o mediante un resumen de 5 puntos?
  13. Pida la representación numérica correspondiente.




Relaciones bivariadas


  1. Sólo para OCDE y Africa, grafique la relación entre región y clima, con ayuda del programa de usuario catplot. Si es necesario edítese la gráfica para tornarla más legible.
  2. Con el programa de usuario “spineplot” grafique con él la relación entre región y clima (solo para OCDE y Africa).
  3. ¿Cuál de las dos gráficas le parece más adecuada en esta ocasión? Comente.
  4. Solo para Ocde y Africa, estudie la relación anterior mediante una tabla de porcentajes y de frecuencias absolutas.
  5. ¿Cuáles son los aspectos más destacados que muestra la tabla?
  6. Estudie gráficamente la esperanza de vida femenina por región. Qué región muestra mayor esperanza de vida y cuál menor? ¿Hay outliers marcados?
  7. Estudie a nivel numérico la relación entre esperanza de vida femenina y región. Si las distribuciones de la esperanza de vida femenina son aproximadamente normales en las regiones utilice la media y la desviación estándar. Si son fuertemente asimétricas utilice resúmenes de 5 puntos para cada región.
  8. Con ayuda del comando “extremes” identifique los valores más extremos de la esperanza de vida femenina y a qué país pertenecen.
  9. Estudie gráficamente la relación entre esperanza de vida masculina y esperanza de vida femenina. ¿La relación es aproximadamente lineal? ¿Hay outliers marcadamente separados del resto de la nube de puntos?





martes, 23 de mayo de 2017

Ejercicio con comando de usuario "extremes" (sin solución)


Abra la base census.dta que viene con la instalación de Stata. Allí tendrá información  de los años 1980 sobre 50 estados norteamericanos.



  1. En dicha base, ¿cuáles son los tres estados más poblados?
  2. ¿Cuáles son los tres estados más poblados de la región Sur?
  3. Indique el nombre, la región y la cantidad de divorcios del  estado con el mayor número de casamientos.
  4. Indique los nombres de los cuatro estados que tienen las dos edades medianas más altas y más bajas.
  5.  Indique los nombres de los cuatro estados que tienen las dos edades medianas más altas y más bajas en la región Oeste.


lunes, 22 de mayo de 2017

Comando de usuario "extremes". Video.


El comando de usuario "extremes" nos da los valores más altos y más bajos de una variable.

Por ejemplo, si tenemos una base con la variable altura, el comando

extremes altura

nos da los 5 casos más bajos y los 5 más altos.



Si quisiéramos, p.e., los 10 más altos y los 10 más bajos, escribiríamos

extremes altura, n(10)



Si quisiéramos las 6 mujeres más altas, el comando sería similar a este:

extremes altura if sexo == "mujer", high n(6)



Si quisiéramos la altura de las 4 mujeres más bajas, el comando sería:

extremes altura if sexo == "mujer", low n(4)



Y si quisiéramos saber el peso de las 10 personas más altas, pediríamos:

extremes altura peso, high(10)

Nótese que los valores extremos se buscan para altura, y simplemente se da el peso para esas personas más altas. No se dan aquí los pesos más altos, sino los correspondientes a las personas más altas.



Si quisiéramos saber cuáles son los 5 países con mayor población, los pediríamos así:

extremes poblacion nombre, high n(5)







El video muestra estas y otras opciones.


Video

martes, 16 de mayo de 2017

Tabla sintética sobre relaciones bivariadas



Esquema que indica principales tipos de relaciones bivariadas, con sus gráficas, tablas, pruebas de significación y medidas de asociación.

Tabla sintética

lunes, 15 de mayo de 2017

Ejercicio de relaciones entre variables ordinales (sin solución)

Corra la sintaxis que sigue, y se creará base de datos ficticia con datos de pacientes. Las variables serán calidad de vida, tiempo desde el inicio de la enfermedad, sexo y tipo de tratamiento.


************************************************
clear all
set seed 1235
set obs 300
gen calidad_vida = rbinomial(3, 0.60)
label define calidad_vida 0 "Baja" 1 "Media" 2 "Media Alta" 3 "Alta"
label values calidad_vida calidad_vida

gen tiempo_desde = 3 - calidad_vida + 1*(runiform() < 0.30)
replace tiempo = 2 if tiempo > 2
label variable tiempo "Tiempo desde inicio enfermedad"
label define tiempo 0 "Menos de un año" 1 "Entre 1 y 4 años" 2 "Más de 4 años"
label values tiempo tiempo
replace tiempo = . in 24/28

gen tipo_tratamiento = trunc(runiform()*2)
label define tipo 0 "Estándar" 1 "Intensivo"
label values tipo tipo

gen sexo = 0 if calidad_vida < 2
replace sexo = 1 if calidad_vida > 2
replace sexo = trunc(runiform() * 2) if runiform() < 0.30
replace sexo = . in 15/16
label define sexo 1 "Mujer" 0 "Hombre"
label values sexo sexo

************************************************



Exploración de la base

¿Cuántos casos tiene la base?

¿Hay datos faltantes? Si los hay, indique cuántos son y en qué variables

Explore las variables. Indique si son continuas o categóricas. Si son categóricas, indique si son ordenadas o no ordenadas.


Tiempo desde inicio de enfermedad y calidad de vida.

Grafique la relación entre estas dos variables. Interprete la gráfica. A mayor tiempo desde el inicio de la enfermedad, hay mayor o menor calidad de vida?

Genere una tabla de porcentajes. Identifique las celdas con exceso de casos. Interprétela y diga si confirma lo hallado mediante la gráfica.

Para saber si existe una relación del tipo "a más tiempo desde el inicio mayor calidad de vida" o por el contrario del tipo "a más tiempo desde el inicio de la enfermedad menor calidad de vida", pida la medida de asociación tau b.

Pida finalmente una prueba de significación para tau b e interprete los resultados.



Calidad de vida y tipo de tratamiento.

El tipo de tratamiento es una variable dicotómica. Estas variables, por sus características matemáticas, siempre pueden ser interpretadas como ordinales. Aquí el tipo de tratamiento puede ser estándar o intensivo. Podría considerarse legítimamente como una ordenación en el grado de intensidad.


Grafique la relación entre estas dos variables. Interprete la gráfica. El tratamiento intensivo, ofrece mayor, menor o igual calidad de vida que el tratamiento estándar?

Genere una tabla de porcentajes. Identifique las celdas con exceso de casos. Interprétela y diga si confirma lo hallado mediante la gráfica.

Para saber el grado de asociación entre estas dos variables, esto es, para saber si cuando crece la intensidad del tratamiento crece, decrece o se mantiene igual la calidad de vida, pida el coeficiente de asociación tau b e interprételo.

Pida finalmente una prueba de significación para tau b e interprete los resultados.



Calidad de vida y sexo


Sexo es una variable dicotómica. Estas variables, por sus características matemáticas, siempre pueden ser interpretadas como ordinales.

Grafique la relación entre estas dos variables. Interprete la gráfica. Las mujeres, ¿tienen mayor, igual o menor calidad de vida que los hombres?

Genere una tabla de porcentajes. Identifique las celdas con exceso de casos. Interprétela y diga si confirma lo hallado mediante la gráfica.

Para saber el grado de asociación entre estas dos variables, pida el coeficiente de asociación tau b e interprételo.

Pida finalmente una prueba de significación para tau b e interprete los resultados.



miércoles, 10 de mayo de 2017

Relaciones bivariadas: variables ordinal - ordinal. Video

En este video se verán relaciones entre variables categóricas ordinales. Son variables entre cuyas categorías existe un claro orden. Por ejemplo: máximo nivel educativo alcanzado, con las opciones de respuesta primaria, secundaria, universidad y posgrado. Otro ejemplo: prestigio del trabajo ejercido: bajo, medio o alto.

Una pregunta habitual es si cuando aumenta el valor de una variable (por ejemplo más educación), aumenta el valor de la otra (por ejemplo más prestigio). Para ver el grado de asociación entre dos variables ordinales, en Stata se emplea habitualmente el coeficiente taub.

A continuación sigue una sintaxis que da origen a una base de datos ficticia sobre libros, con la cual se trabajará en el video.


*****************************************
clear all
set obs 300
set seed 123456

gen precio = rbinomial(2,0.5)
label variable precio "Precio del libro"
label define precio 0 "Bajo" 1 "Medio" 2 "Alto"
label values precio precio
gen prestigio = precio + round(rnormal(0,1))
label variable prestigio "Prestigio del autor"
label define prestigio 0 "Poco" 1 "Medio" 2 "Mucho"
label values prestigio prestigio
replace prestigio = 0 if prestigio < 0
replace prestigio = 2 if prestigio > 2

gen paginas = 1 if precio == 0
replace paginas = 1 if precio == 2
replace paginas = trunc(runiform()*3) if precio == 1
label define paginas 0 "Pocas" 1"Medias" 2"Muchas"
label values paginas paginas

gen sexo = prestigio
replace sexo = 1 if sexo == 2
replace sexo = round(runiform()) if runiform() < 0.30
label variable sexo "Sexo del autor"
label define sexo 0 "Hombre" 1 "Mujer"
label values sexo sexo
*******************************************


Video