Curso de Stata: junio 2017

domingo, 25 de junio de 2017

Ejercicio de recodificación y cálculo de cuantiles con solución en video

Genérese una base de datos corriendo la sintaxis que sigue:

**************************************************
clear all
set obs 500
set seed 1234
gen años_educ = round(rchi2(5))
gen salario_hora = round(años_edu * 50 + rnormal(0,3))
gen voto = rbinomial(3, 0.40)
replace voto = 12 in 18
label define voto 0 "Izquierda unida" 1 "Derecha patriótica" 2 "Izquierda obrera" 3 "Derecha tradicional"
label values voto voto
gen patrimonio = round((1 - rbeta(200, 3)) * 2000000)
replace patrimonio = patrimonio + 50000 if voto ==1 | voto == 3
**************************************************

Recodifique y rotule la variable años_educ según los siguientes criterios:
Hasta 5 años inclusive: Primaria Incompleta
Hasta 8 años inclusive: Primaria completa
Hasta 11 años inclusive: Ciclo Básico Completo
12 años: Ciclo Superior Completo
Más de 12 años: Universidad o superior

Indique el salario hora medio para cada una de las categorías anteriores.

La variable voto tiene un valor erróneo: 12. Recodifique dicho valor a faltante (lo suponemos un error sin posibilidad de averiguar el valor verdadero), y los restantes valores a las categorías Izquierda y Derecha.

Establezca los quintiles de la variable patrimonio, e indique si tienen una relación significativa con voto dicotomizado de izquierda o de derecha.

Video

sábado, 24 de junio de 2017

recode y xtile. Video

En este video se verán dos maneras que pueden ser usadas para categorizar variables continuas: a través de los comandos recode y xtile.

Se usará la base que se genera corriendo la sintaxis que sigue.

**********************************
clear *
set obs 200
set seed 15863
gen sueldo = rchi2(2) * 10000 + 5000
gen imc = rnormal(25,4)
**********************************

Video

viernes, 23 de junio de 2017

Relaciones bivariadas y recodificación. Ejercicio de revisión 6 (sin solución)

General Social Survey 2016

El archivo gss2016.dat tiene datos reales. Las variables seleccionadas son parte de la encuesta llamada "General Social Survey", realizada en 2016.

ATENCION: Si desea tratar una variable como ordinal, pero los códigos no corresponden con ese orden (por ejemplo 1. Bajo 2. Alto y 3. Intermedio), deberá recodificarla de tal forma que los códigos queden ordenados (por ejemplo: 1. Bajo 2. Intermedio y 3. Alto). Esta aclaración se hace por única vez para todo el ejercicio.

Se desea:

Estudie la relación entre las variables colscinm (número de cursos científicos que el respondente tomó a nivel universitario) y astrosci (¿es científica la astrología?). Grafique la relación, indique si es significativa y cuál es la fuerza de la asociación. Haga una tabla que indique la media de la cantidad de cursos científicos que tomaron creyentes y no creyentes en la astrología. Comente sobre la relación.
Estudie la relación entre las variables Zodiac (signo del zodíaco al cual pertenece el respondente) y age (edad). Grafique la relación, indique si la asociación entre estas dos variables es significativa, y haga una tabla con las edades medias y medianas para cada signo. Comente sobre la relación.
Estudie la relación entre las variables gender1 (género del respondente) y attend (concurrencia a servicios religiosos). Grafique la relación, indique si es significativa y la fuerza de la asociación, genere tabla e indique donde hay excesos de casos notorios si los hay. Comente sobre la relación.
Estudie la relación entre polviews (orientación política) y poleff16 (desconfianza a las promesas de los congresales). Grafique, indique si la relación es significativa y su fuerza, genere una tabla e indique donde hay excesos relativos de casos notorios si los hay. Comente sobre la relación.
Estudie la relación entre la variable attend (concurrencia a servicios religiosos) y popespks (el Papa es infalible en materia de fe y de moral). Grafique la relación, indique si es significativa, la fuerza de la asociación y las celdas donde hay notorios excesos relativos de casos). Comente sobre la relación.
Estudie la relación entre Tvhours (horas por día mirando TV) y educ (año más alto de educación completado por el respondente). Grafique la relación, indique si la asociación entre las variables es significativa y cuál es su fuerza. Comente.
Estudie la relación entre las variables maeduc (educación de la madre) y paeduc (educación del padre). Grafique la relación, indique si la asociación es significativa y cuál es su fuerza. Comente sobre la relación.

Base de datos

jueves, 22 de junio de 2017

martes, 20 de junio de 2017

Ejercicio de cálculo (sin solución)

Genérese una base corriendo la sintaxis que sigue:

*******************************************
set obs 500
set seed 12324
gen sueldo = runiform() *20000 + 20000
gen hijos = rbinomial(3, 0.50)
*******************************************

Esta base simula información sobre trabajadores. Están sus salarios y su cantidad de hijos.

Un economista está tratando de calcular el rendimiento de dos posibles impuestos.

El primer impuesto propondría no grabar los sueldos de hasta $20000. Los sueldos de más de 20000 y hasta 30000 pagarían un 10%, y los sueldos de más de 30000 un 20%. ¿Cuánto recaudaría este primer impuesto para los trabajadores de la base?

Un segundo impuesto alternativo sería del 20% para los que tienen menos de 2 hijos, y del 15% para los que tienen 2 o más hijos. ¿Cuánto recaudaría este segundo impuesto?

lunes, 19 de junio de 2017

Ejercicio de cálculo con resolución en video.

Este ejercicio simula una base con datos de hombres que subieron sus características de altura, memoria y color de pelo a una aplicación para citas tipo Tinder.

Distintas mujeres desean saber qué hombres tienen los rasgos que ellas desean.

Es un ejercicio para realizar cálculos de variables 0-1. Adicionalmente se practican otros comandos.

Letra del problema

Base

Resolución en video

viernes, 16 de junio de 2017

Ejercicio de cálculo 0-1. Resolución en Video.

En esta entrada se resolverá un problema en donde una serie de mujeres desean saber que citas hay disponibles para ellas en una base de datos de una aplicación tipo Tinder.

La base se creará con la siguiente sintaxis:

*******************************************
clear all
set obs 400
set seed 12546
gen identificacion = _n
gen memoria = rnormal(100, 15)
replace memoria = . in 25/31
gen altura = rnormal(170, 7)
gen colorpelo = int(runiform() *4)+1
replace colorpelo = . in 330/334
gen habla_aleman = int(runiform() *3)+1
label define colorpelo 1 "rubio" 2 "pelirrojo" 3 "castaño" 4 "negro"
label values colorpelo colorpelo
label define habla_aleman 1 "No habla o habla mal" 2 "Bien" 3 "Muy bien"
label values habla_aleman habla_aleman

*******************************************

Letra del problema:

La base adjunta ser de una app de citas, y tiene datos de hombres interesados. Se pide:

Indique cuántas variables y cuántos casos hay en la base.

Indique si hay faltantes, en qué variables los hay, y cuántos.

Mariela desea conocer personas entre 170 y 185 cm de altura (ambos extremos incluidos), con color de pelo rubio o castaño. Indique cuántas personas cumplen con las condiciones de Mariela.

Haga un listado de 10 de personas que cumplan estas condiciones, en orden creciente de Identificación. El listado tendrá las variables altura, color de pelo e Identificación.

Helena desea conocer personas que hablen alemán bien o muy bien, y cuya memoria esté en el séptimo decil o superior. Indique cuántas personas cumplen con las condiciones de Helena.

Haga un listado de 10 de las personas que cumplan estas condiciones, en orden creciente de Identificación. El listado tendrá las variables Habla_aleman, decil de memoria e identificación.

Natalia desea conocer personas con un color de pelo que no sea rubio y con altura superior a 175 cm. Indique cuántas personas cumplen con las condiciones de Natalia.

Haga un listado de 10 de estas personas, en orden creciente de identificación. Las variables serán color de pelo, altura e identificacion.

Indique cuántos hombres interesan simultáneamente a Mariela, Helena y Natalia.

Solución en video

jueves, 15 de junio de 2017

Usos adicionales de los comandos generate y replace. Cálculo 0-1. _n. Video

En este video se mostrará cómo crear variables dummy (o variables binarias, o variables indicador: son nombres sinónimos). Estas son variables que toman el valor 1 cuando se cumplen ciertas condiciones o 0 si no se cumplen.

Por ejemplo, podemos generar una variable llamada hombre hipertenso que tome el valor 1 en el caso de hombres hipertensos y 0 en otras situaciones.

Si tuvieramos las variables sexo (1 hombre, 2 mujer) y altura (en cm) podríamos generar la variable hombre alto para hombres de más de 180 cm:

gen hombre_alto = sexo == 1 & altura > 180

Otro uso que se mostrará es la generación de números consecutivos, por ejemplo:

gen numero_caso = _n

El comando anterior crea una variable llamada numero_caso que toma los valores consecutivos 1, 2, 3, etc.

Video

sábado, 10 de junio de 2017

Etiquetado de variable, y de los valores que puede tomar la variable. Video

En el video adjunto se mostrará cómo etiquetar
1) variables
2) valores que toman las variables

Se trabajará con la base que genera ejecutar la siguiente sintaxis:

************************
clear all
set obs 20
set seed 3526
gen ppol = trunc(runiform() *4)
tab1 ppol
************************

La sintaxis anterior genera una variable llamada ppol, que será etiquetada "Partido Político que votó en las últimas elecciones".

Se mostrará cómo se etiquetan variables con la ayuda del comando label variable.

Hay 4 respuestas posibles: 0, 1, 2 y 3.
Estos valores representan a distintos partidos:
0 "Partido del Norte"
1 "Partido Democrático"
2 "Partido Agrícola"
3 "Partido Obrero".

Se mostrará cómo se etiquetan estos valores, con ayuda de los comandos label define y label values.

Video