Curso de Stata: 2018

domingo, 30 de diciembre de 2018

Autoevaluación parcial 1. Cuatro problemas con soluciones escritas.

Se adjuntan cuatro ejercicios.

Se invita al estudiante a tratar de resolverlos con los recursos aprendidos, y solo luego consultar mi solución.

Es un magnífico método de aprendizaje, y a la vez ayudará al estudiante a detectar aquellos puntos que necesitan repaso.

Bases y Letra evaluación parcial

Solución escrita y do file.

jueves, 20 de diciembre de 2018

Ejercicio con preserve, restore, keep y drop (sin solución)

En este ejercicio se tomará un archivo de la red, se dividirá en dos partes y luego se fusionarán esas dos partes para volver a tener un archivo similar al original.

Corra el comando webuse lifeexp. Así cargará el archivo de datos lifeexp.dta. Dicho archivo tiene una variable región, que contiene las categorías Europa y Asia, Norteamérica y Sudamérica.
Indique si la variable region tiene faltantes.
Preserve ("saque una foto") del archivo lifeexp.dta (comando preserve)
Quédese con los casos correspondientes a América. Grabe esos casos con el nombre America.dta (comandos keep o drop)
Restaure el archivo lifeexp.dta con el comando restore.
Quédese ahora con los casos que corresponden a Europa y Asia.
Grabe dicho archivo con el nombre Europa_Asia.dta.
Elimine los datos que Stata tiene en memoria con el comando clear all
Abra el archivo que guardó con el nombre América.dta, y fusiónelo con el llamado Europa_Asia.dta.
Pida una frecuencia de la variable region. ¿Están todos los casos originales?

lunes, 10 de diciembre de 2018

Comandos preserve / restore. Video.

Los comandos preserve y restore se usan en conjunto.

preserve "saca una foto" del estado de una base de datos en el momento en que se ejecuta.

Luego podemos generar variables, cambiarlas, eliminarlas, añadir casos, eliminarlos o lo que se desee.

El comando restore vuelve la base al momento en que se ejecutó el comando preserve.

Si más tarde se desea modificar nuevamente la base y volverla a la situación en que está al momento del preserve, se deberá correr nuevamente este comando. El preserve original se agota luego del restore, no sigue vigente.

Video

viernes, 30 de noviembre de 2018

Comando append. Video

El comando append permite fusionar archivos de datos de Stata que tienen fundamentalmente las mismas variables.

Por ejemplo, se generan archivos de personal en distintas sucursales y luego se desea reunirlos en un archivo único a nivel de empresa.

Los archivos deben tener las mismas variables y en los mismos formatos.

El comando append es similar a la función añadir casos de SPSS.

Video

martes, 20 de noviembre de 2018

Ejercicio 3 de repaso acumulativo. Sin solución.

Costo de políticas sociales

La base CostoPoliticasSociales.dat simula una serie de hogares, e indica los ingresos del hogar, el número de hijos chicos y los ingresos totales del hogar.

Se está estimado el costo de algunas políticas sociales.

Entregar $ 4000 a aquellos hogares que tienen hijos y que viven en viviendas deficitarias.
Entregar $ 2000 a cada hogar en que no hay cónyuge y hay 2 o más hijos.
Entregar $ 3000 a los hogares del primer quintil de ingresos.
Entregar $6000 a aquellos hogares con hijos y jefatura femenina sin conexión a Internet.

Calcule cuánto recibiría cada hogar si recibiera todos los beneficios a los que sus condiciones de vida les darían derechos.
Indique cuánto recibiría el hogar más favorecido y cuál es su identificación, y cuánto el hogar menos favorecido, y cuál es su identificación.
Indique en una tabla cuál es la media de los beneficios que recibirían los hogares con jefatura femenina y cuál la media de los hogares con jefatura masculina.

Base de datos

jueves, 15 de noviembre de 2018

Ejercicio de repaso del comando egen y otros, sobre ovnis. Sin solución.

Base de datos

Letra del problema

sábado, 10 de noviembre de 2018

Ejercicio 2 de repaso acumulativo. Sin solución.

Investigación criminal.

La base InvestigacionCriminal.dat simula una base de personas con antecedentes penales.

Se ha cometido un crimen y hay tres testigos.

El primero de ellos dice que el culpable es un hombre de entre 165 y 175 cm (ambos extremos incluidos) con un tatuaje en el brazo derecho.
El segundo testigo dice que es un hombre de apellido López, que es obeso (se interpretó como un índice de masa corporal > 30).
El tercer testigo afirma que es un hombre con sobrepeso u obeso (se interpretó como un índice de masa corporal superior a 25), y con un tatuaje en uno de los brazos.

Se desea saber qué personas de la base (si las hay) concuerdan simultáneamente con las descripciones de los tres testigos. Haga una lista, ordenada por identificación, con las identificaciones de los que cumplen con las descripciones de los tres testigos (Si la lista excede los 10 casos presente solo los 10 primeros).
Adicionalmente se quiere saber qué personas concuerdan con por lo menos dos de las descripciones. Presente una lista, ordenada por identificación, de las identificaciones de los sospechosos (si la lista excede los 15 casos, presente solo los 15 primeros).

Base de datos

martes, 30 de octubre de 2018

Ejercicio1 de repaso acumulativo. Sin solución.

En este ejercicio se repasa: exploración general de la base, análisis univariado, análisis bivariado, recodificaciones, cálculos, confección de listados.

Base y letra del problema (archivo rar)

sábado, 20 de octubre de 2018

Comando de usuario asdoc. Video

El comando de usuario asdoc permite exportar tablas de calidad a un documento Word. La ventaja de exportarlas así es que se puede editar: añadirle títulos, ponerle notas al pie, etc.

asdoc permite además ponerle títulos a las tablas, elegir el tamaño de la letra, elegir la cantidad de cifras decimales, etc.

Video

miércoles, 10 de octubre de 2018

Ejercicio de cálculo con y sin condiciones, con solución en video.

El ejercicio pide calcular varios impuestos y subsidios a hogares según diversos ingresos y carencias.

Base de datos

Letra

Video con solución

lunes, 10 de septiembre de 2018

Ejercicio con sort e in (sin solución)

Abra el archivo lifeexp.dta que viene con Stata.

Conteste las siguientes preguntas:

¿Cuáles son los 3 países con menor PBI per cápita (variable gnppc) de la base?

¿Cuáles son los 3 países con menor PBI per cápita de la región Europa _ Asia?

¿Cuáles son los 5 países con mayor porcentaje de agua potable de la región sudamericana?

¿De los países que tienen una expectativa de vida mayor o igual a 60 años, cuál es el que tiene menor PBI per cápita?

jueves, 30 de agosto de 2018

Ejercicio con sort e in (con solución en video)

Cárguese en memoria el archivo auto.dta, que viene con Stata.

Conteste las siguientes preguntas:

¿Cuáles son las 5 marcas y modelos (variable make) más económicas de la base?

De los autos que rinden entre 28 y 36 millas por galón (variable mpg), ¿cuáles son las tres marcas (variable make) más económicas?

El auto de mayor peso, ¿es nacional o extranjero (variable foreign)? ¿de qué marca es (variable make)?

Video

sábado, 25 de agosto de 2018

Ejercicio con comando egen, sobre familias y alturas. Sin solución.

Base de datos

Letra del problema

El calificador "in" (texto)

Se dice que "in" es un calificador. ¿Por qué?

Porque califica, especifica, las observaciones a que se aplicarán un conjunto de comandos.

En la ayuda de "in" se ponen los siguientes ejemplos.

sysuse auto
        . list price in 10
Ese "in 10" significa que solo se tomará la observación Nro. 10.

        . list price in 10/20

"in 10/20" significa que se listarán las observaciones que van del 10 al 20

        . list price in 20/l
"in 20/l" indica que se tomarán las observaciones de 20 hasta la última (l por last: No es un 1).

"in 20/L" es una expresión sinónima de la anterior, esta vez con mayúscula.

        . list price in -10/l (expresión sinónima de -10/L)
"in -10/l" significa las 10 últimas. De la menos 10 a la última (last). No confundir la letra l con un número 1.

Este calificador se aplica con frecuencia en combinación con sort.
Por ejemplo, si queremos los 8 precios más baratos, podemos ordenar la base y luego pedir los primeros ocho casos.

sort precio
list precio in 1/8

Y si quisiéramos los siete precios más caros los podríamos pedir así:
gsort - precio
list precio in 1/7

lunes, 20 de agosto de 2018

Comandos "sort" y "gsort". Video.

Los comandos sort y gsort sirven para ordenar la base según una o más variables.

sort

sort ordena la base de forma ascendente.

Ejemplo: si queremos ordenar una base de forma ascendente según la variable precio deberemos escribir el comando
sort precio

gsort

El comando gsort (por generalized sort) es más amplio: permite ordenar en forma ascendente o descendente.

Si quisiéramos ordenar por precios ascendentes, podemos escribir:

gsort price (o, lo que es equivalente, gsort + price)

Si quisiéramos ordenar por precios descendentes, podemos escribir:

gsort - price

Ordenando por dos o más variables

Tanto con gsort como con sort es posible ordenar por dos variables o más. ¿Qué quiere decir ordenar por dos variables? Ordenar por la primera variable, y si hay empates en la primera, ordenar los casos empatados en la primera por una segunda variable.

Por ejemplo, el comando

gsort color -precio

ordenaría primero por color, y dentro de cada color, si hay empates, en forma descendente por precio.

Pero, ¿para qué sirve ordenar la base?

En general las bases se ordenan cuando se desean conocer los valores menores o mayores de alguna variable.

Por ejemplo, si tenemos una base de libros puede interesarnos saber cuáles son los más vendidos, o los menos vendidos.

Si vamos a comprar un auto, puede ser interesante conocer cuáles tienen mejor kilometraje por litro de nafta, etc.

Video

sábado, 18 de agosto de 2018

Ejercicio sobre escuelas y alumnos, con comando egen y otros (sin solución)

En la base anexa hay datos sobre escuelas y alumnos.

¿Qué variables se refieren a las clases?
¿Qué variables se refieren a los alumnos?
¿Hay relación entre la cantidad de alumnos que tienen las clases y las notas individuales que sacan los alumnos? ¿Parecen ser mejores iguales o peores las notas de los alumnos de clases más grandes?
¿Qué porcentaje de los alumnos excelentes (10 o más puntos) cursó con un equipamiento bueno?

Base de datos

miércoles, 15 de agosto de 2018

Ejercicio con comando egen, con tema clases y alumnos. Resolución en video.

Letra del problema

Do file

Base de datos

Video

sábado, 11 de agosto de 2018

Problema de tipología de hogares (sin solución).Comando egen y otros

Se trabajará con una base extraida de la Encuesta Continua de Hogares 2019. Se pedirá la identificación de hogares con jefatura femenina y datos sobre dichos hogares y los niños que habitan en ellos.

Base de datos

Letra del problema

viernes, 10 de agosto de 2018

Comando egen y prefijo bysort: tipología de hogares. Ejercicio con resolución en video

En esta entrada se plantea un problema a resolver usando fundamentalmente el prefijo bysort y el comando egen: se pide clasificar a los hogares de la Encuesta Continua de Hogares según una cierta tipología.

A continuación se hacen dos preguntas que se apoyan en dicha tipología.

Base de datos

Letra del problema

Do file

Video

martes, 7 de agosto de 2018

Ejercicio sobre nivel educativo del hogar, con comando egen y otros (sin solución)

La base adjunta simula una base que fusiona datos de hogares y de personas.

Para las personas se recogió su rol en el hogar (padre, madre o hijo), la edad, los años de educación, y para los niños también el promedio de notas con que atraviesan su recorrido educacional.

Se pregunta:

Calcule tres formas de nivel educativo.

a) Se calculará el NivelEducativo1 que consistirá de la máxima cantidad de años alcanzados ya sea por la madre o por el padre. O sea, si, pe. el padre tuviese 12 y la madre 14, NivelEducativo1 tomará el valor 14.

b) Se calculará el NivelEducativo2, que consistirá del promedio de años de educación alcanzados por el padre y por la madre. Ej: si el padre tuviese 8 y la madre 10, Nivel Educativo2 tomará el valor 9.

c) Se calculará el NivelEducativo3, que consistirá de los años de educación alcanzados por la madre.

d) Se estudiará cuál presenta una correlación mayor con las notas de los hijos. Para esto se utilizará la rho de Spearman.

e) Se elegirá la variable que presente mayor correlación con las notas. Esta variable será dicotomizada en nivel educativo el hogar alto y nivel educativo bajo. Queda a criterio del estudiante el punto de corte para dicotomizar.

f) Se hará una tabla que vincule el nivel educativo con las notas medias de los hijos.

Base de datos

lunes, 6 de agosto de 2018

Ejercicio con egen y bysort, resuelto en Video

En el archivo do file se plantean algunas preguntas, encabezadas por asteriscos, lo que las transforma en comentarios.

Se refieren a la base de datos, que simula equipos que compiten en aeronáutica, y que están compuestos por pilotos, entrenadores y psicólogos.

Do file

Base de datos

Video

domingo, 5 de agosto de 2018

Ejemplo de uso de egen y bysort. Video

El archivo dta contiene información ficticia sobre personas que viven en 5 hogares distintos.

Con la información de las personas se crearán variables que caracterizarán a cada uno de los hogares: número de integrantes, salarios totales del hogar, etc. Estas variables requerirán el uso del comando egen, con varias de sus funciones, y del prefijo sortby.

Archivo dta

Archivo do

Video

lunes, 30 de julio de 2018

Continuación de comando egen, y comando egen con prefijo bysort. Video

El comando egen se llama así por "extended gen" o "extended generate".

Tiene una gran cantidad de opciones que le permiten hacer cosas muy diversas, solo algunas de las cuales se verán en el video anexo. Las que veremos aquí son similares a las que ofrece el comando aggregate en SPSS.

En términos generales, el formato de los comandos egen es el siguiente:

egen nombre_nueva_variable = función(vieja_variable)

Por ejemplo, si quisiéramos el precio medio de los autos en el archivo auto.dta, el comando sería:

egen precio_medio = mean(price)

y si quisiéramos la media de las milla por galón diferenciando los autos domésticos de los extranjeros, deberíamos pedir:

bysort foreign: egen media_mpg = mean(mpg)

Las funciones que veremos en este video serán:

mean
max
min
rank
count
total

Video

viernes, 27 de julio de 2018

Ejercicio de cálculo con comando egen (sin solución)

Genérese una base de datos corriendo la siguiente sintaxis:

**********************************
cls
clear all
set obs 300
set seed 1234
gen nro_cliente = _n
gen art1 = 20 if runiform() < 0.90
gen art2 = 20 if runiform() < 0.90
gen art3 = 10 if runiform() < 0.60
gen art4 = 40 if runiform() < 0.80
gen art5 = 10 if runiform() < 0.20
gen art6 = 11 if runiform() < 0.10
gen sexo = rbinomial(1, 0.55)
label define sexo 1 "Hombre" 0 "Mujer"
label values sexo sexo
**********************************

Esta base de datos simula 300 clientes que pueden comprar o no hasta 6 artículos. Si el cliente compró un artículo, figura el precio de la compra. Si no compró, hay un faltante.

El comerciante otorga descuentos a los que compraron 4 artículos o más. El precio descontado es el del artículo de menor valor.

Se pide al estudiante:

Indique cuántos clientes compraron 4 artículos o más.
Calcule cuánto pagó cada cliente, teniendo en cuenta el descuento del comerciante.
Indique la recaudación total del comerciante.
Indique qué monto recaudó de mujeres y de hombres.
Indique el monto máximo comprado. Haga una lista con dichos montos y con la identificación de los clientes que lo compraron.

jueves, 26 de julio de 2018

Ejercicio con egen (funciones en fila). Video

La sintaxis siguiente genera una base de datos de supuestas compras hechas por 12 clientes. Los vendedores hacen, para quienes compran más de un artículo, un descuento del 25 % sobre el artículo de menor precio.

***********************************************
clear
set seed 5799
set obs 12
gen cliente = _n
gen monto_compra1 = round(rnormal(100, 20))
gen monto_compra2 = round(rnormal(100, 20))
replace monto_compra2 = . if rnormal(100,20) < 100
gen sexo = runiform() <.5
label define sexo 0 "hombre" 1 "mujer"
label values sexo sexo
cls
***********************************************

Se pide:

Haga una lista de los montos gastados por cada cliente

Indique cuánto gastaron hombres y cuánto mujeres.

Video

Do file

martes, 24 de julio de 2018

Prefijo bysort. Video

El prefijo bysort se utiliza para separar análisis, o para realizar operaciones, por grupos.

Por ejemplo, si hiciéramos

bysort sexo: summarize altura

nos daría dos sumarios de altura, uno para cada sexo.

O si hiciéramos

bysort region: pwcorr pbi expectativa_vida

nos daría dos medidas de correlación entre pbi y expectativa de vida, una para cada región.

Este prefijo funciona con la estructura que sigue:

bysort variable_categórica : comando...

bysort va seguido de una variable categórica y de dos puntos, y luego un comando de Stata emitido de manera habitual.

Video

viernes, 20 de julio de 2018

Algunos usos del comando egen: Funciones de fila. Video

El comando egen se llama así por extended generate. Sirve para generar nuevas variables mediante muy diversas funciones.

Veremos en esta entrada algunas de ellas que operan en cada renglón.

Se verán:

rowmiss (cuenta los casos faltantes en un renglón)
rownonmiss (cuenta los casos no faltantes en un renglón)
rowmax (calcula el máximo entre una serie de variables en un renglón)
rowmin (calcula el mínimo entre una serie de variables en un renglón)
rowmean (calcula la media entre una serie de variables en un renglón)
rowtotal (calcula la suma total de una serie de variables en un renglón).

Rowmiss

La sintaxis para la función rowmiss de egen puede verse a continuación.

egen NombreNuevaVariable = rowmiss (lista de variables)

Esto genera una nueva variable (en el ejemplo llamada n_faltantes) con la cantidad de faltantes en cada renglón.

Rownonmiss

La función rownonmiss nos indica el número de valores no faltantes en las variables a, b, c y d, dentro de cada renglón.

Rowmax

La función rowmax nos indica en valor máximo de una lista de variables en una nueva variable por renglón. Nótese que calcula el máximo sin tener en cuenta a los faltantes.

Rowmin

La función rowmin de egen nos indica el valor mínimo de una serie de variables en una nueva variable. Nótese que calcula el mínimo sin tener en cuenta los faltantes.

Rowtotal

La función rowtotal calcula la suma total entre una serie de variables. No tiene en cuenta los valores faltantes.

Rowmean

La función rowmean del comando egen calcula el promedio entre varias variables, renglón por renglón.

Do file

Video

domingo, 15 de julio de 2018

Relaciones bivariadas, y recodificación. Ejercicio de revisión 4 (sin solución).

Análisis de relaciones bivariadas (análisis gráfico, numérico, de significación y de fuerza de la asociación.

Se trabajará con el archivo Gss93 subset.dta

DK significa don't know

NA significa no answer

NAP significa not applicable

Explore las variables letdie (permitir que mueran los pacientes incurables) y sexeduc (actitud ante la educación sexual en las escuelas).

Explore si existe relación entre ambas variables, gráfica y numéricamente, luego de pasar los DK, NA y NAP a faltante (.).

Asumiendo que esta es una muestra aleatoria simple, ¿se puede descartar la hipótesis nula? Nota: usar chi2.

¿Cuál es el grado de asociación? Comente.

Explore las variables sei (índice de status socioeconómico) y educ (año más alto de educación completado).

Si es necesario pase valores a faltantes.