Curso de Stata: julio 2018

lunes, 30 de julio de 2018

Continuación de comando egen, y comando egen con prefijo bysort. Video

El comando egen se llama así por "extended gen" o "extended generate".

Tiene una gran cantidad de opciones que le permiten hacer cosas muy diversas, solo algunas de las cuales se verán en el video anexo. Las que veremos aquí son similares a las que ofrece el comando aggregate en SPSS.

En términos generales, el formato de los comandos egen es el siguiente:

egen nombre_nueva_variable = función(vieja_variable)

Por ejemplo, si quisiéramos el precio medio de los autos en el archivo auto.dta, el comando sería:

egen precio_medio = mean(price)

y si quisiéramos la media de las milla por galón diferenciando los autos domésticos de los extranjeros, deberíamos pedir:

bysort foreign: egen media_mpg = mean(mpg)

Las funciones que veremos en este video serán:

mean
max
min
rank
count
total

Video

viernes, 27 de julio de 2018

Ejercicio de cálculo con comando egen (sin solución)

Genérese una base de datos corriendo la siguiente sintaxis:

**********************************
cls
clear all
set obs 300
set seed 1234
gen nro_cliente = _n
gen art1 = 20 if runiform() < 0.90
gen art2 = 20 if runiform() < 0.90
gen art3 = 10 if runiform() < 0.60
gen art4 = 40 if runiform() < 0.80
gen art5 = 10 if runiform() < 0.20
gen art6 = 11 if runiform() < 0.10
gen sexo = rbinomial(1, 0.55)
label define sexo 1 "Hombre" 0 "Mujer"
label values sexo sexo
**********************************

Esta base de datos simula 300 clientes que pueden comprar o no hasta 6 artículos. Si el cliente compró un artículo, figura el precio de la compra. Si no compró, hay un faltante.

El comerciante otorga descuentos a los que compraron 4 artículos o más. El precio descontado es el del artículo de menor valor.

Se pide al estudiante:

Indique cuántos clientes compraron 4 artículos o más.
Calcule cuánto pagó cada cliente, teniendo en cuenta el descuento del comerciante.
Indique la recaudación total del comerciante.
Indique qué monto recaudó de mujeres y de hombres.
Indique el monto máximo comprado. Haga una lista con dichos montos y con la identificación de los clientes que lo compraron.

jueves, 26 de julio de 2018

Ejercicio con egen (funciones en fila). Video

La sintaxis siguiente genera una base de datos de supuestas compras hechas por 12 clientes. Los vendedores hacen, para quienes compran más de un artículo, un descuento del 25 % sobre el artículo de menor precio.

***********************************************
clear
set seed 5799
set obs 12
gen cliente = _n
gen monto_compra1 = round(rnormal(100, 20))
gen monto_compra2 = round(rnormal(100, 20))
replace monto_compra2 = . if rnormal(100,20) < 100
gen sexo = runiform() <.5
label define sexo 0 "hombre" 1 "mujer"
label values sexo sexo
cls
***********************************************

Se pide:

Haga una lista de los montos gastados por cada cliente

Indique cuánto gastaron hombres y cuánto mujeres.

Video

Do file

martes, 24 de julio de 2018

Prefijo bysort. Video

El prefijo bysort se utiliza para separar análisis, o para realizar operaciones, por grupos.

Por ejemplo, si hiciéramos

bysort sexo: summarize altura

nos daría dos sumarios de altura, uno para cada sexo.

O si hiciéramos

bysort region: pwcorr pbi expectativa_vida

nos daría dos medidas de correlación entre pbi y expectativa de vida, una para cada región.

Este prefijo funciona con la estructura que sigue:

bysort variable_categórica : comando...

bysort va seguido de una variable categórica y de dos puntos, y luego un comando de Stata emitido de manera habitual.

Video

viernes, 20 de julio de 2018

Algunos usos del comando egen: Funciones de fila. Video

El comando egen se llama así por extended generate. Sirve para generar nuevas variables mediante muy diversas funciones.

Veremos en esta entrada algunas de ellas que operan en cada renglón.

Se verán:

rowmiss (cuenta los casos faltantes en un renglón)
rownonmiss (cuenta los casos no faltantes en un renglón)
rowmax (calcula el máximo entre una serie de variables en un renglón)
rowmin (calcula el mínimo entre una serie de variables en un renglón)
rowmean (calcula la media entre una serie de variables en un renglón)
rowtotal (calcula la suma total de una serie de variables en un renglón).

Rowmiss

La sintaxis para la función rowmiss de egen puede verse a continuación.

egen NombreNuevaVariable = rowmiss (lista de variables)

Esto genera una nueva variable (en el ejemplo llamada n_faltantes) con la cantidad de faltantes en cada renglón.

Rownonmiss

La función rownonmiss nos indica el número de valores no faltantes en las variables a, b, c y d, dentro de cada renglón.

Rowmax

La función rowmax nos indica en valor máximo de una lista de variables en una nueva variable por renglón. Nótese que calcula el máximo sin tener en cuenta a los faltantes.

Rowmin

La función rowmin de egen nos indica el valor mínimo de una serie de variables en una nueva variable. Nótese que calcula el mínimo sin tener en cuenta los faltantes.

Rowtotal

La función rowtotal calcula la suma total entre una serie de variables. No tiene en cuenta los valores faltantes.

Rowmean

La función rowmean del comando egen calcula el promedio entre varias variables, renglón por renglón.

Do file

Video

domingo, 15 de julio de 2018

Relaciones bivariadas, y recodificación. Ejercicio de revisión 4 (sin solución).

Análisis de relaciones bivariadas (análisis gráfico, numérico, de significación y de fuerza de la asociación.

Se trabajará con el archivo Gss93 subset.dta

DK significa don't know

NA significa no answer

NAP significa not applicable

Explore las variables letdie (permitir que mueran los pacientes incurables) y sexeduc (actitud ante la educación sexual en las escuelas).

Explore si existe relación entre ambas variables, gráfica y numéricamente, luego de pasar los DK, NA y NAP a faltante (.).

Asumiendo que esta es una muestra aleatoria simple, ¿se puede descartar la hipótesis nula? Nota: usar chi2.

¿Cuál es el grado de asociación? Comente.

Explore las variables sei (índice de status socioeconómico) y educ (año más alto de educación completado).

Si es necesario pase valores a faltantes.