Curso de Stata: febrero 2017

domingo, 26 de febrero de 2017

Ejercicio de revisión (sin solución)

Genere una base de datos corriendo la sintaxis que sigue:

************************************************

clear all

set seed 2145

set obs 400

gen nro_caso = _n

gen vida_luego_muerte = int((runiform()*4))+ 1

label define vida_luego_muerte 1 "sí, definitivamente" 2"si, probablemente" 3 "probablemente no" 4 "no, definitivamente"

label values vida_luego_muerte vida_luego_muerte
label variable vida_luego_muerte "Hay vida después de la muerte?"

gen altura = round(rnormal(173,6))

gen aleat = runiform()

replace aleat = . if runiform() < 0.10

gen gente_abusa = "todo el tiempo" if aleat < 0.10

replace gente_abusa = "la mayoría del tiempo" if aleat >= 0.10 & aleat < 0.30

replace gente_abusa = "pocas veces" if aleat >=0.30 & aleat < 0.70

replace gente_abusa = "casi nunca o nunca" if aleat >=0.70 & aleat <= 1

label variable gente_abusa "La gente abusa de su prójimo ….."

drop aleat

gen edad = int(runiform() * 40 + 18)

replace edad = . if runiform() < 0.05

gen religion= rbinomial(3, 0.5)

replace religion = . if runiform() < 0.10

label define religion 0 “hinduismo” 1 “sintoísmo” 2 “neopaganismo” 3 “budismo”

label values religion religion

************************************************

A continuación, conteste las siguientes preguntas:

¿Cuántas variables hay en la base?
¿Cuántos casos hay?
¿Cuántas variables cuantitativas hay? ¿Cuáles son?
¿Cuántas variables categóricas hay? ¿Cuáles son?
Las variables categóricas generalmente están almacenadas como variables numéricas con etiquetas. Sin embargo aquí una de las variables categóricas está almacenada en formato string (cadena). ¿Cuál es?
La variable altura, ¿es normal?
Pida la media y la desviación estándar para altura.
Pida un resumen de 5 puntos para la variable edad.
Grafique, con una gráfica pertinente, la variable religión. Indique cuál es la categoría más numerosa.
Pida una nueva gráfica de la variable religión, pero ahora ordenando las barras según frecuencia de casos [catplot religion, var1opts(sort(1) descending)]
Haga una tabla de frecuencias de la variable religion. Verifique que la categoría más numerosa es la indicada en la gráfica.
Grafique la variable gente_abusa.
Pida un listado de frecuencias de dicha variable.

sábado, 25 de febrero de 2017

Ejercicio de revisión (con solución en video)

Ejecute la sintaxis que sigue, la cual creará una base de datos:

************************************************

clear all

set seed 2145

set obs 400

gen nro_caso = _n

gen colorpelo = int((runiform()*4))+ 1

label define colorpelo 1 "rubio" 2"pelirrojo" 3 "castaño" 4 "negro"

label values colorpelo colorpelo
label variable colorpelo "Color de pelo"

gen altura = round(rnormal(173,6))

gen aleat = runiform()

gen nov_pref = "policial" if aleat < 0.10

replace nov_pref = "ciencia ficcion" if aleat >= 0.10 & aleat < 0.40

replace nov_pref = "romantica" if aleat >=0.40 & aleat < 0.70

replace nov_pref = "historica" if aleat >=0.70 & aleat <= 1

label variable nov_pref "Tipo de novela preferida"

drop aleat

gen sueldo = int(rnormal(200, 15))

gen patrimonio = rnormal(45000, 8200)

************************************************

A continuación, conteste las siguientes preguntas:

¿Cuántas variables hay en la base?
¿Cuántos casos hay?
¿Cuántas variables cuantitativas hay? ¿Cuáles son?
¿Cuántas variables categóricas hay? ¿Cuáles son?
Las variables categóricas generalmente están almacenadas como variables numéricas con etiquetas. Sin embargo aquí una de las variables categóricas está almacenada en formato string (cadena). ¿Cuál es?
La variable patrimonio, ¿es normal?
La variable sueldo, ¿es normal?
Pida las medidas de resumen para las variables patrimonio y sueldo que estime pertinentes. (Se recuerda que las medidas de resumen para variables cuantitativas más habituales son, o bien media y desviación estándar o bien resumen de 5 puntos).
Grafique, con una gráfica pertinente, la variable colorpelo. Indique cuál es la categoría más numerosa.
Haga una tabla de frecuencias de la variable colorpelo. Indique cuál es la categoría más numerosa.

Video con solución

miércoles, 22 de febrero de 2017

Cómo comentar en una sintaxis de Stata

Es importante que las sintaxis sean entendibles. En un lugar de trabajo a veces una sintaxis hecha por una persona es retomada, quizás tiempo después, por otra. O incluso por la misma, después de un tiempo quizás largo.

En cualquiera de las dos situaciones la sintaxis debe ser comprensible. Es característica necesaria de una buena sintaxis.

Para ser comprensible ayuda que tenga una estructura tan clara y simple como sea posible, y también los comentarios. No se trata de comentar cada paso: los obvios no lo requieren. Pero sí intercalar los necesarios para facilitar la comprensión.

En Stata se puede comentar de tres maneras:

empezando la línea con *
comenzando el comentario con //
Poniendo el comentario entre estos delimitadores: /* comentario */

La primera manera pide comenzar una línea de comentario con *

Ejemplo con *

*cálculo de impuesto

gen Iimpuesto = 0 if salario_total < 15000

replace impuesto = salario_total * 0.15 if salario_total >=15000

La segunda manera pide empezar los comentarios con //. Estas dos barras diagonales anteceden al comentario, y pueden ir al inicio del renglón o después de terminar el comando. Si van luego de un comando es imprescindible que haya espacios en blanco entre medio.

Ejemplo 1 con //

//cálculo de impuesto

gen Iimpuesto = 0 if salario_total < 15000

replace impuesto = salario_total * 0.15 if salario_total >=15000

Ejemplo 2 con //

replace costo_vida = 12000 if region == 4 // La región 4 es la noreste

En el ejemplo 2 se pone el comentario después del comando y de espacios en blanco para aclarar cuál es la región 4. Los espacios en blanco son imprescindibles aquí.

La tercera manera es con delimitadores:

Ejemplo con delimitadores: /* comentario */

replace costo_vida = 12000 /* 12000 fue provisto por Banco Central */ if region == 4

Esta forma de comentar es más engorrosa de teclear y menos usada. Permite comentar entre medio de un comando si así se desea.

lunes, 20 de febrero de 2017

Corriendo una sintaxis en Stata. Video

En ocasiones podemos encontrar en la Web (y se encontrarán próximamente en este blog) sintaxis de Stata.

Una sintaxis es un conjunto de comandos. Entre las líneas de asteriscos hay una sintaxis.

************************************************

clear all

set seed 2145

set obs 400

gen nro_caso = _n

gen colorpelo = int((runiform()*4))+ 1

label define colorpelo 1 "rubio" 2"pellirrojo" 3 "castaño" 4 "negro"

label values colorpelo colorpelo

gen altura = round(rnormal(173,6))

gen aleat = runiform()

gen nov_pref = "policial" if aleat < 0.10

replace nov_pref = "ciencia ficcion" if aleat >= 0.10 & aleat < 0.40

replace nov_pref = "romantica" if aleat >=0.40 & aleat < 0.70

replace nov_pref = "historica" if aleat >=0.70 & aleat <= 1

label variable nov_pref "Tipo de novela preferida"

drop aleat

gen sueldo = int(rnormal(200, 15))

gen patrimonio = rnormal(45000, 8200)

************************************************

Puede ver cómo ejecutar esta sintaxis en el video.

Video

miércoles, 15 de febrero de 2017

Ayuda en Stata: algunas formas de pedirla. Video

Se muestran aquí cuatro formas o bien de pedir ayuda, o bien de operar si no nos acordamos del todo de los comandos:

help comando
db comando
a través del Menú
a través de Internet.

Video

sábado, 11 de febrero de 2017

Ejercicio sobre variables categóricas (sin solución)

Se usará el archivo nhanes2, que se traerá de la web mediante el comando
webuse nhanes2.dta

Pida un listado de frecuencias de la variable region. ¿Cuál es la región que aparece en mayor cantidad de observaciones?
Haga un diagrama de barras con porcentajes de la variable region con catplot.
Haga un diagrama de barras con porcentajes, poniendo arriba la categoría más numerosa. El comando es catplot region, var1opts(sort(1) descending) percent

La variable agegrp nos da los grupos etarios. Se pide:

4. Haga una tabla de frecuencias.
5. Indique si aquí tiene sentido usar las frecuencias acumuladas. Explique.
6. Grafique los grupos etarios.
7. Indique si aquí tendría sentido ordenar poniendo primero las categorías más frecuentes. Explique.

viernes, 10 de febrero de 2017

Ejercicio sobre variables categóricas (con solución en video)

Abra el archivo nlsw88.dta que viene con Stata. (File, Example Datasets, Example Datasets installed with Stata).

Pida tabla de frecuencias para la variable occupation. ¿Cuál es la ocupación con más casos? ¿Cuántos casos tiene? ¿Qué porcentaje del total de casos es?

Instale el programa de usuario catplot en su Stata.

Grafique con catplot la variable occupation, primero en frecuencias y luego en porcentajes. ¿Cuál es la ocupación más numerosa? ¿Cuántos casos tiene aproximadamente? ¿Qué porcentaje tiene esa categoría?

Grafique nuevamente la variable occupation en frecuencias, de manera ordenada descendente.
El comando es
catplot occupation, var1opts(sort(1) descending)
Copie el texto en negrita y ejecútelo.

¿Coinciden los resultados de la tabla y de la gráfica?

Solución en Video

domingo, 5 de febrero de 2017

Variables categóricas. Comandos tab1 y catplot. Video

Llamamos variables categóricas a variables tales como raza (blanca, negra u otra), religión (católica, protestante, umbandista, judía, musulmana, otra), sexo (varón o mujer).

Usualmente las entramos con un número al que se le añade una etiqueta de valor (por ejemplo: partidopolítico 1 "Partido Liberal" 2 "Partido del Norte" 3 "Partido Ecologista).

Las variables categóricas pueden ser ordenadas o no ordenadas. Si la variable ansiedad tuviera como valores posibles 1. Baja, 2 Media o 3 Alta, estaríamos en presencia de una variable categórica ordenada.

Para analizar de forma univariada las variables categóricas, ya sean ordenadas o no, utilizamos las tablas de frecuencia, las que pedimos con el comando tab1, o gráficas. Las gráficas de barras las haremos mediante un programa de usuario que instalaremos en nuestro Stata. El programa de usuario se llama catplot.

Video

jueves, 2 de febrero de 2017

Ejercicio sobre variables cuantitativas (sin solución)

Genérese un documento que dé respuesta a las consignas planteadas a continuación.

1) Corra el siguiente comando: sysuse nlsw88.dta (dicho comando abrirá el archivo nlsw88.dta que viene con la instalación de Stata).

2) Grafique la variable tenure (antigüedad en el trabajo). Indique si la distribución es normal o sesgada.

3) ¿Entre qué valores se mueve la variable tenure?

4) Haga un resumen de 5 puntos de la variable tenure.

5) Grafique mediante un histograma la variable hours (horas de trabajo). Indique si la distribución es aproximadamente simétrica o si es sesgada.

6) Haga un resumen de 5 puntos para la variable hours.

7) Ejecute el comando summarize con la variable hours, observe la salida y comente los aspectos que le parezcan llamativos.