lunes, 30 de enero de 2017

Ejercicio sobre variables cuantitativas (con solución en video)

Resolver el siguiente ejercicio. Se generará un documento escrito, con las respuestas a continuación de los puntos correspondientes de la letra.


  1. Ábrase el archivo adjunto (doble clic sobre el ícono del archivo o, desde el menú de Stata, Archivo, Abrir).
  2. Grafíquense las variables altura, sueldo y notas mediante una gráfica que se estime adecuada.
  3. Para cada una de las variables indíquese si la distribución es normal o sesgada, y si tiene valores extremos (llamados outliers).
  4. Para las variables normales, si las hubiera, hállese la media y el desvío estándar, como estadísticos de resumen de esa variable.
  5. Para cada variables sesgada o con outliers, si las hubiera, hállese un resumen de 5 puntos.


miércoles, 25 de enero de 2017

Variables cuantitativas. Gráficas y medidas de resumen. Video


¿Cómo se estudian las variables cuantitativas como, por ejemplo, altura, sueldo, peso o años de educación aprobados?


Es buena idea comenzar el estudio de estas variables con gráficas. Dos gráficas muy usadas son el histograma y otra que Stata llama kdensity (¿densidad del kernel?). Kdensity es una especie de polígono de frecuencias suavizado, algo así como el perfil del histograma suavizado.

Si la distribución es aproximadamente normal, esto es, si es simétrica y con una sola moda al centro, dos medidas de resumen numérico muy eficaces son la media y la desviación estándar.

En cambio, para distribuciones asimétricas o sesgadas, muchos estadísticos prefieren el resumen de 5 puntos: mínimo, percentil 25, percentil 50 o mediana, percentil 75 y máximo.

Se verá como hacer las gráficas con los comandos histogram y kdensity, y se verá cómo pedir resúmenes numéricos con summarize y tabstat.


Video

sábado, 21 de enero de 2017

Ejercicio de exploración de base de datos (sin solución) (2)

En este ejercicio se hará uso de los comandos describe, summarize, codebook y browse.




Ejecute el comando que sigue: webuse lifeexp (Este comando abre la base llamada lifeexp.dta que viene con Stata).



Con el comando describe:

Indique cuántas variables y cúantos casos tiene la base.
Indique cuántas variables de cadena tiene la base y cuántas numéricas.



Con el comando codebook:

Indique cuál es la etiqueta de la variable gnppc.
Indique cuál es el valor mínimo, el máximo y la media para dicha variable.
Indique cuántos valores faltantes tiene dicha variable.


Indique cuáles son las etiquetas para los valores 1, 2 o 3 que toma la variable región, y cuántos casos hay en cada región. 



Con el comando summarize:

Indique cuáles son las cantidades mínima y máxima y la media de la variable safewater.



Con el comando browse:

Indique cuántas variables hay de cadena, numéricas codificadas y numéricas simples.
Indique cómo se ven los valores faltantes de la variable safewater.







viernes, 20 de enero de 2017

Ejercicio de exploración de base de datos (con solución en video).

En este ejercicio se hará uso de los comandos describe, summarize, codebook y browse.




Ejecute el comando que sigue: sysuse nlsw88 (Este comando abre la base llamada nlsw88.dta que viene con Stata).



Con el comando describe:

Indique cuántas variables y cúantos casos tiene la base.
Indique cuántas variables de cadena tiene la base y cuántas numéricas.



Con el comando codebook:

Indique cuál es la etiqueta de la variable wage.
Indique cuál es el valor mínimo, el máximo y la media para dicha variable.

Indique cuáles son las etiquetas para los valores 1, 2 o 3 que toma la variable race, y cuántos casos hay de cada raza.



Con el comando summarize:

Indique cuáles son las cantidades mínima y máxima y la media de la variable horas trabajadas (hours).



Con el comando browse:

Mire el editor de datos. ¿Ve variables de cadena? (Se recuerda que se veían rojas en el editor de datos).
¿Qué son las variables azules?
¿Qué son las variables cuyos datos se ven negros?



Solución en video (se sugiere intentar hacer el problema antes de mirar su solución)


domingo, 15 de enero de 2017

Exploración primera de bases de datos. Video.

En esta entrada se ven cuatro comandos usados para explorar, en una primera instancia, bases con las que comenzaremos a trabajar.

Los comandos que veremos son:

describe
summarize
codebook
browse


También se verán los distintos largos de almacenamiento de las variables numéricas: byte, short, int, long, float y double.


Video

miércoles, 11 de enero de 2017

Ejercicio de entrada de datos (sin solución)



Se entrarán los datos que siguen en Stata.




A) La variable peso se rotulará "Peso (en kilogramos)"

B) Las categorías de la variable peso se codificarán y rotularán según los siguientes códigos y etiquetas:


  1. Delgado
  2. Normal
  3. Sobrepeso
  4. Obeso



C) La variable MNEd se rotulará "Máximo nivel educativo alcanzado".

D) Las categorías de la variable MNEd serán:


  1. Escuela
  2. Liceo
  3. Universidad


E) Hay variables que se ven en negro, en azul y en rojo. Indique por qué.


martes, 10 de enero de 2017

Ejercicio de entrada de datos (con solución en video)

Imaginemos que en una veterinaria tienen los siguientes datos sobre perros y los quieren entrar en una base de datos de Stata:







Desean representar las razas según los siguientes valores numéricos:

  1. Caniche
  2. Labrador
  3. Ovejero

Desean representar los grados de obediencia según los siguientes valores:
  1. Baja
  2. Media
  3. Alta
Se le pide al estudiante:

  1. Entre los datos anteriores, usando los códigos numéricos arriba indicados.
  2. Utilice los nombres de variables que figuran en el encabezado de las columnas.
  3. Pegue etiquetas a las variables
    1. Peso_kg: "Peso en kilos al inicio del entrenamiento"
    2. Obediencia: "Grado de obediencia antes del entrenamiento"
  4. Pegue etiquetas a los valores de obediencia según los códigos numéricos arriba vistos.
  5. Pegue etiquetas a los valores de raza según los códigos numéricos arriba vistos.

 Conteste las siguientes preguntas:

  1. ¿Qué variables fueron almacenadas como string (cadena)?
  2. ¿De qué color aparecen en el editor de datos estas variables?
  3. ¿Qué variables fueron almacenadas en formato numérico?
  4. ¿Cuáles son las variables categóricas y en qué color aparecen los datos?
  5. ¿Cuáles datos aparecen en negro y por qué?

Solución en video (solo mirar después de haber intentado resolver el problema)


jueves, 5 de enero de 2017

Variables de cadena (string) y variables numéricas. Video


Las variables en Stata se almacenan como variables numéricas o como variables de cadena.

Se almacenan mediante números variables cuantitativas, tales como salario, altura, peso.

Pero también se almacenan mediante números variables cualitativas, tales como partido político (por ejemplo 1. Partido Verde 2. Partido Industrial y 3. Partido del Norte). Es más cómodo introducir por ejemplo un 3 que Partido del Norte. Pero si se introduce un 3, hay que poner en algún lado que ese 3 quiere decir Partido del Norte. Variables como esta exigen que cada valor de la variable sea etiquetado.

Otra forma de almacenamiento de variables es mediante sucesión de letras y números. Un ejemplo puede ser una dirección: Brandzen 2215. Estas variables se dice que son tipo "string" o cadena: son una cadena de caracteres para Stata.

Estas distintas formas de almacenamiento de los datos hace que se vean distintas en el editor de datos de Stata:

En rojo, las variables de cadena.
En números en negro, las variables numéricas sin etiquetas.
En categorías azules, las variables numéricas con etiquetas.


Video

domingo, 1 de enero de 2017