martes, 31 de enero de 2017

Ejercicio de regresión, con temática propinas (sin solución)


Se crea y evalúa un modelo para estimar las propinas de mozos de restaurantes. Hay una serie de hipótesis planteadas y se trata de rechazarlas o no usando un modelo de regresión lineal.

Antes de crear el modelo propiamente, se analizan relaciones bivariadas como forma de detectar a través de herramientas simples las principales variables predictoras y las interacciones que tendrá el modelo.

Luego de creado el modelo, se correrán las pruebas diagnósticas necesarias para verificar los supuestos de este tipo de regresión.



Letra y base del Ejercicio

miércoles, 25 de enero de 2017

Ejercicio de regresión lineal múltiple (sin solución)


Ejercicio de regresión lineal múltiple, con una interacción y construcción de modelo. La base se refiere a datos sobre computadoras all in one.




Ejercicio

lunes, 16 de enero de 2017

Construcción de modelos: visión ligeramente simplificada basada en Hosmer y Lemeshow




  1. Comience seleccionado un conjunto de variables predictoras.
  2. Evalúe cada predictor en regresiones "univariadas", es decir, con un solo predictor (Si la variable fuera categórica, el predictor estaría constituido por un conjunto de variables dummy).
  3. Retenga todos los predictores que tengan un p-valor <.25
  4. Corra una regresión múltiple con todos los predictores retenidos.
  5. Uno por uno, elimine los predictores que no son estadísticamente significantes. (En ciertas regresiones hay más de un test de significación para eliminar variables. Por ejemplo, en regresión logística tenemos el Wald test y el lrtest. Si se desea eliminar una variable señalada por el Wald test para ser eliminada, se deberá verificar demás con el lrtest. Si no se logra verificar su falta de significatividad, se deberá mantener en el modelo).
  6. Para cada predictor, se considerará alterar la forma funcional: añadir términos cuadráticos y/o cúbicos, o sustituirlo por su logaritmo (nota: esto es relevante en presencia de relaciones curvilíneas).
  7. Considere un número limitado de interacciones plausibles entre los predictores. Añada las interacciones significativas, o interacciones que alteran la intepretación de los predictores de una manera marcada.
  8. Chequée la bondad del modelo mediante pruebas diagnósticas.


Nota: Este trabajo se apoya en el documento publicado en  sites.harvard.edu/fs/docs/icb.topic1217366.../modelselect1.docx


Nota personal:

No todas las interacciones tienen igual importancia. Pensemos en la siguiente interacción entre sexo, método de enseñanza y aprendizaje. Para el método B, el coeficiente del método de aprendizaje, si incorporamos la interacción, puede ser de 16 para los hombres y de 17 para las mujeres. Si no se incorpora la interacción, nos queda un coeficiente groseramente de 16.50. No parece preocupante no introducir esta interacción, aunque se muestre significativa en la muestra.

Caso muy distinto es si la interacción entre sexo, método de enseñanza y aprendizaje es de tal forma que con el método B el coeficiente para las mujeres es 17 y para los hombres es 4, o peor aún negativo. Aquí es relevante incorporar la interacción.

domingo, 15 de enero de 2017

Construyendo el modelo de regresión (resumen basado en trabajo de la Universidad de Massachusetts, de autor no identificado)

El resumen que sigue se basa en un trabajo de la Universidad de Massachusetts, aunque lo amplía en algunos aspectos.

La parte resumida se encuentra en la página 12 de dicho documento.







Enfoque general: 

No hay una única mejor estrategia para construir modelos. Hay diferentes diseños de investigaciones, diferentes niveles de conocimiento en el área que se va a estudiar.


Organización previa:

Liste
  • los objetivos de su investigación
  • su diseño de investigación
  • su variable dependiente
  • sus variables independientes de principal interés
  • sus variables de control (que también son independientes)


Pasos previos a la regresión lineal propiamente dicha: 

  • Chequee, limpie y describa sus datos.
  • Explore plenamente las relaciones bivariadas (especialmente entre la variable a predecir, y las variables que se utilizarán en la predicción, pero también las relaciones entre las variables predictoras).
  • Explore relaciones trivariadas de interés, por posibles fenómenos de espureidad o interacción.


Análisis de regresión propiamente dicho:

Paso 1 

  •  Ejecute el "modelo máximo", que contiene todas las variables con capacidad predictora, incluyendo las de control. Este modelo contendrá también todas las interacciones que puedan ser de interés.

Paso 2

  • Comience a simplificar el modelo. Comience a simplificar el modelo. Elimine primero las interacciones de mayor orden menos significativas. Siempre se eliminan de a una y se vuelve a correr el modelo.
  • Si borrar un predictor no afecta de manera notoria el R2 ajustado explicado, déjelo afuera (nota: si hay teoría de que el predictor es importante y además muestra un signo positivo o negativo acorde a lo esperado, muchos autores lo dejan).
  • Si borrar un predictor tiene un efecto importante en la variación explicada, se deja.
  • Vuelva a repetir los pasos anteriores, con lo cual continuará simplificando el modelo hasta que no contenga nada más que predictores significativos.

NOTA IMPORTANTE: Si en un modelo de regresión está la interacción de dos variables, deben de permanecer las variables en el modelo, aunque por sí mismas no sean significativas.

NOTA IMPORTANTE: Una interacción puede considerarse digna de ser retenida si su inclusión en el modelo altera los coeficientes de regresión para los efectos principales en un 15 - 20% o más.

NOTA IMPORTANTE: Si una variable categórica genera varias variables dummy, y una es significativa, se dejan todas.

Notas adicionales.

En ocasiones, puede interesar retener predictores a pesar de que no sean significativos.

Además usted necesita ser flexible y tomar en cuenta su conocimiento sobre el tema de fondo sobre el cual se está construyendo el modelo a la hora de eliminar y dejar variables.





Paso 3

Con posterioridad, usted deberá evaluar la calidad del modelo, usando gráficos como z-pred vs z-resid, normalidad de los residuos, distancias de Cook, etc.


Nota adicional: Las distancias de Cook indican puntos que vale la pena revisar por su alta influencia. Un criterio es revisar las distancias de Cook > 1. Otros dicen que, en un modelo con una sola variable, preocuparán los casos donde d > 1, y en modelos multivariables, los casos en que d > 2(p+1) / n; p representa el número de predictores.





martes, 10 de enero de 2017

¿Con qué variables construyo mi modelo de regresión? (visión de Andrew Gelman y Jennifer Hill)



Los modelos de regresión no son todos iguales. Incluso ante situaciones similares, no todos los estadísticos proceden exactamente igual.

A veces su único gran objetivo de una regresión lineal es predecir. Entonces de lo que se trata es de lograr un modelo con un R2 alto. Si somos nosotros (o es nuestra empresa) que debe pagar para medir las variables utilizadas en la predicción, también interesa el costo de la medición. Cuantas menos y más baratas de medir sean las variables, mejor, a condición de que R2 sea lo suficientemente alto.

En otras ocasiones el objetivo central es ver si una variable influye o no sobre una segunda variable. Por ejemplo, nuestra preocupación puede ser si un medicamento aumenta las chances de mejoría, o si empeora las chances en las embarazadas de tener hijos con problemas.

Si deseamos ver relaciones causales, como la citada en el párrafo anterior, a partir de estudios observacionales, lo que deseamos en general es incorporar todas las variables relevantes para poder medir, de manera controlada, el impacto de cada una.

¿Y cómo armamos el modelo final? Hay distintos matices de opinión.




Guías generales para construir un modelo de regresión según Andrew Gelman y Jennifer Hill

Asegúrese de que todos los predictores relevantes estén incluidos. Para eso usted se basará en su pregunta de investigación, en la teoría y en su conocimiento del tema.

Combine los predictores que tienden a medir lo mismo, por ejemplo en un índice.

Considere la posibilidad de añadir interacciones, especialmente en aquellas variables con grandes efectos.

Estrategias para mantener o eliminar variables:

  • Predictor no significativo pero con el signo adecuado > Mantenerlo
  • Predictor no significativo y con el signo no esperado > Eliminarlo
  • Predictor significativo y con el signo adecuado > Mantenerlo
  • Predictor significativo pero con el signo no esperado > Revisar. Pueden faltar variables, puede haber interacciones con otras variables o puede haber un error en los datos.


Quienes miren la versión dada en http://www.princeton.edu/~otorres/Regression101.pdf encontrarán el siguiente resumen, esta vez en inglés:












jueves, 5 de enero de 2017

2do Parcial (J). Bases, letras y solución escrita


Este parcial contiene ejercicios sobre relaciones bivariadas, cálculo con condiciones, ejercicios sobre Lazarsfeld, aggregate y regresión lineal (ejercicios simples).

Letra y bases

Solución y sintaxis

Regresión lineal: logaritmación de Y


Muchas veces se desea hacer una regresión lineal pero las relaciones se muestran curvilíneas.

Uno de los recursos que se poseen es trabajar con el logaritmo neperiano de Y. Esto se hace muy frecuentemente con los ingresos. Estos tienen una distribución sesgada a la derecha. Pero si calculamos sus logarimos neperianos del ingreso, estos pasan a tener una distribución aproximadamente normal y esto con frecuencia facilita la creación de modelos lineales.

Además, la logaritmación de Y tiene una ventaja interesante: es muy fácil de interpretar.

Todo eso se ve en el video adjunto, que va acompañado de una base de datos para poder reproducir los análisis.


https://drive.google.com/open?id=0B9C7VyfotFyJMVR0MnlNUjlUWE0