martes, 10 de enero de 2017

¿Con qué variables construyo mi modelo de regresión? (visión de Andrew Gelman y Jennifer Hill)



Los modelos de regresión no son todos iguales. Incluso ante situaciones similares, no todos los estadísticos proceden exactamente igual.

A veces su único gran objetivo de una regresión lineal es predecir. Entonces de lo que se trata es de lograr un modelo con un R2 alto. Si somos nosotros (o es nuestra empresa) que debe pagar para medir las variables utilizadas en la predicción, también interesa el costo de la medición. Cuantas menos y más baratas de medir sean las variables, mejor, a condición de que R2 sea lo suficientemente alto.

En otras ocasiones el objetivo central es ver si una variable influye o no sobre una segunda variable. Por ejemplo, nuestra preocupación puede ser si un medicamento aumenta las chances de mejoría, o si empeora las chances en las embarazadas de tener hijos con problemas.

Si deseamos ver relaciones causales, como la citada en el párrafo anterior, a partir de estudios observacionales, lo que deseamos en general es incorporar todas las variables relevantes para poder medir, de manera controlada, el impacto de cada una.

¿Y cómo armamos el modelo final? Hay distintos matices de opinión.




Guías generales para construir un modelo de regresión según Andrew Gelman y Jennifer Hill

Asegúrese de que todos los predictores relevantes estén incluidos. Para eso usted se basará en su pregunta de investigación, en la teoría y en su conocimiento del tema.

Combine los predictores que tienden a medir lo mismo, por ejemplo en un índice.

Considere la posibilidad de añadir interacciones, especialmente en aquellas variables con grandes efectos.

Estrategias para mantener o eliminar variables:

  • Predictor no significativo pero con el signo adecuado > Mantenerlo
  • Predictor no significativo y con el signo no esperado > Eliminarlo
  • Predictor significativo y con el signo adecuado > Mantenerlo
  • Predictor significativo pero con el signo no esperado > Revisar. Pueden faltar variables, puede haber interacciones con otras variables o puede haber un error en los datos.


Quienes miren la versión dada en http://www.princeton.edu/~otorres/Regression101.pdf encontrarán el siguiente resumen, esta vez en inglés:












No hay comentarios: