domingo, 15 de enero de 2017

Construyendo el modelo de regresión (resumen basado en trabajo de la Universidad de Massachusetts, de autor no identificado)

El resumen que sigue se basa en un trabajo de la Universidad de Massachusetts, aunque lo amplía en algunos aspectos.

La parte resumida se encuentra en la página 12 de dicho documento.







Enfoque general: 

No hay una única mejor estrategia para construir modelos. Hay diferentes diseños de investigaciones, diferentes niveles de conocimiento en el área que se va a estudiar.


Organización previa:

Liste
  • los objetivos de su investigación
  • su diseño de investigación
  • su variable dependiente
  • sus variables independientes de principal interés
  • sus variables de control (que también son independientes)


Pasos previos a la regresión lineal propiamente dicha: 

  • Chequee, limpie y describa sus datos.
  • Explore plenamente las relaciones bivariadas (especialmente entre la variable a predecir, y las variables que se utilizarán en la predicción, pero también las relaciones entre las variables predictoras).
  • Explore relaciones trivariadas de interés, por posibles fenómenos de espureidad o interacción.


Análisis de regresión propiamente dicho:

Paso 1 

  •  Ejecute el "modelo máximo", que contiene todas las variables con capacidad predictora, incluyendo las de control. Este modelo contendrá también todas las interacciones que puedan ser de interés.

Paso 2

  • Comience a simplificar el modelo. Comience a simplificar el modelo. Elimine primero las interacciones de mayor orden menos significativas. Siempre se eliminan de a una y se vuelve a correr el modelo.
  • Si borrar un predictor no afecta de manera notoria el R2 ajustado explicado, déjelo afuera (nota: si hay teoría de que el predictor es importante y además muestra un signo positivo o negativo acorde a lo esperado, muchos autores lo dejan).
  • Si borrar un predictor tiene un efecto importante en la variación explicada, se deja.
  • Vuelva a repetir los pasos anteriores, con lo cual continuará simplificando el modelo hasta que no contenga nada más que predictores significativos.

NOTA IMPORTANTE: Si en un modelo de regresión está la interacción de dos variables, deben de permanecer las variables en el modelo, aunque por sí mismas no sean significativas.

NOTA IMPORTANTE: Una interacción puede considerarse digna de ser retenida si su inclusión en el modelo altera los coeficientes de regresión para los efectos principales en un 15 - 20% o más.

NOTA IMPORTANTE: Si una variable categórica genera varias variables dummy, y una es significativa, se dejan todas.

Notas adicionales.

En ocasiones, puede interesar retener predictores a pesar de que no sean significativos.

Además usted necesita ser flexible y tomar en cuenta su conocimiento sobre el tema de fondo sobre el cual se está construyendo el modelo a la hora de eliminar y dejar variables.





Paso 3

Con posterioridad, usted deberá evaluar la calidad del modelo, usando gráficos como z-pred vs z-resid, normalidad de los residuos, distancias de Cook, etc.


Nota adicional: Las distancias de Cook indican puntos que vale la pena revisar por su alta influencia. Un criterio es revisar las distancias de Cook > 1. Otros dicen que, en un modelo con una sola variable, preocuparán los casos donde d > 1, y en modelos multivariables, los casos en que d > 2(p+1) / n; p representa el número de predictores.





No hay comentarios: