La parte resumida se encuentra en la página 12 de dicho documento.
Enfoque general:
No hay una única mejor estrategia para construir modelos. Hay diferentes diseños de investigaciones, diferentes niveles de conocimiento en el área que se va a estudiar.
Organización previa:
Liste
- los objetivos de su investigación
- su diseño de investigación
- su variable dependiente
- sus variables independientes de principal interés
- sus variables de control (que también son independientes)
Pasos previos a la regresión lineal propiamente dicha:
- Chequee, limpie y describa sus datos.
- Explore plenamente las relaciones bivariadas (especialmente entre la variable a predecir, y las variables que se utilizarán en la predicción, pero también las relaciones entre las variables predictoras).
- Explore relaciones trivariadas de interés, por posibles fenómenos de espureidad o interacción.
Análisis de regresión propiamente dicho:
Paso 1
- Ejecute el "modelo máximo", que contiene todas las variables con capacidad predictora, incluyendo las de control. Este modelo contendrá también todas las interacciones que puedan ser de interés.
Paso 2
- Comience a simplificar el modelo. Comience a simplificar el modelo. Elimine primero las interacciones de mayor orden menos significativas. Siempre se eliminan de a una y se vuelve a correr el modelo.
- Si borrar un predictor no afecta de manera notoria el R2 ajustado explicado, déjelo afuera (nota: si hay teoría de que el predictor es importante y además muestra un signo positivo o negativo acorde a lo esperado, muchos autores lo dejan).
- Si borrar un predictor tiene un efecto importante en la variación explicada, se deja.
- Vuelva a repetir los pasos anteriores, con lo cual continuará simplificando el modelo hasta que no contenga nada más que predictores significativos.
NOTA IMPORTANTE: Si en un modelo de regresión está la interacción de dos variables, deben de permanecer las variables en el modelo, aunque por sí mismas no sean significativas.
NOTA IMPORTANTE: Una interacción puede considerarse digna de ser retenida si su inclusión en el modelo altera los coeficientes de regresión para los efectos principales en un 15 - 20% o más.
NOTA IMPORTANTE: Si una variable categórica genera varias variables dummy, y una es significativa, se dejan todas.
Notas adicionales.
En ocasiones, puede interesar retener predictores a pesar de que no sean significativos.
Además usted necesita ser flexible y tomar en cuenta su conocimiento sobre el tema de fondo sobre el cual se está construyendo el modelo a la hora de eliminar y dejar variables.
Paso 3
Con posterioridad, usted deberá evaluar la calidad del modelo, usando gráficos como z-pred vs z-resid, normalidad de los residuos, distancias de Cook, etc.
Nota adicional: Las distancias de Cook indican puntos que vale la pena revisar por su alta influencia. Un criterio es revisar las distancias de Cook > 1. Otros dicen que, en un modelo con una sola variable, preocuparán los casos donde d > 1, y en modelos multivariables, los casos en que d > 2(p+1) / n; p representa el número de predictores.
No hay comentarios:
Publicar un comentario