jueves, 15 de diciembre de 2016

Regresión lineal. Colinealidad.



Concepto de colinealidad


Un modelo puede tener problemas cuando existe colinealidad entre variables predictoras. ¿Qué quiere decir colinealidad? Que una variable predictora puede ser predicha en gran medida a partir de otras variables predictoras.

Un ejemplo. Deseamos hacer un modelo para predecir rendimiento educativo en estudios de posgrado. Ponemos como variables predictoras Tiempo dedicado al estudio, Concentración en la tarea, Inteligencia, Memoria y Puntajes sacados en estudios de grado.

Si efectivamente el tiempo dedicado, la concentración, inteligencia y memoria determinan fuertemente los resultados del estudio, es probable que con estas variables podamos determinar otro predictor de nuestro modelo: los Puntajes sacados en estudios de grado.

Visto de otro ángulo, los puntajes sacados en estudios de grado nos repiten información sobre el tiempo de estudio, memoria, inteligencia y concentración.

Cuando pasa esto los predictores se tornan no significativos y pueden variar ampliamente de muestra a muestra. La colinealidad es especialmente problemática si el foco de nuestro interés son los coeficientes de predictores individuales y si nuestra muestra es chica.




Los primeros signos de colinealidad

Cuando existe colinealidad, los intervalos de confianza para las variables predictoras son muy amplios. Además aparecen como no significativas variables que a priori se esperaría que lo fuesen.



¿Cómo se confirma en SPSS si existe colinealidad?

 

 Lo primero es pedir los diagnósticos de colinealidad en los Estadísticos (en la imagen aún no se han pedido).


Luego nos fijamos en los resultados. El área recuadrada tiene un estadístico llamado tolerancia. Si este está por debajo de 0.10 hay fuerte colinealidad.






¿Cuando es la colinealidad no es un problema?

No es un problema si:


Nuestro propósito al momento de generar el modelo es predecir, y no nos importan particularmente los distintos coeficientes individuales del modelo.


Las variables que nos interesan no tienen problemas de colinealidad, aunque exista colinealidad entre las variables de control.  

Dice Paul Allison:

But so long as the collinear variables are only used as control variables, and they are not collinear with your variables of interest, there’s no problem. The coefficients of the variables of interest are not affected, and the performance of the control variables as controls is not impaired.


Tampoco es problemática la colinealidad si se da por la inclusión de potencias de variables predictoras o productos de variables predictoras.  

En ocasiones, además de la variable predictora x, se incorpora x al cuadrado o al cubo, a efectos de modelar una relación curvilínea, y se crea multicolineadad con x. Esta multicolinealidad no es problemática. En otras ocasiones se incorpora un término producto entre dos variables predictoras. Digamos que tenemos x1 y x2, e incorporamos su producto para modelar la interacción. Esta colinealidad tampoco es problemática.

Con palabras de Paul Allison: If you specify a regression model with both x and x2, there’s a good chance that those two variables will be highly correlated. Similarly, if your model has x, z, and xz, both x and z are likely to be highly correlated with their product. This is not something to be concerned about, however, because the p-value for xz is not affected by the multicollinearity.  


 Otro caso de multinealidad no problemática es el que se da entre variables dummy que se crean a partir de una variable categórica.

Dice Paul Allison:
The variables with high VIFs [alta colinealidad] are indicator (dummy) variables that represent a categorical variable with three or more categories. If the proportion of cases in the reference category is small, the indicator variables will necessarily have high VIFs, even if the categorical variable is not associated with other variables in the regression model.
  
Is this a problem? Well, it does mean that p-values for the indicator variables may be high. But the overall test that all indicators have coefficients of zero is unaffected by the high VIFs. And nothing else in the regression is affected.






Soluciones para el problema de la multicolinealidad

Si en nuestra situación la colinealidad es problemática, lo que se aconseja es agrandar la muestra o cambiar el diseño del estudio.

También puede estar indicado sustituir las variables que generan la colinealidad por algún tipo de índice que integre la información de dichas variables, si es que dichas variables deben permanecer en el modelo.

Es necesario considerar las situaciones de manera individual.


 http://statisticalhorizons.com/multicollinearity

 http://psychologicalstatistics.blogspot.com.uy/2013/11/multicollinearity-and-collinearity-in.html

No hay comentarios: