sábado, 31 de diciembre de 2016

Distancia de Cook

La distancia de Cook nos proporciona un medio adicional de detectar observaciones que pesan excesivamente en las ecuaciones de regresión.

Se calcula una distancia de Cook para cada observación. Estas distancias se hacen máximas cuando se dan dos circunstancias: la observación es un oulier en una o más de las variables predictoras, y además cuando se aleja de la nube de puntos de la regresión.

No todos los estadísticos usan de igual manera la distancia de Cook. Aquí, siguiendo a muchos de ellos, consideraremos problemática toda distancia que sea mayor que 1.

En el vídeo se muestra un caso en una regresión con un solo predictor para mayor claridad.


https://drive.google.com/open?id=1ruaU7D-QOlsOWSzkSqgFkjdmHWF1o8V5

viernes, 30 de diciembre de 2016

Regresión Lineal. Cómo se ven los residuos parciales y la gráfica zpred zresid cuando hay relaciones curvilíneas bien y mal modeladas.


Hay ocasiones en que las relaciones entre una variable predictora, digamos X, y la variable a predecir, digamos Y, es curvilínea.

Si hacemos un modelo lineal tratando de predecir Y usando X como predictora sin más el modelo queda mal armado, y eso se ve en las gráficas ZPred contra ZResid y además en las gráficas de Residuos Parciales.

Si en cambio incorporamos las correcciones adecuadas (en el ejemplo añadiendo un término X al cuadrado, o tomando el logaritmo de alguna de las variables, etc.), el modelo se torna pertinente y cambian radicalmente las gráficas Z resid y de Residuos Parciales.

El video muestra dos modelos, uno adecuado y otro no, y sus correspondientes gráficas de residuos.

https://drive.google.com/open?id=0B9C7VyfotFyJR3g3TjFEUk5rOTA

domingo, 25 de diciembre de 2016

Ecuaciones de regresión lineal. Gráficos zpred-zresid y gráficos parciales, con variables dummy y continuas, significativas y no significativas


En este video se presentea un modelo de regresión lineal, en donde las relaciones entre las X y Y son lineales.

Esto permite ver cómo se ve la gráfica de residuos zpred - zresid y los gráficos parciales cuando el modelo es adecuado.

También se muestra el aspecto de variables dummy y de variables continuas que están asociadas en unos casos y no asociadas en otros.


https://drive.google.com/file/d/0B9C7VyfotFyJN2pSV244bE82MGc/view?usp=sharing

jueves, 15 de diciembre de 2016

Regresión lineal. Colinealidad.



Concepto de colinealidad


Un modelo puede tener problemas cuando existe colinealidad entre variables predictoras. ¿Qué quiere decir colinealidad? Que una variable predictora puede ser predicha en gran medida a partir de otras variables predictoras.

Un ejemplo. Deseamos hacer un modelo para predecir rendimiento educativo en estudios de posgrado. Ponemos como variables predictoras Tiempo dedicado al estudio, Concentración en la tarea, Inteligencia, Memoria y Puntajes sacados en estudios de grado.

Si efectivamente el tiempo dedicado, la concentración, inteligencia y memoria determinan fuertemente los resultados del estudio, es probable que con estas variables podamos determinar otro predictor de nuestro modelo: los Puntajes sacados en estudios de grado.

Visto de otro ángulo, los puntajes sacados en estudios de grado nos repiten información sobre el tiempo de estudio, memoria, inteligencia y concentración.

Cuando pasa esto los predictores se tornan no significativos y pueden variar ampliamente de muestra a muestra. La colinealidad es especialmente problemática si el foco de nuestro interés son los coeficientes de predictores individuales y si nuestra muestra es chica.




Los primeros signos de colinealidad

Cuando existe colinealidad, los intervalos de confianza para las variables predictoras son muy amplios. Además aparecen como no significativas variables que a priori se esperaría que lo fuesen.



¿Cómo se confirma en SPSS si existe colinealidad?

 

 Lo primero es pedir los diagnósticos de colinealidad en los Estadísticos (en la imagen aún no se han pedido).


Luego nos fijamos en los resultados. El área recuadrada tiene un estadístico llamado tolerancia. Si este está por debajo de 0.10 hay fuerte colinealidad.






¿Cuando es la colinealidad no es un problema?

No es un problema si:


Nuestro propósito al momento de generar el modelo es predecir, y no nos importan particularmente los distintos coeficientes individuales del modelo.


Las variables que nos interesan no tienen problemas de colinealidad, aunque exista colinealidad entre las variables de control.  

Dice Paul Allison:

But so long as the collinear variables are only used as control variables, and they are not collinear with your variables of interest, there’s no problem. The coefficients of the variables of interest are not affected, and the performance of the control variables as controls is not impaired.


Tampoco es problemática la colinealidad si se da por la inclusión de potencias de variables predictoras o productos de variables predictoras.  

En ocasiones, además de la variable predictora x, se incorpora x al cuadrado o al cubo, a efectos de modelar una relación curvilínea, y se crea multicolineadad con x. Esta multicolinealidad no es problemática. En otras ocasiones se incorpora un término producto entre dos variables predictoras. Digamos que tenemos x1 y x2, e incorporamos su producto para modelar la interacción. Esta colinealidad tampoco es problemática.

Con palabras de Paul Allison: If you specify a regression model with both x and x2, there’s a good chance that those two variables will be highly correlated. Similarly, if your model has x, z, and xz, both x and z are likely to be highly correlated with their product. This is not something to be concerned about, however, because the p-value for xz is not affected by the multicollinearity.  


 Otro caso de multinealidad no problemática es el que se da entre variables dummy que se crean a partir de una variable categórica.

Dice Paul Allison:
The variables with high VIFs [alta colinealidad] are indicator (dummy) variables that represent a categorical variable with three or more categories. If the proportion of cases in the reference category is small, the indicator variables will necessarily have high VIFs, even if the categorical variable is not associated with other variables in the regression model.
  
Is this a problem? Well, it does mean that p-values for the indicator variables may be high. But the overall test that all indicators have coefficients of zero is unaffected by the high VIFs. And nothing else in the regression is affected.






Soluciones para el problema de la multicolinealidad

Si en nuestra situación la colinealidad es problemática, lo que se aconseja es agrandar la muestra o cambiar el diseño del estudio.

También puede estar indicado sustituir las variables que generan la colinealidad por algún tipo de índice que integre la información de dichas variables, si es que dichas variables deben permanecer en el modelo.

Es necesario considerar las situaciones de manera individual.


 http://statisticalhorizons.com/multicollinearity

 http://psychologicalstatistics.blogspot.com.uy/2013/11/multicollinearity-and-collinearity-in.html