domingo, 30 de abril de 2017

Regresión Logística Binaria: El problema de las celdas vacías o con pocos casos.


Se dice en el sitio de la UCLA (http://stats.idre.ucla.edu/spss/dae/logit-regression/)


Empty cells or small cells: 

You should check for empty or small cells by doing a crosstab between categorical predictors and the outcome variable.  If a cell has very few cases (a small cell), the model may become unstable or it might not run at all.


Andy Field también aconseja en una fase preparatoria de la regresión logística chequear que se tienen datos para todas las combinaciones de las variables predictoras. Dice que se debe chequear que las frecuencias esperadas sean mayores que 1 y que no más del 20% sean menores que 5. Esto es porque los tests de bondad de ajuste hacen esta asunción.

Prosigue diciendo que cuando las muestras se dividen en categorías y una o más combinaciones están vacías esto puede crear problemas. Estos problemas serán probablemente señalados por intervalos de confianza irrazonablemente amplios.


Intervalos de confianza

Según Field, los investigadores concientes producen y chequean tablas cruzadas de múltiples vías para todas las variables categóricas independientes. Y los investigadores perezosos pero precavidos no se molestan con las tabulaciones cruzadas, pero miran cuidadosamente la amplitud de los intervalos de confianza, que no deben ser exageradamente amplios.

martes, 25 de abril de 2017

Regresión logística binaria: el problema de la SEPARACION COMPLETA



Extraños sucesos tienen lugar cuando una variable por sí misma puede separar completamente la presencia de eventos de su ausencia.

Eso es la separación completa. Se verá un ejemplo de separación completa en el video adjunto, y se mostrará cómo los intervalos de confianza del Odds Ratio (expB) nos ayudan a detectarla.

Y si el SPSS da un mensaje de no convergencia, no se debe confiar en los coeficientes de las distintas variables:

In general, you should not use the results from a logistic regression unless the parameter estimates have converged. You can increase the number of iterations allowed to see if they will converge, though usually, if the estimation doesn't converge within the default number (20 for the LOGISTIC REGRESSION procedure), it's quite possible convergence isn't going to be achieved by allowing more iterations. Inspection of the iterations history table may show that some estimates are growing larger though the log likelihood is stable, in which case a complete or quasi-complete separation is likely the issue. If this is the case, while the individual estimates are not valid (because finite estimates do not exist for such models), the predicted probabilities produced by the entire model can be used


https://drive.google.com/open?id=0B9C7VyfotFyJV2ZkX0tBUjlJZE0




Material suplementario de UCLA:
http://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqwhat-is-complete-or-quasi-complete-separation-in-logisticprobit-regression-and-how-do-we-deal-with-them/

jueves, 20 de abril de 2017

Regresión Logística Binaria. Graficando el efecto de una variable sobre las probabilidades de un evento



En este video se muestra maneras de graficar el efecto de una variable continua sobre las probabilidades de un evento.

Primero se muestra para un modelo con una sola variable predictora, y luego para un modelo con varias variables.



https://drive.google.com/open?id=0B9C7VyfotFyJcF80bkFBQU52bGM

sábado, 15 de abril de 2017

Preguntas (con respuestas en documento adjunto) sobre una salida de regresión logística

En el vínculo adjunto hay tres archivos: una base de datos, un archivo con preguntas y un archivo con respuestas.

Se propone que el estudiante lea el archivo con preguntas sobre una salida de regresión logística y las conteste. Se adjunta la base, pero su uso no es imprescindible.

El documento con respuestas idealmente debe ser leído después de que el estudiante de sus propias respuestas al documento de preguntas. Conjuntamente con las respuestas, en algunos casos se añaden explicaciones complementarias que se pensó podían ser de interés.


https://drive.google.com/open?id=0B9C7VyfotFyJZkVjSlpoNmJLM0k



Un buen recurso externo con contenido similar en grandes rasgos al video, puede encontrarse en Logistic Regression | SPSS Annotated Output, de la UCLA (Universidad de California, Los Angeles)

lunes, 10 de abril de 2017

Regresión logística con varias variables predictoras. Hosmer y Lemeshow y distancia de Cook


En este ejemplo se ve cómo interpretar un análisis con varias variables predictoras.

Se exploran relaciones bivariadas, y finalmente se chequea el modelo con prueba de Hosmer y Lemeshow y distancias de Cook.


https://drive.google.com/open?id=0B9C7VyfotFyJckJ4c0dyV29MLUU

miércoles, 5 de abril de 2017

Otra forma de chequear linealidad entre variable predictora y ln(odds): el test de Box-Tidwell



El test de Box-Tidwell consiste en añadir al modelo un término producto de la variable predictora continua y su logaritmo neperiano.

O sea, si se desea efectuar este test para la variable X1, primero calculamos el ln(X1) = X1_LN.

A continuación añadimos a la variable predictora X1, el producto X1 * X1_LN.

Si este producto es significativo, la relación no es lineal.

No es la única forma de chequear problemas de linealidad, pero probablemente sea una de las más específicas y precisas.

Adicionalmente pueden usarse gráficas de la variable predictora contra el evento con curvas Loess.

También se pueden grabar las probabilidades del modelo logístico, y correr una gráfica de las probabilidades predichas contra el evento, con curva Loess. Cuanto mayores sean las probabilidades predichas, más eventos deberá haber.

En cuanto a soluciones a las relaciones curvilíneas, dos de las más usadas son introducir un término cuadrático y si corresponde uno cúbico, o alternativamente categorizar la variable continua, por ejemplo en quintiles. Ambas soluciones funcionaron adecuadamente en el ejemplo.


https://drive.google.com/open?id=0B9C7VyfotFyJNWxZTER3dmxFMGs