miércoles, 10 de mayo de 2017

Regresión logística binaria. Categorización de variables continuas: una práctica con sus problemas.


En ocasiones se tiene una variable continua, por ejemplo edad, y se dicotomiza, esto es, se forman dos grupos. Por ejemplo menos de 45 años y más de 45 años.

Las dicotomizaciones son muy problemáticas. Siguiendo con el ejemplo anterior, se ubica en una misma categoría a alguien de 18 años que a uno de 44. Y se ubican en otra categoría única a alguien de 46 años que a alguien de digamos 64.

Y probablemente esas distintas edades deban ser tratadas como separadas. Si lo que nos interesa es la probabilidad de sufrir un infarto, no es lo mismo 44 que 64.

Se pierde mucha información pasando de una edad precisa a una categoría etaria. Y con la variable dicotomizada hacen falta muestras más grandes para detectar similares efectos.

En epidemiología, por ejemplo, casi no se usa la dicotomización. Se prefieren varias categorías, por ejemplo 4 o 5. Así se pierde mucho menos información. Pero aún así es preferible continuar con variables continuas, a veces usando transformaciones. Por ejemplo, quizás en vez de X se use log X o X al cuadrado. Las transformaciones usadas dependen estrictamente de cada caso.

La categorización de variables tiene un punto fuerte: ayuda en la presentación de datos, en particular en tablas.

Pero la categorización es innecesaria en análisis estadísticos y puede tener problemas reales.

Para un tratamiento más profundo y detallado del tema verse:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1458573/

http://biostat.mc.vanderbilt.edu/wiki/Main/CatContinuous

https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/1471-2288-12-21

viernes, 5 de mayo de 2017

LR test, Wald test y Hosmer y Lemeshow.



LR test

LR test, o Likelihood Ratio test, o test de Razón de verosimilitud. Se emplea en regresión logística por SPSS para comparar modelos.

Por ejemplo, para comparar el modelo del bloque 0 (sin variables explicativas) con el modelo del bloque 1. 
Allí vemos un chi 2, sus grados de libertad y su significación. El chi 2 corresponde a un LR test.

Es calculado como la diferencia entre -2LL del modelo con solo una constante y -2LL del segundo modelo.







Wald


 


Para decidir si incluir o no a una variable en el modelo, SPSS nos ofrece el test de Wald, y el chi cuadrado que le corresponde conjuntamente con su significación. Se calcula dividiendo cada coeficiente por su error estándar, y luego elevando al cuadrado. También es posible calcular el test de Wald para un conjunto de variables que definan un factor (por ejemplo una variable categórica con tres o más categorías).

Para SPSS es fácil de calcular el test de Wald, pero no se considera un test particularmente confiable, en especial con muestras chicas: se lo ve como un tanto conservador en exceso.

Cuando se está con una muestra chica y se debe decidir si incluir una variable o no, también se puede recurrir al LR test, que es considerado más confiable, aunque es más demandante computacionalmente. Una manera de testear si una variable es significativa, consiste en correr un bloque del modelo sin dicha variable, y añadir dicha variable en un segundo bloque. Y entonces nos fijamos si el bloque añadió significativamente al modelo: esto SPSS lo hace con un LR test o test de razón de verosimilitud.






Hosmer y Lemeshow


 





Es una prueba de bondad de ajuste. Se adjudican probabilidades de tener el evento a cada caso, se dividen en deciles en SPSS (en otros softwares se puede trabajar con distinta cantidad de cuantiles), y en cada decil se comparan los valores observados con los esperados.

A esta tabla, inspeccionable "a ojo", se le añade una prueba de chi cuadrado. Es señal de buen ajuste que el chi cuadrado no dé significativo.

¿Qué aspira a detectar la prueba de Hosmer y Lemeshow? Principalmente variables no lineales e interacciones no tenidas en cuenta. Adicionalmente podría detectar problemas de la función "link", por ejemplo si queremos usar una regresión logística pero la regresión logística no es el modelo más apto. Podría ser mejor un modelo probit o complementary log log, por ejemplo. ("Under the assumption of binary response, there are two alternatives to logit model: probit model and complementary-log-log model.").

Hosmer y Lemeshow es un test muy usado, aunque ha sufrido críticas importantes. Por ejemplo, un problema importante es que si chequeamos con 10 grupos puede dar muy bien, y si chequeamos con 9 o con 11 puede dar mal.

De otro lado no es muy cómodo apoyarse en el p valor del chi cuadrado. Si hay pocos casos, el chi cuadrado va a ser poco sensible a problemas de especificación. Si hay muchos casos, puede ser muy sensible, y problemas irrelevantes de especificación pueden hacer que el p valor quede por debajo del valor crítico.

De todas maneras, es usado. Con pequeñas muestras, el test de Hosmer y Lemeshow tiene poco poder y es improbable que detecte sutiles desviaciones del modelo logístico. Hosmer y Lemeshow aconsejaban tamaños de muestra mayores a 400 casos, según un artículo sobre regresión logística de Viv Bewick y otros.

Otros autores aceptan Hosmer y Lemeshow si los valores esperados son 5 o más en cada celda y hay más de 5 grupos. SPSS por defecto arma 10 grupos (deciles).

Y aún otros aceptan los resultados de Hosmer y Lemeshow si las cantidades de esperados y observados se parecen bastante en términos generales.