domingo, 30 de abril de 2017

Regresión Logística Binaria: El problema de las celdas vacías o con pocos casos.


Se dice en el sitio de la UCLA (http://stats.idre.ucla.edu/spss/dae/logit-regression/)


Empty cells or small cells: 

You should check for empty or small cells by doing a crosstab between categorical predictors and the outcome variable.  If a cell has very few cases (a small cell), the model may become unstable or it might not run at all.


Andy Field también aconseja en una fase preparatoria de la regresión logística chequear que se tienen datos para todas las combinaciones de las variables predictoras. Dice que se debe chequear que las frecuencias esperadas sean mayores que 1 y que no más del 20% sean menores que 5. Esto es porque los tests de bondad de ajuste hacen esta asunción.

Prosigue diciendo que cuando las muestras se dividen en categorías y una o más combinaciones están vacías esto puede crear problemas. Estos problemas serán probablemente señalados por intervalos de confianza irrazonablemente amplios.


Intervalos de confianza

Según Field, los investigadores concientes producen y chequean tablas cruzadas de múltiples vías para todas las variables categóricas independientes. Y los investigadores perezosos pero precavidos no se molestan con las tabulaciones cruzadas, pero miran cuidadosamente la amplitud de los intervalos de confianza, que no deben ser exageradamente amplios.

No hay comentarios: