miércoles, 10 de mayo de 2017

Regresión logística binaria. Categorización de variables continuas: una práctica con sus problemas.


En ocasiones se tiene una variable continua, por ejemplo edad, y se dicotomiza, esto es, se forman dos grupos. Por ejemplo menos de 45 años y más de 45 años.

Las dicotomizaciones son muy problemáticas. Siguiendo con el ejemplo anterior, se ubica en una misma categoría a alguien de 18 años que a uno de 44. Y se ubican en otra categoría única a alguien de 46 años que a alguien de digamos 64.

Y probablemente esas distintas edades deban ser tratadas como separadas. Si lo que nos interesa es la probabilidad de sufrir un infarto, no es lo mismo 44 que 64.

Se pierde mucha información pasando de una edad precisa a una categoría etaria. Y con la variable dicotomizada hacen falta muestras más grandes para detectar similares efectos.

En epidemiología, por ejemplo, casi no se usa la dicotomización. Se prefieren varias categorías, por ejemplo 4 o 5. Así se pierde mucho menos información. Pero aún así es preferible continuar con variables continuas, a veces usando transformaciones. Por ejemplo, quizás en vez de X se use log X o X al cuadrado. Las transformaciones usadas dependen estrictamente de cada caso.

La categorización de variables tiene un punto fuerte: ayuda en la presentación de datos, en particular en tablas.

Pero la categorización es innecesaria en análisis estadísticos y puede tener problemas reales.

Para un tratamiento más profundo y detallado del tema verse:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1458573/

http://biostat.mc.vanderbilt.edu/wiki/Main/CatContinuous

https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/1471-2288-12-21

No hay comentarios: