sábado, 20 de enero de 2018

Ejercicio de curvas de Kaplan Meier, para estudiar sobrevida de injertos.


Cuando se estudia la sobrevida de trasplantes de riñon, se realizan por lo menos tres curvas de Kaplan Meier:

1) de sobrevida global del paciente
2) de sobrevida del injerto (considerando la muerte como pérdida del injerto)
3) de sobrevida del injerto (considerando la muerte como observación censurada)

El presente ejercicio invita a calcular estas tres gráficas.

Base y letra del problema

lunes, 15 de enero de 2018

Kaplan Meier con endopoint combinado

Se analiza estudio que define como evento un endpoint combinados, es decir, que define como evento la primera entre tres alternativas. Ellas son, en este caso, Muerte por causas cardiovasculares, Stroke e Infarto miocárdico no fatal.

Base

Video

miércoles, 10 de enero de 2018

Kaplan Meier con Censura por muerte y sin censura por muerte. Solución en video.

En los estudios acerca de sobrevida de trasplantes de riñon, se estudia la sobrevida según dos alternativas:

1) el evento a considerar es que el riñon deja de funcionar (por ejemplo paciente entra en diálisis) y la muerte simplemente convierte una observación en censurada.

2) el evento a considerar es pérdida de funcionamiento del riñon o muerte (si el paciente muere el injerto deja de funcionar.

En los estudios sobre el tema es muy usual calcular la sobrevida del riñon de ambas maneras, y presentarlas a ambas.

También se estudia, cosa que no haremos en este ejercicio por razones de brevedad, la sobrevida global del paciente, independientemente de la causa de muerte.

Con esta temática, se estructuró el problema que sigue. Su solución puede verse en el video.


Base y letra del problema

Video

viernes, 5 de enero de 2018

Curva de Kaplan Meier con endpoint combinado y más de un tratamiento. Video


La base adjunta simula enfermos cardíacos tratados, a partir de cierto momento inicial, con tres drogas distintas.

Se decidió trabajar con un endopoint combinado primario, compuesto por 1) muertes por causas cardiovasculares 2) stroke y 3) infarto no fatal al miocardio.

Se comparan tres drogas según el endpoint combinado.


Video

lunes, 1 de enero de 2018

Ejercicio de cálculo de fechas, Kaplan Meier y restricción de tiempo de segumiento a 5 años. Solución en video


Ejercicio en que se pide calcular tiempo de seguimiento a partir de dos fechas, y luego reducir el tiempo de seguimiento a 5 años.

Para el tiempo del seguimiento total y para el seguimiento a 5 años, se piden curvas de Kaplan Meier, discriminadas por sexo.



Base de datos y letra del problema


Solución en Video

miércoles, 10 de mayo de 2017

Regresión logística binaria. Categorización de variables continuas: una práctica con sus problemas.


En ocasiones se tiene una variable continua, por ejemplo edad, y se dicotomiza, esto es, se forman dos grupos. Por ejemplo menos de 45 años y más de 45 años.

Las dicotomizaciones son muy problemáticas. Siguiendo con el ejemplo anterior, se ubica en una misma categoría a alguien de 18 años que a uno de 44. Y se ubican en otra categoría única a alguien de 46 años que a alguien de digamos 64.

Y probablemente esas distintas edades deban ser tratadas como separadas. Si lo que nos interesa es la probabilidad de sufrir un infarto, no es lo mismo 44 que 64.

Se pierde mucha información pasando de una edad precisa a una categoría etaria. Y con la variable dicotomizada hacen falta muestras más grandes para detectar similares efectos.

En epidemiología, por ejemplo, casi no se usa la dicotomización. Se prefieren varias categorías, por ejemplo 4 o 5. Así se pierde mucho menos información. Pero aún así es preferible continuar con variables continuas, a veces usando transformaciones. Por ejemplo, quizás en vez de X se use log X o X al cuadrado. Las transformaciones usadas dependen estrictamente de cada caso.

La categorización de variables tiene un punto fuerte: ayuda en la presentación de datos, en particular en tablas.

Pero la categorización es innecesaria en análisis estadísticos y puede tener problemas reales.

Para un tratamiento más profundo y detallado del tema verse:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1458573/

http://biostat.mc.vanderbilt.edu/wiki/Main/CatContinuous

https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/1471-2288-12-21

viernes, 5 de mayo de 2017

LR test, Wald test y Hosmer y Lemeshow.



LR test

LR test, o Likelihood Ratio test, o test de Razón de verosimilitud. Se emplea en regresión logística por SPSS para comparar modelos.

Por ejemplo, para comparar el modelo del bloque 0 (sin variables explicativas) con el modelo del bloque 1. 
Allí vemos un chi 2, sus grados de libertad y su significación. El chi 2 corresponde a un LR test.

Es calculado como la diferencia entre -2LL del modelo con solo una constante y -2LL del segundo modelo.







Wald


 


Para decidir si incluir o no a una variable en el modelo, SPSS nos ofrece el test de Wald, y el chi cuadrado que le corresponde conjuntamente con su significación. Se calcula dividiendo cada coeficiente por su error estándar, y luego elevando al cuadrado. También es posible calcular el test de Wald para un conjunto de variables que definan un factor (por ejemplo una variable categórica con tres o más categorías).

Para SPSS es fácil de calcular el test de Wald, pero no se considera un test particularmente confiable, en especial con muestras chicas: se lo ve como un tanto conservador en exceso.

Cuando se está con una muestra chica y se debe decidir si incluir una variable o no, también se puede recurrir al LR test, que es considerado más confiable, aunque es más demandante computacionalmente. Una manera de testear si una variable es significativa, consiste en correr un bloque del modelo sin dicha variable, y añadir dicha variable en un segundo bloque. Y entonces nos fijamos si el bloque añadió significativamente al modelo: esto SPSS lo hace con un LR test o test de razón de verosimilitud.






Hosmer y Lemeshow


 





Es una prueba de bondad de ajuste. Se adjudican probabilidades de tener el evento a cada caso, se dividen en deciles en SPSS (en otros softwares se puede trabajar con distinta cantidad de cuantiles), y en cada decil se comparan los valores observados con los esperados.

A esta tabla, inspeccionable "a ojo", se le añade una prueba de chi cuadrado. Es señal de buen ajuste que el chi cuadrado no dé significativo.

¿Qué aspira a detectar la prueba de Hosmer y Lemeshow? Principalmente variables no lineales e interacciones no tenidas en cuenta. Adicionalmente podría detectar problemas de la función "link", por ejemplo si queremos usar una regresión logística pero la regresión logística no es el modelo más apto. Podría ser mejor un modelo probit o complementary log log, por ejemplo. ("Under the assumption of binary response, there are two alternatives to logit model: probit model and complementary-log-log model.").

Hosmer y Lemeshow es un test muy usado, aunque ha sufrido críticas importantes. Por ejemplo, un problema importante es que si chequeamos con 10 grupos puede dar muy bien, y si chequeamos con 9 o con 11 puede dar mal.

De otro lado no es muy cómodo apoyarse en el p valor del chi cuadrado. Si hay pocos casos, el chi cuadrado va a ser poco sensible a problemas de especificación. Si hay muchos casos, puede ser muy sensible, y problemas irrelevantes de especificación pueden hacer que el p valor quede por debajo del valor crítico.

De todas maneras, es usado. Con pequeñas muestras, el test de Hosmer y Lemeshow tiene poco poder y es improbable que detecte sutiles desviaciones del modelo logístico. Hosmer y Lemeshow aconsejaban tamaños de muestra mayores a 400 casos, según un artículo sobre regresión logística de Viv Bewick y otros.

Otros autores aceptan Hosmer y Lemeshow si los valores esperados son 5 o más en cada celda y hay más de 5 grupos. SPSS por defecto arma 10 grupos (deciles).

Y aún otros aceptan los resultados de Hosmer y Lemeshow si las cantidades de esperados y observados se parecen bastante en términos generales.












domingo, 30 de abril de 2017

Regresión Logística Binaria: El problema de las celdas vacías o con pocos casos.


Se dice en el sitio de la UCLA (http://stats.idre.ucla.edu/spss/dae/logit-regression/)


Empty cells or small cells: 

You should check for empty or small cells by doing a crosstab between categorical predictors and the outcome variable.  If a cell has very few cases (a small cell), the model may become unstable or it might not run at all.


Andy Field también aconseja en una fase preparatoria de la regresión logística chequear que se tienen datos para todas las combinaciones de las variables predictoras. Dice que se debe chequear que las frecuencias esperadas sean mayores que 1 y que no más del 20% sean menores que 5. Esto es porque los tests de bondad de ajuste hacen esta asunción.

Prosigue diciendo que cuando las muestras se dividen en categorías y una o más combinaciones están vacías esto puede crear problemas. Estos problemas serán probablemente señalados por intervalos de confianza irrazonablemente amplios.


Intervalos de confianza

Según Field, los investigadores concientes producen y chequean tablas cruzadas de múltiples vías para todas las variables categóricas independientes. Y los investigadores perezosos pero precavidos no se molestan con las tabulaciones cruzadas, pero miran cuidadosamente la amplitud de los intervalos de confianza, que no deben ser exageradamente amplios.

martes, 25 de abril de 2017

Regresión logística binaria: el problema de la SEPARACION COMPLETA



Extraños sucesos tienen lugar cuando una variable por sí misma puede separar completamente la presencia de eventos de su ausencia.

Eso es la separación completa. Se verá un ejemplo de separación completa en el video adjunto, y se mostrará cómo los intervalos de confianza del Odds Ratio (expB) nos ayudan a detectarla.

Y si el SPSS da un mensaje de no convergencia, no se debe confiar en los coeficientes de las distintas variables:

In general, you should not use the results from a logistic regression unless the parameter estimates have converged. You can increase the number of iterations allowed to see if they will converge, though usually, if the estimation doesn't converge within the default number (20 for the LOGISTIC REGRESSION procedure), it's quite possible convergence isn't going to be achieved by allowing more iterations. Inspection of the iterations history table may show that some estimates are growing larger though the log likelihood is stable, in which case a complete or quasi-complete separation is likely the issue. If this is the case, while the individual estimates are not valid (because finite estimates do not exist for such models), the predicted probabilities produced by the entire model can be used


https://drive.google.com/open?id=0B9C7VyfotFyJV2ZkX0tBUjlJZE0




Material suplementario de UCLA:
http://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqwhat-is-complete-or-quasi-complete-separation-in-logisticprobit-regression-and-how-do-we-deal-with-them/

jueves, 20 de abril de 2017

Regresión Logística Binaria. Graficando el efecto de una variable sobre las probabilidades de un evento



En este video se muestra maneras de graficar el efecto de una variable continua sobre las probabilidades de un evento.

Primero se muestra para un modelo con una sola variable predictora, y luego para un modelo con varias variables.



https://drive.google.com/open?id=0B9C7VyfotFyJcF80bkFBQU52bGM

sábado, 15 de abril de 2017

Preguntas (con respuestas en documento adjunto) sobre una salida de regresión logística

En el vínculo adjunto hay tres archivos: una base de datos, un archivo con preguntas y un archivo con respuestas.

Se propone que el estudiante lea el archivo con preguntas sobre una salida de regresión logística y las conteste. Se adjunta la base, pero su uso no es imprescindible.

El documento con respuestas idealmente debe ser leído después de que el estudiante de sus propias respuestas al documento de preguntas. Conjuntamente con las respuestas, en algunos casos se añaden explicaciones complementarias que se pensó podían ser de interés.


https://drive.google.com/open?id=0B9C7VyfotFyJZkVjSlpoNmJLM0k



Un buen recurso externo con contenido similar en grandes rasgos al video, puede encontrarse en Logistic Regression | SPSS Annotated Output, de la UCLA (Universidad de California, Los Angeles)

lunes, 10 de abril de 2017

Regresión logística con varias variables predictoras. Hosmer y Lemeshow y distancia de Cook


En este ejemplo se ve cómo interpretar un análisis con varias variables predictoras.

Se exploran relaciones bivariadas, y finalmente se chequea el modelo con prueba de Hosmer y Lemeshow y distancias de Cook.


https://drive.google.com/open?id=0B9C7VyfotFyJckJ4c0dyV29MLUU

miércoles, 5 de abril de 2017

Otra forma de chequear linealidad entre variable predictora y ln(odds): el test de Box-Tidwell



El test de Box-Tidwell consiste en añadir al modelo un término producto de la variable predictora continua y su logaritmo neperiano.

O sea, si se desea efectuar este test para la variable X1, primero calculamos el ln(X1) = X1_LN.

A continuación añadimos a la variable predictora X1, el producto X1 * X1_LN.

Si este producto es significativo, la relación no es lineal.

No es la única forma de chequear problemas de linealidad, pero probablemente sea una de las más específicas y precisas.

Adicionalmente pueden usarse gráficas de la variable predictora contra el evento con curvas Loess.

También se pueden grabar las probabilidades del modelo logístico, y correr una gráfica de las probabilidades predichas contra el evento, con curva Loess. Cuanto mayores sean las probabilidades predichas, más eventos deberá haber.

En cuanto a soluciones a las relaciones curvilíneas, dos de las más usadas son introducir un término cuadrático y si corresponde uno cúbico, o alternativamente categorizar la variable continua, por ejemplo en quintiles. Ambas soluciones funcionaron adecuadamente en el ejemplo.


https://drive.google.com/open?id=0B9C7VyfotFyJNWxZTER3dmxFMGs







viernes, 31 de marzo de 2017

Regresión logística binaria. Chequeo de la linealidad de la relación entre una variable continua y el ln(odds). Método gráfico, tomado de Bioestadística Amigable. Video


La ecuación de regresión logística es una ecuación de regresión lineal en donde Y = ln(odds).

En particular, para una variable continua, la ecuación será:

ln(odds) = constante + b1 * x1.

Pero para que una regresión lineal funcione correctamente, la relación de la variable dependiente con la independiente debe ser lineal.

Pero ¿cómo chequear si x1 y el ln(odds) se relacionan linealmente?

Hay más de una forma de hacerlo. Aquí mostraré el método usado por Miguel Angel Martínez y otros en el libro Bioestadística Amigable de editorial Elsevier.


https://drive.google.com/open?id=0B9C7VyfotFyJeEQyWE5JSklfVDg


miércoles, 29 de marzo de 2017

Ejercicio de mediación, con análisis estratificado y regresión logística. Video

Se analiza relación entre alcohol y cáncer de hígado, presumiblemente mediado por cirrosis.


Archivo y letra del problema

Video

martes, 28 de marzo de 2017

Regresión logística binaria: intermediación. Video


En ocasiones pensamos que una primera variable (variable1) actúa sobre una segunda (variable2) y esta a su vez sobre una variable efecto.



Dado este esquema causal, la variable 1 actúa sobre el efecto de forma indirecta. Modificando el valor que toma incidimos sobre el efecto.

La variable 2 del esquema se llama variable intermedia, o a veces también variable interviniente.

Si queremos saber la magnitud del efecto total de la variable 1 sobre el efecto, ¿corresponde controlar por la variable 2?. La respuesta es no, no se debe controlar.

Sin embargo hay ocasiones en que tenemos la relación entre la variable 1 y el efecto e introducimos en el modelo la variable 2. ¿Para qué lo hacemos? Para verificar la hipótesis de que la variable 2 es una variable intermedia. Si la variable 2 es efectivamente intermedia, la variable 1 va a pasar a ser no significativa y la variable 2 sí lo será

Pero, de nuevo, si nuestro foco está en conocer el efecto total de la variable 1 sobre el efecto, no tiene sentido controlar por la variable 2.


https://drive.google.com/open?id=0B9C7VyfotFyJaGwtMmJYZTFqN1U

sábado, 25 de marzo de 2017

Ejercicio sobre supresión y confusión en el contexto de una regresión logística (sin solución)


Se analiza a nivel primero de tablas de contingencia y luego a través de regresiones logísticas la relación primero entre aburrimiento y comisión de errores en tareas muy simples, y luego esta relación se controla con la variable inteligencia.



https://drive.google.com/open?id=0B9C7VyfotFyJUEJEMmU3SzVaajg

lunes, 20 de marzo de 2017

Relación logística binaria: confusión (ejemplo 2: supresión). Video


Hablamos de confusión cuando si introducimos una tercera variable en una relación bivariada, cambia de manera más o menos importante la magnitud del efecto calculado.

En el ejemplo que sigue, se intenta predecir la probabilidad de un grupo de países de obtener puntajes altos en las pruebas Pisa. Se utilizaron para intentar la predicción dos variables de escala: salario de los docentes y gastos por alumno.

En la primera regresión logística, con variable dependiente Puntaje Pisa y con variable explicativa Salario Medio Docente, el Odds ratio fue de 1.397.

Luego se introdujo en la regresión logística una segunda variable predictora: Gasto por alumno. Y entonces, el OR para salario medio docente creció: pasó a 1.535.

La relación original Puntajes Altos en pruebas Pisa y Salario Docente estaba parcialmente suprimida. Se vio en su pleno efecto cuando se introdujo Gasto por Alumno.


https://drive.google.com/open?id=0B9C7VyfotFyJZGt1emcxdmJNXzQ

sábado, 18 de marzo de 2017

Ejercicio sobre confusión, con análisis estratificado y regresión logística. Video


El ejercicio consiste en ver las tasas de muertes que tienen dos hospitales. Primero se ven las tasas crudas y luego controladas por la gravedad inicial de los casos.



Letra del problema y base de datos

Video

miércoles, 15 de marzo de 2017

Regresión Logística Binaria: Confusión (ejemplo 1: espureidad). Video


El término confusión se refiere a la presencia de terceras variables que alteran las relaciones entre otras variables.

En el ejemplo que se verá, hay una asociación aparente entre alcohol y cáncer de pulmón. Quienes toman más alcohol tienen más cáncer de pulmón.

Pero esto en realidad no es indicio de una relación causal. Esta relación está "confundida" por la presencia de otra variable: cigarrillo. Sucede que quienes fuman más también toman más, y por ello entre quienes toman aparecen más cánceres de pulmón.

Aquí se verá el cambio importante en las OR (expB) como indicativo de fenómenos de confusión.

Es del caso señalar que la confusión significa de manera amplia alteración en la apreciación de la relación causal entre dos variables. Luego de controlar, la relación origina se puede mostrar más fuerte, más débil o incluso nula. Lo que caracteriza a la confusión es la variación en el OR luego de que se controla.

Para que la magnitud de la confusión sea relevante, algunos autores piden que el OR cambie, subiendo o bajando, al menos un 20%.


https://drive.google.com/open?id=0B9C7VyfotFyJRWV3dmJEOHhMX3c





Materiales suplementarios:

 https://www.healthknowledge.org.uk/node/803

https://www.iarc.fr/en/publications/pdfs-online/epi/cancerepi/CancerEpi-14.pdf

domingo, 12 de marzo de 2017

Ejercicio de Interacción, con análisis estratificado y regresión logística. Video.

Ejercicio en el que se muestra una interacción entre tres variables: sexo, edad y hospitalización.



Base y letra del problema

Video.

viernes, 10 de marzo de 2017

Ejercicio sobre interacción (sin solución)

Ejercicio en donde una interacción es vista primero segmentando la base, y luego introduciendo un término de interacción en el modelo.

Se pide analizar las odds relativas en presencia de interacción. ¡Cuando hay interacción los OR no son siempre iguales!


https://drive.google.com/open?id=0B9C7VyfotFyJelZaSHhvellzU1U

domingo, 5 de marzo de 2017

Ejercicio (sin soluciones) sobre interacción y su relación con Hosmer y Lemeshow

Ejercicio con un modelo que requiere de un término de interacción. Se recuerda cómo verificar que corresponde añadirlo al modelo, y se muestra el comportamiento del test de Hosmer y Lemeshow cuando está y cuando no está el término.

Finalmente se grafican los efectos de las variables en un diagrama de dispersión que muestra cómo varían las probabilidades predichas por el modelo según los valores de las variables independientes.


https://drive.google.com/open?id=0B9C7VyfotFyJU0xsRFZzTzBscTg

jueves, 23 de febrero de 2017

Regresión logística: un caso de interacción. Video


En este video se insiste sobre el concepto de interacción, y se muestra cómo trabajarlo en una regresión logística


https://drive.google.com/open?id=0B9C7VyfotFyJck1kemlEeDljLWM

lunes, 20 de febrero de 2017

Concepto de Interacción y No interacción en la regresión logística. Video


En este video se presenta una base de datos con dos variables predictoras que no interactúan con la variable dependiente.

Se muestran los conceptos de interacción y de no interacción, y se muestra como se chequea si hay interacción en un caso particular de regresión logística.



https://drive.google.com/open?id=0B9C7VyfotFyJcFZQRzJ1UGNJcGM

viernes, 17 de febrero de 2017

Ejercicio de regresión logística (sin solución) con una variable independiente con tres categorías

Regresión logística con una variable predictora con tres categorías. Se solicitan ecuaciones de regresión logística, cálculo de probabilidades, de odds y de OR. Varios cálculos se hacen desde las tablas de contingencia y desde la regresión logística, y deben ser comparados.



https://drive.google.com/open?id=0B9C7VyfotFyJWTZ4VktwREhIWjQ

jueves, 16 de febrero de 2017

De donde viene la expresión "regresión logística"


El nombre regresión logistica deriva de la función logit.

Una función es una correspondencia entre dos grupos de valores. En la función logit es una correspondencia entre proporciones de un lado, y el logaritmo de las odds de otro.


logit (proporción) = ln ((proporción/ (1-proporción))


La palabra logit designó originariamente a esta función matemática. Ahora también se usa para referirse a los modelos logísticos, también llamados modelos logit.

miércoles, 15 de febrero de 2017

Regresión logísica binaria. Introducción. Video 3.

En este video se muestra cómo se trabaja con una variable independiente categórica con 3 o más categorías.

Es necesario decirle a SPSS que es una variable categórica, y SPSS hará automáticamente variables dummy (binarias de tipo si/no). También es necesario decirle cuál es la categoría que deseamos para referencia.



https://drive.google.com/open?id=0B9C7VyfotFyJM0EwOVJycjFWVTg

viernes, 10 de febrero de 2017

Regresión logística binaria. Introducción. Video 2.

En este video se muestra una regresión logística binaria con una variable predictora de escala. Se muestra principalmente la ecuación de regresión logística y cómo interpretar el OR. Además se interpreta gráfica loess, R2 de Nagelkerke, pruebas de significación, etc.

https://drive.google.com/open?id=0B9C7VyfotFyJUS0wSkVkY0ZWOWM

domingo, 5 de febrero de 2017

Regresión logística binaria. Introducción. Video 1

Regresión logística con una sola variable predictora.

Se explica ecuación de regresión y exp(b). Esta última nos da los odds ratios, también llamados razón de momios.



https://drive.google.com/open?id=0B9C7VyfotFyJZnlPR1AxTDBsMms

martes, 31 de enero de 2017

Ejercicio de regresión, con temática propinas (sin solución)


Se crea y evalúa un modelo para estimar las propinas de mozos de restaurantes. Hay una serie de hipótesis planteadas y se trata de rechazarlas o no usando un modelo de regresión lineal.

Antes de crear el modelo propiamente, se analizan relaciones bivariadas como forma de detectar a través de herramientas simples las principales variables predictoras y las interacciones que tendrá el modelo.

Luego de creado el modelo, se correrán las pruebas diagnósticas necesarias para verificar los supuestos de este tipo de regresión.



Letra y base del Ejercicio

miércoles, 25 de enero de 2017

Ejercicio de regresión lineal múltiple (sin solución)


Ejercicio de regresión lineal múltiple, con una interacción y construcción de modelo. La base se refiere a datos sobre computadoras all in one.




Ejercicio

lunes, 16 de enero de 2017

Construcción de modelos: visión ligeramente simplificada basada en Hosmer y Lemeshow




  1. Comience seleccionado un conjunto de variables predictoras.
  2. Evalúe cada predictor en regresiones "univariadas", es decir, con un solo predictor (Si la variable fuera categórica, el predictor estaría constituido por un conjunto de variables dummy).
  3. Retenga todos los predictores que tengan un p-valor <.25
  4. Corra una regresión múltiple con todos los predictores retenidos.
  5. Uno por uno, elimine los predictores que no son estadísticamente significantes. (En ciertas regresiones hay más de un test de significación para eliminar variables. Por ejemplo, en regresión logística tenemos el Wald test y el lrtest. Si se desea eliminar una variable señalada por el Wald test para ser eliminada, se deberá verificar demás con el lrtest. Si no se logra verificar su falta de significatividad, se deberá mantener en el modelo).
  6. Para cada predictor, se considerará alterar la forma funcional: añadir términos cuadráticos y/o cúbicos, o sustituirlo por su logaritmo (nota: esto es relevante en presencia de relaciones curvilíneas).
  7. Considere un número limitado de interacciones plausibles entre los predictores. Añada las interacciones significativas, o interacciones que alteran la intepretación de los predictores de una manera marcada.
  8. Chequée la bondad del modelo mediante pruebas diagnósticas.


Nota: Este trabajo se apoya en el documento publicado en  sites.harvard.edu/fs/docs/icb.topic1217366.../modelselect1.docx


Nota personal:

No todas las interacciones tienen igual importancia. Pensemos en la siguiente interacción entre sexo, método de enseñanza y aprendizaje. Para el método B, el coeficiente del método de aprendizaje, si incorporamos la interacción, puede ser de 16 para los hombres y de 17 para las mujeres. Si no se incorpora la interacción, nos queda un coeficiente groseramente de 16.50. No parece preocupante no introducir esta interacción, aunque se muestre significativa en la muestra.

Caso muy distinto es si la interacción entre sexo, método de enseñanza y aprendizaje es de tal forma que con el método B el coeficiente para las mujeres es 17 y para los hombres es 4, o peor aún negativo. Aquí es relevante incorporar la interacción.

domingo, 15 de enero de 2017

Construyendo el modelo de regresión (resumen basado en trabajo de la Universidad de Massachusetts, de autor no identificado)

El resumen que sigue se basa en un trabajo de la Universidad de Massachusetts, aunque lo amplía en algunos aspectos.

La parte resumida se encuentra en la página 12 de dicho documento.







Enfoque general: 

No hay una única mejor estrategia para construir modelos. Hay diferentes diseños de investigaciones, diferentes niveles de conocimiento en el área que se va a estudiar.


Organización previa:

Liste
  • los objetivos de su investigación
  • su diseño de investigación
  • su variable dependiente
  • sus variables independientes de principal interés
  • sus variables de control (que también son independientes)


Pasos previos a la regresión lineal propiamente dicha: 

  • Chequee, limpie y describa sus datos.
  • Explore plenamente las relaciones bivariadas (especialmente entre la variable a predecir, y las variables que se utilizarán en la predicción, pero también las relaciones entre las variables predictoras).
  • Explore relaciones trivariadas de interés, por posibles fenómenos de espureidad o interacción.


Análisis de regresión propiamente dicho:

Paso 1 

  •  Ejecute el "modelo máximo", que contiene todas las variables con capacidad predictora, incluyendo las de control. Este modelo contendrá también todas las interacciones que puedan ser de interés.

Paso 2

  • Comience a simplificar el modelo. Comience a simplificar el modelo. Elimine primero las interacciones de mayor orden menos significativas. Siempre se eliminan de a una y se vuelve a correr el modelo.
  • Si borrar un predictor no afecta de manera notoria el R2 ajustado explicado, déjelo afuera (nota: si hay teoría de que el predictor es importante y además muestra un signo positivo o negativo acorde a lo esperado, muchos autores lo dejan).
  • Si borrar un predictor tiene un efecto importante en la variación explicada, se deja.
  • Vuelva a repetir los pasos anteriores, con lo cual continuará simplificando el modelo hasta que no contenga nada más que predictores significativos.

NOTA IMPORTANTE: Si en un modelo de regresión está la interacción de dos variables, deben de permanecer las variables en el modelo, aunque por sí mismas no sean significativas.

NOTA IMPORTANTE: Una interacción puede considerarse digna de ser retenida si su inclusión en el modelo altera los coeficientes de regresión para los efectos principales en un 15 - 20% o más.

NOTA IMPORTANTE: Si una variable categórica genera varias variables dummy, y una es significativa, se dejan todas.

Notas adicionales.

En ocasiones, puede interesar retener predictores a pesar de que no sean significativos.

Además usted necesita ser flexible y tomar en cuenta su conocimiento sobre el tema de fondo sobre el cual se está construyendo el modelo a la hora de eliminar y dejar variables.





Paso 3

Con posterioridad, usted deberá evaluar la calidad del modelo, usando gráficos como z-pred vs z-resid, normalidad de los residuos, distancias de Cook, etc.


Nota adicional: Las distancias de Cook indican puntos que vale la pena revisar por su alta influencia. Un criterio es revisar las distancias de Cook > 1. Otros dicen que, en un modelo con una sola variable, preocuparán los casos donde d > 1, y en modelos multivariables, los casos en que d > 2(p+1) / n; p representa el número de predictores.





martes, 10 de enero de 2017

¿Con qué variables construyo mi modelo de regresión? (visión de Andrew Gelman y Jennifer Hill)



Los modelos de regresión no son todos iguales. Incluso ante situaciones similares, no todos los estadísticos proceden exactamente igual.

A veces su único gran objetivo de una regresión lineal es predecir. Entonces de lo que se trata es de lograr un modelo con un R2 alto. Si somos nosotros (o es nuestra empresa) que debe pagar para medir las variables utilizadas en la predicción, también interesa el costo de la medición. Cuantas menos y más baratas de medir sean las variables, mejor, a condición de que R2 sea lo suficientemente alto.

En otras ocasiones el objetivo central es ver si una variable influye o no sobre una segunda variable. Por ejemplo, nuestra preocupación puede ser si un medicamento aumenta las chances de mejoría, o si empeora las chances en las embarazadas de tener hijos con problemas.

Si deseamos ver relaciones causales, como la citada en el párrafo anterior, a partir de estudios observacionales, lo que deseamos en general es incorporar todas las variables relevantes para poder medir, de manera controlada, el impacto de cada una.

¿Y cómo armamos el modelo final? Hay distintos matices de opinión.




Guías generales para construir un modelo de regresión según Andrew Gelman y Jennifer Hill

Asegúrese de que todos los predictores relevantes estén incluidos. Para eso usted se basará en su pregunta de investigación, en la teoría y en su conocimiento del tema.

Combine los predictores que tienden a medir lo mismo, por ejemplo en un índice.

Considere la posibilidad de añadir interacciones, especialmente en aquellas variables con grandes efectos.

Estrategias para mantener o eliminar variables:

  • Predictor no significativo pero con el signo adecuado > Mantenerlo
  • Predictor no significativo y con el signo no esperado > Eliminarlo
  • Predictor significativo y con el signo adecuado > Mantenerlo
  • Predictor significativo pero con el signo no esperado > Revisar. Pueden faltar variables, puede haber interacciones con otras variables o puede haber un error en los datos.


Quienes miren la versión dada en http://www.princeton.edu/~otorres/Regression101.pdf encontrarán el siguiente resumen, esta vez en inglés:












jueves, 5 de enero de 2017

2do Parcial (J). Bases, letras y solución escrita


Este parcial contiene ejercicios sobre relaciones bivariadas, cálculo con condiciones, ejercicios sobre Lazarsfeld, aggregate y regresión lineal (ejercicios simples).

Letra y bases

Solución y sintaxis

Regresión lineal: logaritmación de Y


Muchas veces se desea hacer una regresión lineal pero las relaciones se muestran curvilíneas.

Uno de los recursos que se poseen es trabajar con el logaritmo neperiano de Y. Esto se hace muy frecuentemente con los ingresos. Estos tienen una distribución sesgada a la derecha. Pero si calculamos sus logarimos neperianos del ingreso, estos pasan a tener una distribución aproximadamente normal y esto con frecuencia facilita la creación de modelos lineales.

Además, la logaritmación de Y tiene una ventaja interesante: es muy fácil de interpretar.

Todo eso se ve en el video adjunto, que va acompañado de una base de datos para poder reproducir los análisis.


https://drive.google.com/open?id=0B9C7VyfotFyJMVR0MnlNUjlUWE0

sábado, 31 de diciembre de 2016

Distancia de Cook

La distancia de Cook nos proporciona un medio adicional de detectar observaciones que pesan excesivamente en las ecuaciones de regresión.

Se calcula una distancia de Cook para cada observación. Estas distancias se hacen máximas cuando se dan dos circunstancias: la observación es un oulier en una o más de las variables predictoras, y además cuando se aleja de la nube de puntos de la regresión.

No todos los estadísticos usan de igual manera la distancia de Cook. Aquí, siguiendo a muchos de ellos, consideraremos problemática toda distancia que sea mayor que 1.

En el vídeo se muestra un caso en una regresión con un solo predictor para mayor claridad.


https://drive.google.com/open?id=1ruaU7D-QOlsOWSzkSqgFkjdmHWF1o8V5

viernes, 30 de diciembre de 2016

Regresión Lineal. Cómo se ven los residuos parciales y la gráfica zpred zresid cuando hay relaciones curvilíneas bien y mal modeladas.


Hay ocasiones en que las relaciones entre una variable predictora, digamos X, y la variable a predecir, digamos Y, es curvilínea.

Si hacemos un modelo lineal tratando de predecir Y usando X como predictora sin más el modelo queda mal armado, y eso se ve en las gráficas ZPred contra ZResid y además en las gráficas de Residuos Parciales.

Si en cambio incorporamos las correcciones adecuadas (en el ejemplo añadiendo un término X al cuadrado, o tomando el logaritmo de alguna de las variables, etc.), el modelo se torna pertinente y cambian radicalmente las gráficas Z resid y de Residuos Parciales.

El video muestra dos modelos, uno adecuado y otro no, y sus correspondientes gráficas de residuos.

https://drive.google.com/open?id=0B9C7VyfotFyJR3g3TjFEUk5rOTA

domingo, 25 de diciembre de 2016

Ecuaciones de regresión lineal. Gráficos zpred-zresid y gráficos parciales, con variables dummy y continuas, significativas y no significativas


En este video se presentea un modelo de regresión lineal, en donde las relaciones entre las X y Y son lineales.

Esto permite ver cómo se ve la gráfica de residuos zpred - zresid y los gráficos parciales cuando el modelo es adecuado.

También se muestra el aspecto de variables dummy y de variables continuas que están asociadas en unos casos y no asociadas en otros.


https://drive.google.com/file/d/0B9C7VyfotFyJN2pSV244bE82MGc/view?usp=sharing

jueves, 15 de diciembre de 2016

Regresión lineal. Colinealidad.



Concepto de colinealidad


Un modelo puede tener problemas cuando existe colinealidad entre variables predictoras. ¿Qué quiere decir colinealidad? Que una variable predictora puede ser predicha en gran medida a partir de otras variables predictoras.

Un ejemplo. Deseamos hacer un modelo para predecir rendimiento educativo en estudios de posgrado. Ponemos como variables predictoras Tiempo dedicado al estudio, Concentración en la tarea, Inteligencia, Memoria y Puntajes sacados en estudios de grado.

Si efectivamente el tiempo dedicado, la concentración, inteligencia y memoria determinan fuertemente los resultados del estudio, es probable que con estas variables podamos determinar otro predictor de nuestro modelo: los Puntajes sacados en estudios de grado.

Visto de otro ángulo, los puntajes sacados en estudios de grado nos repiten información sobre el tiempo de estudio, memoria, inteligencia y concentración.

Cuando pasa esto los predictores se tornan no significativos y pueden variar ampliamente de muestra a muestra. La colinealidad es especialmente problemática si el foco de nuestro interés son los coeficientes de predictores individuales y si nuestra muestra es chica.




Los primeros signos de colinealidad

Cuando existe colinealidad, los intervalos de confianza para las variables predictoras son muy amplios. Además aparecen como no significativas variables que a priori se esperaría que lo fuesen.



¿Cómo se confirma en SPSS si existe colinealidad?

 

 Lo primero es pedir los diagnósticos de colinealidad en los Estadísticos (en la imagen aún no se han pedido).


Luego nos fijamos en los resultados. El área recuadrada tiene un estadístico llamado tolerancia. Si este está por debajo de 0.10 hay fuerte colinealidad.






¿Cuando es la colinealidad no es un problema?

No es un problema si:


Nuestro propósito al momento de generar el modelo es predecir, y no nos importan particularmente los distintos coeficientes individuales del modelo.


Las variables que nos interesan no tienen problemas de colinealidad, aunque exista colinealidad entre las variables de control.  

Dice Paul Allison:

But so long as the collinear variables are only used as control variables, and they are not collinear with your variables of interest, there’s no problem. The coefficients of the variables of interest are not affected, and the performance of the control variables as controls is not impaired.


Tampoco es problemática la colinealidad si se da por la inclusión de potencias de variables predictoras o productos de variables predictoras.  

En ocasiones, además de la variable predictora x, se incorpora x al cuadrado o al cubo, a efectos de modelar una relación curvilínea, y se crea multicolineadad con x. Esta multicolinealidad no es problemática. En otras ocasiones se incorpora un término producto entre dos variables predictoras. Digamos que tenemos x1 y x2, e incorporamos su producto para modelar la interacción. Esta colinealidad tampoco es problemática.

Con palabras de Paul Allison: If you specify a regression model with both x and x2, there’s a good chance that those two variables will be highly correlated. Similarly, if your model has x, z, and xz, both x and z are likely to be highly correlated with their product. This is not something to be concerned about, however, because the p-value for xz is not affected by the multicollinearity.  


 Otro caso de multinealidad no problemática es el que se da entre variables dummy que se crean a partir de una variable categórica.

Dice Paul Allison:
The variables with high VIFs [alta colinealidad] are indicator (dummy) variables that represent a categorical variable with three or more categories. If the proportion of cases in the reference category is small, the indicator variables will necessarily have high VIFs, even if the categorical variable is not associated with other variables in the regression model.
  
Is this a problem? Well, it does mean that p-values for the indicator variables may be high. But the overall test that all indicators have coefficients of zero is unaffected by the high VIFs. And nothing else in the regression is affected.






Soluciones para el problema de la multicolinealidad

Si en nuestra situación la colinealidad es problemática, lo que se aconseja es agrandar la muestra o cambiar el diseño del estudio.

También puede estar indicado sustituir las variables que generan la colinealidad por algún tipo de índice que integre la información de dichas variables, si es que dichas variables deben permanecer en el modelo.

Es necesario considerar las situaciones de manera individual.


 http://statisticalhorizons.com/multicollinearity

 http://psychologicalstatistics.blogspot.com.uy/2013/11/multicollinearity-and-collinearity-in.html