Curso de SPSS: Tamaño de la muestra, significación estadística, tamaño del efecto, intervalos de confianza y significación práctica: requisitos a la hora de informar los resultados. Texto.

Son varios los requisitos que debe tener un informe de resultados: es deseable que estén los tamaños de la muestra con los cuales se trabaja, y las bases sobre las cuales se calculan los distintos porcentajes; la significación de las relaciones, la fuerza de las asociaciones de variables y los intervalos de confianza.

En algunos investigadores existe una tendendia a centrar la atención excesivamente en si una relación estudiada es estadísticamente significativa o no.

Pero esto cuenta solo parte de la historia.

Pongamos el caso del estudio de la aspirina en la prevención de infartos. Si decimos que la relación fue significativa no alcanza: cabe la pregunta sobre qué tan efectiva fue y cuáles son los márgenes de error de la estimación.

En los cuadros anteriores se muestran los números absolutos del estudio, sus porcentajes y el resultado de la prueba de significación chi2. Podemos ver que la Significación de Chi2 es 0.000.

La relación es significativa: podemos rechazar la hipótesis nula de no relación con un alto nivel de confianza.

La relación que se ve en la muestra existe en el universo: no se debe a un azar muestral. O sea, concluímos que en el universo aquellos que tomaron aspirina tuvieron menos ataques cardíacos que aquellos que no la tomaron. Lo que se acaba de decir está bien, pero no alcanza. Hay que ver otros aspectos.

¿Cuánto mejor estuvieron los que tomaron aspirina? Para esto tenemos que usar alguna medida de tamaño del efecto, y esa medida debe ser pertinente y adecuada.

En ciencias sociales frecuentemente usamos la V de Cramer (o también phi, que tiene igual valor que la V de Cramer pero con signo positivo o negativo) para ver la fuerza en estas asociaciones dicotómicas. Pero como veremos aquí no funcionará muy bien, o si se quiere, no nos ayuda a leer la situación. Sigue la tabla con la V de Cramer:

La V de Cramer es de 0.034. Uno podría pensar que esta cifra es totalmente despreciable: ambas variables parecen muy debilmente asociadas medidas con este coeficiente de asociación. Pero la V de Cramer no funciona bien aquí: en general no funciona bien si una de las variables tiene categorías muy desbalanceadas. Y aquí una de las categorías, la de los infartados es muy pequeña frente a la de no infartados.

En estos casos podemos usar el RR (riesgo relativo). En el grupo de los que toman el placebo, la probabilidad de infartarse fue de 17/1000. En el grupo de los que tomaron aspirina fue de 9/1000. El riesgo relativo fue casi el doble en el grupo placebo: RR = 17 / 9.

Debemos también pensar en las implicacias prácticas de esta asociación, y para ello nos ayudará otra medida del efecto muy intuitiva y adecuada en la situación: el NTT (number needed to treat).

En las cifras de arriba se vio que entre quines tomaban aspirinas, aparecieron 9 infartos cada 1000 personas, y entre quienes tomaron placebo, aparecieron 17 infartos cada 1000 personas. Entonces tenemos derecho a decir que si las 1000 personas del grupo placebo hubieran tomado aspirina, no habría habido 17 infartos sino 9 infartos. Si las 1000 personas del grupo placebo hubieran tomado aspirina se habrían evitado 8 infartos.

Si tratando a 1000 personas evito 8 infartos, entonces NNT = 125.

Por cada 125 personas tratadas con aspirina evito un infarto. Y desde aquí puedo seguir pensando en costos de la intervención, etc. Es una medida de tamaño del efecto que ayuda a comprender la situación práctica, y no es solo una medida comprensible para un estadístico.

NNT no necesariamente debe restringirse a la medicina, puede ser una medida de enorme utilidad al evaluar, por ejemplo, el impacto de políticas públicas. Por ejemplo, a cuántos alumnos tengo que apoyar en sus dificultades educativas para prevenir una deserción.

Otra cosa importa: el intervalo de confianza para la estimación. De una calculadora en línea extraigo:

"The 95% confidence interval for the NNT ranges from 93.2 to 213.3"

O sea, la estimación puntual es que necesitamos tratar a 125 personas: esto es lo que vemos en la muestra. Pero nadie espera que la muestra refleje exactamente al universo de la cuál fue extraída. ¿Entre qué cantidades estará en el universo? Entre 93 y 213, con un nivel de confianza del 95 %

El intervalo de confianza da una información muy importante, y es qué tan precisa es la estimación.

Otros números relevantes a la hora de informar son los N, los números de casos en que se apoyan los cálculos.

Así, por ejemplo, se recomienda que los porcentajes siempre reporten la base, el número de casos sobre los cuales se calculan.

Sigue una tabla bien presentada: con sus porcentajes y sus bases:

Siguen dos trozos de un informe médico. Nótese el abundante uso de los conteos.

Algunos investigadores, si una relación no es significativa, dejan sin informar con precisión aspectos tales como el p-valor, el tamaño del efecto, sus intervalos de confianza, etc.

Esto es equivocado. La relación podría no mostrarse significativa simplemente por el escaso tamaño de la muestra.

Dice Ellis en The Essencial Guide of Effect Sizes: "Report the size and direction of estimated effects. Do this even if results were found to be statistically nonsignificant and your effect size miserably small". "Provide confidence intervals to quantify the degree of precision associated with your effect sizes estimates". "Report the exact p values for all statistical tests, including those with nonsingnificant results".

¿Por qué es importante reportar todos los datos con precisión aún en las relaciones que aparecen como no significativas en nuestro estudio? Porque muchas veces para decidir sobre si ciertas relaciones existen o no, se realizan metaanálisis. Los metaanálisis combinan los resultados de estudios similares para extraer una conclusión de conjunto.

En definitiva:

Para estudiar una relación que vemos en una muestra, es muy deseable tener:

su significación
su fuerza de la asociación (tamaño del efecto)
la importancia práctica de los hallazgos
los intervalos de confianza
los números base sobre los cuales fueron calculados los estadísticos y porcentajes, y los conteos relevantes.
Se debe reportar todo lo anterior, aún si la relación no es significativa.

Notas:
El calculador utilizado para el cálculo de NTT fue QuickCalcs.
Hay pequeñas diferencias en el cálculo de NTT debido a redondeos en el cálculo de los porcentajes originales).

Curso de SPSS

miércoles, 10 de febrero de 2016

Tamaño de la muestra, significación estadística, tamaño del efecto, intervalos de confianza y significación práctica: requisitos a la hora de informar los resultados. Texto.

No hay comentarios:

Datos personales