sábado, 10 de diciembre de 2016

Regresión lineal. Orientación sobre tamaño de la muestra


El tamaño de la muestra es un tema importante. Si trabajamos con una muestra muy chica, es probable que no detectemos efectos y correlaciones que nos interesan y existen en el universo.

Si trabajamos una muestra demasiado grande, los costos en tiempo y dinero se elevan (a menos que trabajemos con datos secundarios).

Entonces tiene importancia que el tamaño sea razonable (ni chico ni exageradamente grande).

***************************************************.
 
El tamaño adecuado de la muestra para regresión múltiple depende de muchos aspectos.

Depende del nivel de confianza con el cual pretendamos trabajar, de lo grandes o chicos que sean los efectos que queremos detectar, de la potencia que deseemos para nuestro diseño. La potencia de nuestro diseño se refiere a la probabilidad de rechazar la hipótesis nula si es falsa.

En fin, hay múltiples determinantes, y lo que sigue son simplemente algunas reglas generales (rules of thumb) que nos dan una idea grosera de los tamaños que podemos requerir a priori.


**********************************************************.
Una regla que usan algunos psicólogos es la siguiente:

100 es aceptable
200 está bien
400 o más está muy bien.

 http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size-for-multiple-regression

*********************************************************.


Green (2001), Tabachnick y Fidell (2007) sugieren:
  1. 50 + 8(k) para testear un modelo global
  2. 104 + k para testear predictores individuales (k es el número de variables independientes)
  3. Los tamaños sugeridos de muestra son adecuados para detectar efectos de tamaño medio; para detectar tamaños pequeños o muy pequeños deberá aumentarse la muestra.
  4. Estas recomendaciones están pensadas para efectos de tamaño medio, con α <= .05, y una potencia del 80% --80% de rechazar la hipótesis nula si hay un efecto de tamaño medio-.
De acuerdo a las reglas de arriba, si deseamos armar un modelo con 4 predictores y el énfasis está en el modelo, necesitamos según esta regla general unos 50 + 4*8 = 82 casos.

Si nuestro énfasis está en los predictores individuales, necesitaríamos unos 104 + 4 = 108 casos.

https://en.wikiversity.org/wiki/Multiple_linear_regression


********************************************************.

Un cálculo más preciso del tamaño que necesitamos para nuestra muestra puede hacerse con software diseñando al efecto, aunque requiere datos que muchas veces no conocemos de antemano.
Uno de esos softwares es G*Power (gratuito). 

Si se va a realizar un estudio que involucra costos importantes, probablemente se justifique la consulta con un estadístico ya desde el momento cero, desde la fase de diseño. Podremos ahorrarnos desagradables sorpresas.


********************************************************.









No hay comentarios: