sábado, 30 de enero de 2016

Ejercicios de repaso: recodificación, cálculo condicional, análisis univariado y bivariado (sin soluciones).


En el archivo adjunto hay cuatro ejercicios que repasan buena parte de lo visto hasta ahora. Son ejercicios similares a algunos de los que constituirán el primer parcial.

https://drive.google.com/open?id=0B9C7VyfotFyJQW9rUW03ZFpWMUU

martes, 26 de enero de 2016

Ejercicio sobre azulejos. Relaciones bivariadas, fuerza y significación. Con solución escrita


En este ejercicio se analizan relaciones bivariadas, su fuerza y significación, y se realizan cálculos con y sin condiciones.


Problema

Solución

lunes, 25 de enero de 2016

Test H de Kruskal Wallis, una alternativa no paramétrica a ANOVA de una vía. Texto.


El test H de Kruskal Wallis es similar al test de ANOVA de una vía, pero en vez de utilizar las medidas recogidas, se usan los rangos. Se usa Kruskal Wallis, y no ANOVA, si la variable dependiente es ordinal o no es normal.

Hay estadísticos que reservan el test de Kruskal Wallis exclusivamente para cuando además de tener distribuciones no normales o heterocedásticas, los grupos difieren fuertemente en tamaño: en estas condiciones ANOVA es menos resistente a la violación de supuestos.

Kruskal Wallis permite comparar dos o más grupos independientes. ¿Qué se compara? Las medianas si la forma de las distribuciones es igual en los distintos grupos. Y si las formas de las distribuciones son distintas se compara el promedio de los rangos.

El test H de Kruskal Wallis es un test omnibus. El dirá si todos los grupos tienen la misma mediana (si las formas de las distribuciones son iguales) o si tienen el mismo promedio de rangos. Pero si no lo tienen, no indica entre qué grupos se dan las diferencias.

Si la prueba H de Kruskal Wallis dice que hay diferencias, habrá que realizar análisis post hoc para identificar entre qué grupos hay diferencias.



Premisas del test

1) La variable dependiente debe ser ordinal o de escala.

2) La variable independiente debe ser una variable categórica con dos o más grupos.

3) Las observaciones deben ser independientes dentro de cada grupo y entre grupos.

4) Para considerar el test como una comparación de medianas, las distribuciones de cada uno de los grupos deben tener la misma forma grosso modo y similar y dispersión. Sigue un ejemplo en que los grupos son aproximadamente similares.




Todos los grupos tienen un sesgo positivo, outliers en la zona alta, y el ancho de las cajas no difiere excesivamente.

En estas condiciones podremos considerar al test H de Kruskal Wallis una comparación de medianas.

****
Para ilustrar nuevamente el concepto de formas similares y diferentes, tomaremos un ejemplo de
https://statistics.laerd.com/spss-tutorials/kruskal-wallis-h-test-using-spss-statistics.php, aunque es irrealista esperar tal nivel de igualdad.



El procedimiento en SPSS

Se va a la prueba a través de Analizar > Pruebas no Paramétricas > Cuadros de diálogo antiguos > K muestras independientes




Luego se definen los grupos que se quieren comparar. Aquí compararemos los grupos del 1 al 3.





Y finalmente pedimos los resultados:




En los resultados se ve que el grupo con el rango promedio más alto es el grupo 3, y se ve que hay por lo menos una diferencia entre grupos significativa.


Luego de saber que no todos los grupos tienen iguales rangos promedio, se estudiarán las diferencias entre grupos de a dos. Puede hacerse mediante Kruskal Wallis o mediante la U de Mann Whitney. Probablemente futuras versiones de SPSS permitan hacer estas comparaciones adicionales en forma integrada.




































domingo, 24 de enero de 2016

U de Mann Whitney, una alternativa no paramétrica a la prueba t. Texto.


La U de Mann Whitney es una prueba no paramétrica que puede ser usada en vez de la prueba t para grupos independientes, cuando el nivel de medición es ordinal. También cuando el nivel de medición es de escala pero las muestras son chicas y no normales (sesgadas y/o con outliers).

Se usa para testear si los rangos de las observaciones de una muestra son mayores que los de la otra muestra. Si las medias de los rangos de las dos muestras son suficientemente distintas, la prueba arrojará p valores significativos.

Esta prueba puede ser vista como una comparación entre medianas si se asume que ambas distribuciones tienen la misma formal, que no tiene por qué ser normal.

Los tests paramétricos, como las pruebas t y ANOVA, requieren niveles de escala en la variable dependiente, y además distribuciones normales. Los llamados test no paramétricos no tienen estos requisitos, sino requisitos menos rigurosos.

Premisas de Mann Whitney


  • Las muestras son aleatorias.
  • Los casos son independientes dentro de cada muestra y entre muestras.
  • El nivel de medición es por lo menos ordinal.

Si se desease establecer un intervalo de confianza para la diferencia entre las medianas muestrales se necesita una condición adicional:


  • Las distribuciones de las dos poblaciones de las que se extrajeron las muestras son idénticas, aparte de una posible diferencia en la localización de los parámetros.




La prueba U de Mann Whitney no usa las mediciones directamente, sino sus rangos. Todas las observaciones juntas son ranqueadas, y luego se calcula un estadístico, la U de Mann Whitney precisamente, a partir de los rangos.




Cómo se hace la prueba de Mann Whitney en SPSS



Lo primero exploramos los datos. En el ejemplo que sigue ambas muestras son chicas (menores de 30) y que son sesgadas.

Aquí tenemos distribuciones sesgadas y muestras chicas. La U de Mann Whitney aparece como una buena opción.


Lo segundo vamos a Analizar > Pruebas no paramétricas > Cuadro de diálogos antiguos > 2 muestras independientes.




Allí indicamos cuál es la variable que queremos comparar y cuáles son los grupos. A continuación habrá que definir los grupos oprimiendo el botón Definir Grupos.





El botón Exacta nos permite elegir si queremos un cálculo exacto (más demandante computacionalmente) o una aproximación asintótica, o un método Montecarlo, con muestreo y remuestreo.






Y finalmente correremos la prueba y analizaremos los resultados.




Y con esto tomamos nuestra decisión de rechazar o no la hipótesis nula, según el nivel de confianza con el que deseamos trabajar.


Elección entre Mann Whitney y pruebas t

Hay situaciones un tanto intermedias en que unos autores prefieren usar la prueba t, a la que consideran suficientemente robusta como para tolerar algún apartamiento de las premisas sin consecuencias dramáticas, y otros prefieren usar la U de Mann Whitney.

Si la distribución es normal la prueba t tiene la ventaja de que es más potente para rechazar la hipótesis nula.

Ahora bien, incluso para distribuciones normales, la prueba de Mann Whitney requiere apenas más casos para rechazarla. Requiere 100 casos cuando la prueba t necesita 95.

Y si la distribución no es normal, la prueba U es más potente.

Otras sutilezas al momento de elegir entre estas pruebas escapan al contenido de este curso.













sábado, 23 de enero de 2016

Prueba de significación de McNemar, para proporciones en muestras relacionadas. Video e hipervínculo a video ajeno.


El video adjunto muestra el chi cuadrado de McNemar, o simplemente prueba de McNemar, para estudiar la significación de cambios de proporciones en dos muestras relacionadas.

https://drive.google.com/open?id=0B9C7VyfotFyJSjZwS3dPOHhSLW8




Pueden asimismo encontrar un buen video sobre el tema en Youtube:

https://www.youtube.com/watch?v=FNSg4R-YzOc


lunes, 18 de enero de 2016

Relaciones bivariadas, pruebas de significación, fuerza de las asociaciones. Con solución escrita.



Problema que pide estudiar distintas relaciones bivariadas con tema satisfacción laboral.


Problema

Solución

domingo, 17 de enero de 2016

Escuela actoral. Relaciones bivariadas. Sin solución.

Ejercicio de relaciones bivariadas con pruebas de significación y medidas de fuerza de asociaciones.


https://drive.google.com/open?id=1VAg7kYnuOPtMX2GF6po__v_4xJYe18d_

sábado, 16 de enero de 2016

Ejercicio sobre relaciones bivariadas, con pruebas de significación y medidas de fuerza. Temática Aprendizajes. Solución escrita.


Problema que pide estudiar relaciones entre variables nominales, ordinales y de escala, con sus correspondientes pruebas de significación y coeficientes de fuerza de la asociación.



Problema

Solución

viernes, 15 de enero de 2016

Anova de una vía para grupos independientes. Texto e hipervínculos a videos ajenos.

Uso de ANOVA

La prueba de ANOVA de una vía es una prueba de significación. Como todas las pruebas de significación nos ayuda a decidir si hay evidencia suficiente para descartar una hipótesis nula: la de que las medias de tres o más grupos son iguales.

Usamos ANOVA cuando tenemos una variable nominal u ordinal con más de 2 categorías y una variable de escala.

Por ejemplo, podemos querer ver si los años de educación de los votantes de distintos partidos políticos tienen iguales medias. Aquí nuestra variable de escala es años de educación, y nuestra variable nominal es partidos políticos (Partido Colorado, Partido Nacional, Frente Amplio y Partido Independiente).

La hipótesis nula es que todas las medias son iguales. La hipótesis alternativa es que por lo menos una de las medias es diferente.



Supuestos relevantes de ANOVA 

1) Dentro de cada grupo, la variable dependiente se distribuye normalmente (en nuestro ejemplo, los años de educación de los miembros del PC se distribuyen normalmente, también los años de educación del PI, etc.).

Sin embargo, esta prueba tolera moderados alejamientos de la normalidad, especialmente si hay 20 o más casos en cada grupo.

 2) Las varianzas son similares en los distintos grupos.  

Sin embargo, si los grupos tienen igual tamaño, esto no afecta mayormente. Pero además tenemos dos opciones dentro del menú de ANOVA que dan más precisión: los estadísticos de Welch y de Brown Forsythe.

"There are two tests that you can run that are applicable when the assumption of homogeneity of variances has been violated: (1) Welch or (2) Brown and Forsythe test. Alternatively, you could run a Kruskal-Wallis H Test. For most situations it has been shown that the Welch test is best. Both the Welch and Brown and Forsythe tests are available in SPSS Statistics (see our One-way ANOVA using SPSS Statistics guide)".


3) Los casos son independientes.

Por ejemplo, en un estudio observacional han sido elegidos por muestreo aleatorio simple.


Alternativa no paramétrica a ANOVA: test H de Kruskal Wallis

Especialmente en casos de muestras pequeñas no normales, podemos recurrir al test H de Kruskall Wallis. Este test trabaja con los rangos de las observaciones, en vez de las obsercaciones en sí mismas. Del lado positivo, tiene supuestos más débiles. Como contracara, es menos potente a la hora de rechazar la hipótesis nula en caso de que se cumplan los supuestos de ANOVA.



ANOVA de Welch

Hay quienes se incluinan por usar en muchas ocasiones el ANOVA de Welch. Funciona bien en la hipótesis de varianzas diferentes y también en la de varianzas iguales.
 


Welch’s ANOVA is an elegant solution because it is a form of one-way ANOVA that does not assume equal variances. And the simulations show that it works great!
When the group standard deviations are unequal and the significance level is set at 0.05, the simulation error rate for:
  • The traditional one-way ANOVA ranges from 0.02 to 0.22, while
  • Welch’s ANOVA has a much smaller range, from 0.046 to 0.054.
Additionally, for cases where the group standard deviations are equal, there is only a negligible difference in statistical power between these two procedures. If the data show a lot of heteroscedasticity (different groups have different standard deviations), the one-way anova can yield an inaccurate P value; the probability of a false positive may be much higher than 5%. In that case, you should use Welch's anova.



Pruebas post hoc

La prueba de ANOVA es lo que se llama una prueba omnibus. Se testea si hay evidencia para descartar la hipótesis nula de que todas las medias son iguales entre sí. Pero si ANOVA es significativa, aún no sabemos entre qué medias hay diferencias.

Para identificar entre qué grupos hay diferencias, se hacen las pruebas post hoc. Hay diferentes modos de hacer estas pruebas tanto si se asume igualdad de varianzas como si no se asume. Dos muy usados son a) Tukey, si las varianzas se suponen iguales, y b) Games Howell si no son iguales.


Siguen tres videos cortos extraídos de Youtube. Los dos primeros están en español y muestran lo más típico del análisis de varianza. El tercero es sobre el Anova de Welch y está en inglés, con subtítulos en inglés.


















jueves, 14 de enero de 2016

Prueba de significación de Anova para grupos independientes (Video)

Video en donde se explica uso de la prueba de ANOVA en situación de grupos con varianzas similares y disímiles.


https://drive.google.com/open?id=1fqGVydyEhQ6Aaxh_fPgAEJpMK1xcfVyp

domingo, 10 de enero de 2016

Comparación de medias de 2 muestras relacionadas. Texto y video.


Prueba t para muestras relacionadas
(o muestras pareadas, o medidas repetidas)


La prueba t para muestras relacionadas es una prueba de significación que se aplica para decidir si podemos rechazar la hipótesis nula que afirma que la media de dos variables de escala, medidas antes y después, o medidas en sujetos relacionados, son iguales.

Podemos tener dos medidas para una muestra de sujetos: una medida antes y una medida después. Por ejemplo, peso antes del tratamiento y peso después. Y queremos decidir, asumiendo que nuestra muestra es una muestra aleatoria simple, si las medias poblacionales antes y después son iguales. Este es un uso de la prueba t para muestras relacionadas.

Otro uso: tenemos mellizos. Una posibilidad de ver la eficacia relativa de dos tratamientos es medir la media de resultados con un tratamiento y la media de resultados con el otro. Luego efectuamos la prueba t para muestras relacionadas en nuestra muestra a efectos de decidir si podemos rechazar la hipótesis nula de igualdad de medias en el universo del cual fue extraída la muestra. 

También podemos tener casos apareados. Por ejemplo, puntúo la inteligencia de una serie de individuos en el momento 0, y formo parejas de individuos de con similar puntaje. A uno lo dejo como control y al otro le hago hacer crucigramas. Luego comparo la inteligencia de ambos grupos. Si fuera mayor la del grupo que hizo crucigramas concluiría que estos benefician la inteligencia (al menos en el muy corto plazo).


Premisas para aplicar la prueba

1) La diferencia entre las medidas pareadas está normalmente distribuida en la población (esta premisa pierde importancia conforme aumenta el tamaño de la muestra.)

2) Los casos son una muestra aleatoria simple extraída de la población.




D de Cohen para muestras relacionadas

La prueba t es una prueba de significación. Solo nos dice si podemos estar seguros, para determinados niveles de confianza, de que existe una diferencia. Pero no nos dice nada de su magnitud.

Para eso necesitamos medidas de tamaño del efecto o medidas de asociación.

Una medida habitualmente usada es la d de Cohen para muestras relacionadas. SPSS no la da. Pero la calculamos dividiendo la diferencia de medias por la desviación estándar de la diferencia de medias.


Se adjuntan base de datos y vídeo. Para poder verlos se debe descargar el siguiente archivo en la computadora del lector:












martes, 5 de enero de 2016

Comparación de 2 medias de grupos independientes. Video.


En este post se verán analisis para ver si la diferencia de medias entre dos grupos independientes es significativa y para ver cuál es la fuerza de la asociación.

La prueba t para grupos independientes tiene sus premisas:

  • las observaciones son independientes dentro de cada grupo
  • los grupos son independientes entre sí
  • para cada uno de los grupos la distribución de la variable dependiente es normal.
  • la varianza de la variable dependiente es similar entre los grupos.


Sin embargo, debe notarse que el requisito de normalidad deja de ser importante en muestras "grandes".  Samuel Green afirma que en la mayoría de las circunstancias un tamaño de 15 casos por grupo debe ser lo suficientemente grande para arrojar p-valores bastante precisos. Si las muestras son sustancialmente no normales se necesitan mayores muestras. Algunos autores consideran que con muestras de más de 30 casos ya no es relevante. Otros autores, en cambio, pueden pedir hasta 100 casos si la distribución es extremadamente sesgada para olvidar este requisito.

En cuanto a la igualdad de varianza entre los grupos, es un requisito de la prueba t clásica. No obstante, SPSS ofrece una versión de la prueba para utilizar si las varianzas son distintas.



La fuerza de asociación puede medirse por la d de Cohen para grupos independientes o por la correlación de punto biserial.



Se anexa una base y un vídeo. Si desea abrir la base y ver el vídeo, deberá descargar el archivo rar y abrirlo en su computadora.

https://drive.google.com/open?id=0B9C7VyfotFyJbExxM2NlaDZDdXc