domingo, 27 de diciembre de 2015

Variables ordinales: significación y fuerza de la asociación. Video

Se presentan varias medidas de asociación para relaciones entre variables ordinales:

  • Gamma
  • d de Somers
  • tau - b
  • tau -c
  • r de Spearman

No hay unanimidades respecto a cuáles medidas son preferibles en distintas circunstancias.

Algunos usan, cuando hay muchos empates en los valores de las variables, alguno o varios de los siguientes coeficientes: Gamma, d de Somers, tau-b o tau-c. Hay muchos empates si, por ejemplo, una variable ordinal solo toma tres valores: alto, medio y bajo. Entonces habrá muchos casos empatados en cada categoría.

Hay otras ocasiones en que la variable ordinal toma muchos valores distintos. Por ejemplo la posición en un concurso. Si hay 200 concursantes, podría haber hasta 200 valores distintos, o alguno menos si hubiera empates en alguna posición. Por ejemplo, los concursantes 3 y el 4 podrían empatar, y se les daría el puntaje 3.5 a cada uno. Pero de todas formas, habría muchos valores distintos.

Para ver la relación entre dos variables con estas características, muchos estadísticos prefieren r de Spearman (también se habla de rho de Spearman).


https://drive.google.com/open?id=1scqDFDenwOThTBRGq2FwU01OLwLWEhFT

sábado, 26 de diciembre de 2015

Variables nominales: significación y fuerza de asociación. Video.

Este post adjunta una base de datos y un vídeo, que deberán ser descargados a la computadora del lector para poder trabajar con ellos.

El tema tratado es el de la relación de variables nominales. Se muestra cómo entender una tabla de porcentajes, cómo llevar adelante pruebas de significación (chi cuadrado y test exacto de Fisher), y cómo medir la fuerza de la asociación (V de Cramer, Phi y OR).

El vídeo y la base están disponibles en
https://drive.google.com/open?id=0B9C7VyfotFyJb2FQOXBRMjl3VlU

viernes, 25 de diciembre de 2015

Concordancia entre medidas continuas: Método gráfico de Bland y Altman. Texto y video.

Sean dos medidas continuas x e y. Podrían ser dos determinaciones de un cierto parámetro en sangre halladas por dos marcas de reactivos distintas.

El método de Bland Altman está pensado para evaluar la concordancia (o falta de concordancia) entre dos mediciones.


Exploración preliminar

Antes de hacer la gráfica típica de Bland y Altman, exploremos someramente los datos. Grafiquemos la medida X contra la medida Y y dibujemos la linea de igualdad (a 45 grados, y pasa por el punto (0,0). En esta línea deberían caer todos los puntos si las dos medidas fueran exactamente iguales. Esto ayuda a que el ojo calibre el grado de acuerdo entre las medidas, aunque luego la gráfica de Bland y Altman nos ofrecerá una alternativa que nos permitirá ver con más precisión.




En el gráfico de arriba se ve que la nube de puntos está un poco por arriba de la línea de igualdad entre X e Y. Eso es porque los valores de Y son un poco mayores que los valores de X.

También se ve que Y siempre es mayor que X, y que la diferencia es similar en los valores bajos y en los valores altos de X. Dicho con otras palabras, la nube es paralela a la recta de igualdad y tiene igual varianza aproximcada a lo largo del recorrido.

***


Para hacer la gráfica típica del método de Bland y Altman debemos calcular dos medidas derivadas de X e Y:

a) el promedio: (x + y) /2
b) la diferencia (x-y)

y luego graficarlas. El promedio va en el eje X y las diferencias en el Y.

Para las diferencias se hallarán la media y las desviaciones estándar. Se trazarán dos líneas paralelas alrededor de la media a +/- 2 desviaciones estándar, que contendrán el 95 % de las diferencias.

Veamos primero la gráfica del promedio X-Y versus diferencias X - Y.


Las diferencias X - Y tienden a ser negativas, como puede verse. Se piden ahora su media y su desviación estándar.








Ahora trazamos una línea por la media de las diferencias. Divide, en tanto la nube de puntos sea básicamente horizontal, la nube de puntos en dos. Nótese que en términos generales la nube de puntos acompaña la media de las diferencias, o, en otras palabras, que la nube de puntos no está claramente inclinada. 

Si la nube de puntos estuviera claramente inclinada, la diferencia media entre X e Y variaría con el valor del promedio de X e Y. Si esto sucediera se hablaría de bias proporcional, pero aquí no está presente.

Luego trazamos dos líneas horizontales con los valores Media +/- 2 desviaciones estándar. Dentro de la media más/menos 2 desviaciones estándar caerán el 95 % de las observaciones.

Ahora solo resta evaluar las diferencias.




Digamos entonces que la diferencia media entre métodos es de 3.04 puntos, y que Y es mayor que X.

Digamos además que las diferencias entre uno y otro método van a estar en el 95% de los casos entre +1.29 (media + 2 DS) y -7.37 (media - 2 DS).

Se llaman límites de concordancia entre X y Y a los valores +1.29 y -7.37.

Llamaremos bias de un método respecto al otro a la media de las diferencias. Aquí el bias o sesgo de Y con respecto a X es de 3.04.

¿Qué tan relevantes son estas diferencias? Hay áreas donde son pueden ser tolerables y áreas donde no. Corresponderá evaluar la importancia según el caso.

No es la misma la precisión necesaria en el motor de un avión que en el ancho de las paredes de una vivienda.

Nota: este es un caso simple donde se muestra Bland y Altman. El método puede requerir ajustes si, por ejemplo, las diferencias fueran mucho más restringidas para valores bajos del promedio X-Y y más amplias para valores altos del promedio X-Y.


Se adjunta

base y video propio

Artículo  de profundización de Bland y Altman


Video de Todd Grande:



domingo, 20 de diciembre de 2015

ICC: Coeficiente de correlación intraclase. Texto e hipervínculos a videos ajenos.

Se usa para ver en qué medida concuerdan dos o más varias medidas cuantitativas.

Para correr un análisis de correlación intraclase hay que elegir un modelo y un tipo.



******


Hay que elegir un modelo: 


Dos factores, efectos mixtos Si los efectos de las personas son aleatorios y los efectos de los elementos son fijos (Mixed en la sintaxis).


Dos factores, efectos aleatorios Si los efectos de las personas y de los elementos son fijos (Random en la sintaxis).


Un factor, efectos aleatorios. Si los efectos de las personas son aleatorios. (One way en la sintaxis).  Siempre da los valores más chicos. Se usa cuando hay un conjunto grande de evaluadores y cualquier juez hace la primer evaluación y cualquier juez hace la segunda. Es Oneway porque no hay esfuerzos para determinar la influencia del juez, solo pesan los efectos de las personas.


(El más usado es el de efectos mixtos, considerando los inidividuos al azar y los jueces fijos. Le sigue el de dos factores, efectos aleatorios, que considera elegidos al azar los jueces y los individuos. La distinción entre ambos es puramente teórica: arrojan las mismas cifras).


******


Habrá que elegir un tipo:


Consistencia (Aquí importa fundamentalmente la correlación entre ambas medidas; si cuando una medida sube sube la otra).


Acuerdo Absoluto (Aquí importa fundamentalmente que los valores sean iguales, no solo la correlación).



******


Después habrá que elegir entre:


Single measures (Medidas únicas). Me hace falta para evaluar la calidad de mi medida si voy a trabajar con un solo juez.


Average measures (Medidas promedio). Normalmente nos interesa esta medida promedio. Por ejemplo si pensamos tomar como medida el promedio de las medidas y no una sola.



******



Dice la ayuda del SPSS:



Coeficiente de correlación intraclase. Genera medidas sobre la consistencia o sobre el acuerdo de los valores entre los propios casos.
• Modelo. Seleccione el modelo para calcular el coeficiente de correlación intraclase. Los modelos disponibles son: Dos factores, efectos mixtos; Dos factores, efectos aleatorios y Un factor, efectos aleatorios. Seleccione Dos factores, efectos mixtos, si los efectos de personas son aleatorios y los efectos de elementos son fijos, Dos factores, efectos aleatorios, si los efectos de personas y los efectos de elementos son aleatorios; o Un factor, efectos aleatorios si los efectos de personas son aleatorios.
• Tipo. Seleccione el tipo de índice. Los tipos disponibles son: Los tipos disponibles son: Consistencia y Acuerdo absoluto.
• Intervalo de confianza. Especifica el nivel para el intervalo de confianza. El valor por defecto es 95%.
• Valor de prueba. Especifica el valor hipotetizado para el coeficiente, para el contraste de hipótesis. Este valor es el valor con el que se compara el valor observado. El valor por defecto es 0.


En el transcurso de la investigación clínica es frecuente, al igual que en otras disciplinas, la evaluación de la fiabilidad de las medidas realizadas, pudiéndose distinguir dos tipos de situaciones diferentes: a) aquellas en las que se determina el grado de estabilidad o consistencia conseguido en los resultados cuando se repite la medición con el mismo instrumento en condiciones idénticas, y b) aquellas en las que se determina hasta qué punto los resultados obtenidos con diferentes instrumentos de medida o con diferentes observadores concuerdan, o son equivalentes. 

Sean dos médicos que miden a 10 pacientes en ciertos rasgos y obtienen estas medidas:

135,00 140,00
140,00 145,00
130,00 135,00
145,00 150,00
140,00 145,00
150,00 160,00
140,00 145,00
135,00 140,00
140,00 145,00
135,00 145,00

Podemos asumir que la varianza se debe a tres componentes:

a) la varianza entre los pacientes
b) la varianza debida a los médicos
c) una varianza aleatoria.


Valores convencionales para ICC.
  • < 0,40 – Pobre.
  • 0,40 – 0,59 – Suficiente.
  • 0,60 – 0,74 – Bueno.
  • 0,75 – 1 – Excelente.

"La estimación del CCI presentada para el ejemplo de más arriba se ha desarrollado bajo la condición de un modelo de efectos aleatorios. Este modelo es apropiado cuando los observadores implicados en la medición, los médicos A y B en el ejemplo, representan una «muestra» aleatoria de la población de posibles observadores (p. ej., otros médicos del hospital) que en el futuro harán uso del instrumento evaluado (el esfigmomanómetro)". Nota: es el modelo random del SPSS.

"Cuando los observadores que intervienen en el estudio son los únicos que participarán en el mismo, es necesario un modelo de efectos fijos. En el caso, por ejemplo, en el que deseamos valorar la concordancia de las mediciones de la frecuencia cardíaca obtenidas en 10 pacientes por 2 médicos diferentes: un médico A, jefe del servicio, y un médico B, en período de formación. El objetivo es conocer la magnitud de las discrepancias entre ambos y determinar si el médico A puede ser sustituido por el médico B en esa tarea. Por lo tanto, estaremos exclusivamente interesados en la comparación de los resultados obtenidos por estos 2 médicos y no desearemos generalizar los resultados al conjunto de médicos que miden la frecuencia cardíaca en el hospital". Nota: en este caso en SPSS usaríamos modelo mixto, ya que hay una fuente de variación que son los pacientes, además de los efectos fijos de los médicos. 

Supuestos para el cálculo del ICC: Normalidad de las distribuciones de las variables, homocedasticidad e independencia de errores.

Además, el ICC es dependiente del rango de variación. Aumenta cuando aumenta el rango de variación, al igual que la r de Pearson.

Alternativas al ICC

1) Método gráfico de Bland Altman.
2) Coeficiente de correlación de concordancia de Lin.



Extensión del uso de la ICC


La ICC no se ha extendido mucho en el área médica a pesar de que es un índice muy adecuado. Pero no tiene una interpretación clínica obvia. 


Hay otra forma más intuitiva de abordar la concordancia: Bland y Altman.




Consultado:


Videos



























martes, 15 de diciembre de 2015

Kappa de Cohen: un índice de concordancia entre mediciones nominales. Texto e hipervíonculos a videos ajenos.


En ocasiones se usa más de un método para establecer el valor de una variable nominal. Por ejemplo, se establece si un paciente padece una fractura mediante a) una resonancia magnética y b) un gammagrafía. ¿Mediante qué estadístico mediremos en hasta donde ambos métodos concuerdan?

O se pueden tomar placas radiográficas y que dos técnicos informen si se da un proceso inveccioso o no. ¿Cómo se mide su grado de acuerdo o concordancia?

Para medir el grado de acuerdo en la medición de una variable cualitativa, ya sea entre dos técnicas o entre dos jueces, se usa el índice Kappa de Cohen. Este índice mide cuánto por arriba del azar están los acuerdos entre técnicas o jueces.

Es condición para calcular este índice que ambos jueces clasifiquen en igual número de categorías: no puede clasificar uno de ellos en cierto/falso y el otro en cierto/falso/indeterminado.



En la imagen adjunta hay concordancia en las celdas con círculos rojos: ambos métodos (o jueces) dicen que sí para las observaciones de la celda superior izquierda y ambos dicen que no para la celda inferior izquierda.

En cambio hay discordancias en las celdas no resaltadas: uno dice que sí y el otro que no.

Aún si uno de los jueces dijera que sí o que no al azar habría concordancias: por eso la Kappa de Cohen mide las concordancias por encima de lo esperable por azar.

¿Cuando la concordancia se considera convencionalmente buena? Cuando Kappa alcanza 0,6 o más. El máximo teórico posible es +1. Si ambos jueces establecieran medidas al azar esperaríamos una concordancia de 0.


Nótese que aquí se están midiendo las concordancias entre DOS métodos o jueces cada uno de los cuales califica a todos las unidades de la base: si fueran más jueces o técnicas habría que hacer un análisis llamado KAPPA DE FLEISS, que no se ve aquí.

Y si las categorías en que clasifican los métodos o los jueces fuesen ordinales, habría que emplear una variante: la KAPPA PONDERADA.




***

Material de lectura sobre Kappa de Cohen en SPSS:

https://statistics.laerd.com/spss-tutorials/cohens-kappa-in-spss-statistics.php#procedure

***

Videos sobre Kappa de Cohen en SPSS:

https://www.youtube.com/watch?v=Bo1gVbmWQs8


https://www.youtube.com/watch?v=fOR_8gkU3UE&index=2&list=PLDDIF8TO8p9ukK77CfG1JA6f-ooy4H-GP




jueves, 10 de diciembre de 2015

Ejercicio sobre relaciones bivariadas (sin soluciones). Base de Personas de ECH 2014


Ejercicio que explora los ingresos por ocupación principal de hombres y mujeres, la cantidad de horas trabajadas por ambos sexos, el tamaño de las empresas en que trabajan, la categoría de la ocupación, etc.


https://drive.google.com/open?id=1EXYJyhF95RyShv3xJd4lOVSDrWcdIPx6

lunes, 30 de noviembre de 2015

Ejercicio de Selección de casos, Recodificación y Relaciones bivariadas. Video.


Sigue un ejercicio en donde se aplica recodificación, selección de casos y relaciones bivariadas.

El problema, la base y el vídeo no pueden ser vistos directamente en línea. Forman parte de un archivo rar que debe ser descargado y abierto en la computadora del lector.

La idea es que se haga el ejercicio sin consultar con el vídeo, y luego, después de hecho, si se desea revisar, se consulte el vídeo.


https://drive.google.com/open?id=0B9C7VyfotFyJQ2dYZzYxYnA1VWs





miércoles, 25 de noviembre de 2015

Relaciones bivariadas (Ejercicio sin soluciones). Archivo Gss93_subset.sav


En el ejercicio adjunto se solicita explorar distintas relaciones bivariadas gráficamente y numéricamente, y también en lo que hace a significación y fuerza de los efectos.

Se trabaja con el archivo Gss93 subset.sav.



https://drive.google.com/open?id=0B9C7VyfotFyJQ0czeGxHUXF6NDQ



viernes, 20 de noviembre de 2015

Ejercicio de relaciones bivariadas, previa exploración univariada (sin soluciones). Archivo GSS.sav


Ejercicio en donde se analizan relaciones bivariadas entre variables nominales, entre variables nominales y de escala, y entre variables de escala.

Se estudian las relaciones gráfica y numéricamente, previa exploración univariada.

Se trabaja con un archivo bajado de internet de la General Social Survey (GSS).



https://drive.google.com/file/d/0B9C7VyfotFyJak9ocVY2czhDZkU/view?usp=sharing

jueves, 19 de noviembre de 2015

Relaciones lineales entre dos variables. Diagramas de dispersión y r de Pearson. Video


Se muestran relaciones entre tiempo de reacción, puntajes alcanzados en varios juegos relacionados con la velocidad de reacción, y con la inteligencia emocional.

Se muestran diagramas de dispersion y sus correspondientes r de Pearson.

Se ven matrices de dispersión y de correlación.


https://drive.google.com/open?id=1en1etWZhQC-7EOJ1NoOUZdWA4WTH3CfZ

lunes, 16 de noviembre de 2015

Relación entre dos variables ordinales: sensación de seguridad y delitos recibidos. Problema con solución escrita.


En el problema adjunto, se estudia la relación entre dos variables categóricas ordinales: sensación de seguridad o inseguridad y cantidad de delitos de los cuales se fue víctima en los últimos 5 años.

Se analizan tablas de contingencia y finalmente se interpreta el coeficiente Tau C, que mide la fuerza de la asociación entre dos variables ordinales.

Se obtiene el mejor resultado desde el punto de vista del aprendizaje intentando solucionar primero el problema, para recién luego comparar las soluciones.



Problema

Solución

domingo, 15 de noviembre de 2015

Ejercicios (sin solución) de lectura de tablas de contingencia


Se presentan dos ejercicios de lectura de tablas de contingencia.

Uno de ellos pide múltiples lecturas de una misma tabla. El otro pide el análisis de una relación causal entre dos variables.



https://drive.google.com/file/d/0B9C7VyfotFyJVXNGbkpweGtRZGs/view?usp=sharing

https://drive.google.com/file/d/0B9C7VyfotFyJWjM3dUVUcVBYQ3c/view?usp=sharing

sábado, 14 de noviembre de 2015

Tablas de Contingencia. Ejercicio resuelto. Video.



Las tablas de contingencia que vinculan a dos variables categóricas, es usual pedirlas de tal forma que muestren recuentos o bien porcentajes.

Si nos interesan los números absolutos que caen en las distintas celdas, pediremos recuentos.

Si nos interesa estudiar si se dan ciertas relaciones causales, lo habitual es que pongamos la variable independiente en las columnas, la dependiente en las filas, y que pidamos porcentajes por columna para luego comparar.

Si lo que deseamos saber es qué porcentaje de casos cae en cada una de las celdas, sobre la base del total de la población, pediremos porcentajes sobre el total.

Si nos interesa saber de cada 100 personas que tuvieron un cierto efecto, cuántas caen en cada presunta categoría causal, pediremos porcentaje por fila.

La tabla de contingencia que utilizaremos depende estrictamente de la pregunta o preguntas que deseemos contestar.

El ejercicio simula datos sobre adolescentes que quedaron o no embarazadas en tres barrios distintos de una localidad. Se hacen distintas preguntas sobre barrios y embarazos.



https://drive.google.com/file/d/0B9C7VyfotFyJVm9Yc01laVFUWkk/view?usp=sharing

martes, 10 de noviembre de 2015

Relaciones bivariadas (sin tests de significación ni medidas de fuerza). Video.

Las relaciones bivariadas son relaciones entre dos variables.

Las formas en que se describen estas relaciones, ya sean numéricas o gráficas, dependen en gran medida de sus niveles de medición.

Las variables nominales u ordinales se trabajan, en gran medida, de manera similar. A estas variables las llamaremos categóricas, porque presentan un número limitado de categorías. El otro gran tipo de variables es el de escala.


Los gráficos más frecuentes son:

Categórica - Categórica ............................ Barras agrupadas.
Categórica - Escala ................................... Diagrama de caja y barras de error de la media.
Escala - Escala .......................................... Diagrama de dispersión.



Los resúmenes numéricos más habituales son:

Categórica - Categórica ............................ Tablas de frecuencias y de porcentajes.

Categórica - Escala ..................................  Media, o mediana, o resumen de 5 puntos para cada categoría

Escala - Escala .......................................... r de Pearson para medir la fuerza de la asociación -si es lineal. También puede pedirse una ecuación de regresión lineal.


Una descripción más detallada de estas relaciones podría incluir pruebas de asociación y medidas de fuerza, pero no están incluidas en este vídeo.

Este vídeo no puede verse en línea, pero puede ser descargado junto con la base usada y ser visto en las computadoras de quienes lo descarguen.


https://drive.google.com/open?id=0B9C7VyfotFyJd0RzS05McXRoSDQ




viernes, 6 de noviembre de 2015

Ejercicio de cálculo con y sin condiciones, y selección de casos. Precios alquileres. Con solución escrita.


Ejercicio sobre precios inmobiliarios y selección de casos.

Se invita a intentar resolver el problema antes de consultar la solución.



Problema

Solución

martes, 3 de noviembre de 2015

Cálculo de factores de riesgo (sin solución)


El ejercicio que sigue simula la situación de un viejo médico tratando de evaluar si da pase a cardiólogo o no, según una serie hipotética de factores de riesgo.



https://drive.google.com/open?id=0B9C7VyfotFyJWGtiWldsaFN0MWs

lunes, 26 de octubre de 2015

domingo, 25 de octubre de 2015

Ejercicio de cálculo y cálculo condicional (sin solución)


Ejercicio para ser hecho por los estudiantes. Temática: hogares reciben bonificaciones, pagan impuestos, etc. según condiciones.

https://drive.google.com/file/d/0B9C7VyfotFyJTDZYQk9wb3JZRVk/view?usp=sharing

martes, 20 de octubre de 2015

Ejercicio de cálculo del índice de Pittsburgh (sin solución)



El presente ejercicio pide el cálculo de un índice de calidad del sueño utilizado por los neurólogos.

Es por tanto un índice real, y muestra las operaciones de cálculo que estos índices demandan. Los datos son simulados.

La dificultad del ejercicio es de media a media-alta.



https://drive.google.com/file/d/0B9C7VyfotFyJaUYtbWZxSWt0UGc/view?usp=sharing

jueves, 15 de octubre de 2015

Problema de construcción de indice: Global Hunger Index (ejercicio no resuelto).

Según se puede leer en Internet,

"The Global Hunger Index (GHI) is a multidimensional statistical tool used to describe the state of countries'hunger situation. The GHI measures progress and failures in the global fight against hunger. The GHI is updated once a year."

En este ejercicio se adjunta un documento original explicando la metodología de cálculo del índice.


Se anexa además una base simulada y un documento que plantea ejercicios de cálculo. El documento contiene también una traducción al español la metodología.



https://drive.google.com/file/d/0B9C7VyfotFyJSGticUFmZENKUTA/view?usp=sharing


lunes, 12 de octubre de 2015

Ejercicio de formación de índice de calidad hospitalaria. Con solución escrita.


Ejercicio de formación de índice de calidad hospitalaria, que exige la inversión de algunos índices, y estandarizaciones z y 01.


Ejercicio

Solución

domingo, 11 de octubre de 2015

Ejercicio de formación de Indice de electrodomésticos (sin solución). Base de Hogares de la ECH 2014


En el ejercicio adjunto se solicita que se forme un índice de tenencia de electrodomésticos de los hogares, y se analice la correlación con los ingresos totales del hogar.

https://drive.google.com/open?id=0B9C7VyfotFyJY2lJOV9UUHlodmM

sábado, 10 de octubre de 2015

Tres ejercicios sobre índices (sin solución)


El primer ejercicio es sobre un índice a formar con ítems de igual sentido e igual escala.

https://drive.google.com/file/d/0B9C7VyfotFyJSXJVUnFVNURzMVU/view?usp=sharing







El segundo ejercicio es sobre un índice con ítems de distinto sentido e igual escala.

https://drive.google.com/file/d/0B9C7VyfotFyJaHpPSUV6el9aVnM/view?usp=sharing





El tercer ejercicio es sobre un índice a formar con ítems de igual sentido y distintas escalas

https://drive.google.com/file/d/0B9C7VyfotFyJdnV5a2I2N005WGM/view?usp=sharing

miércoles, 30 de septiembre de 2015

Indices: distintas escalas. Video.


En ocasiones deseamos formar un índice a partir de varios ítems y estos tienen rangos de variación muy distintos (unos varían mucho y otros poco).

En estas circunstancias, si promediamos el que pesa más el que varía más. Si un ítem varía poco prácticamente es como si no existiera.

Si el deseo del investigador es que todos los ítems pesen igual (y este es un deseo bastante usual), hay que modificar los índices matemáticamente para que varíen de forma similar.

Veremos en el video dos formas típidas de hacerlo: con la estandarización Z y con la estandarización 0-1.

Luego calcularemos índices en base a ambas estandarizaciones y veremos hasta donde ordenan los casos de manera similar o no.


https://drive.google.com/file/d/0B9C7VyfotFyJZXhSQnVDbXZHVnM/view?usp=sharing

viernes, 25 de septiembre de 2015

Indice con ítems en distintos sentidos e igual escala. Video.


En el vídeo adjunto, se muestran varios ítems tales que el acuerdo con ellos indica insatisfacción laboral, y un ítem en sentido inverso: el acuerdo imdica satisfacción.

O sea, el puntaje alto casi siempre indica insatisfacción, pero en un ítem es el puntaje bajo que indica insatisfacción.

Para calcular el ítem hay que invertir el que va en sentido contrario a los demás. Aquí los valores van del 1 al 7.

Habrá que calcular un ítem_invertido tal que, cuando el ítem original valga 1, el ítem invertido valga 7; cuando el ítem original valga 2, el invertido valga 6..... y finalmente, cuando el ítem original valga 7 el invertido valga 1.

Finalmente calculamos el índice promedio o el índice sumatorio.  El promedio es sencillo de calcular.

Si se desea trabajar con la suma, es mejor sustituirla por el promedio y multiplicarlo por el número de ítems. Es equivalente a la suma si hay valores válidos en todos los casos. Y si faltan algunos ítems, esta forma de calcular parece mejor.





https://drive.google.com/file/d/0B9C7VyfotFyJend2LVJHSlg4dDA/view?usp=sharing

domingo, 20 de septiembre de 2015

Indice. Igual sentido de los ítems. Igual Escala. Video.


En el vídeo adjunto se muestra cómo crear un índice que resuma la información de varios ítems.

Aquí se han puesto 5 afirmaciones supersticiosas y se pide el grado de acuerdo con dichas afirmaciones, donde 1 significa total desacuerdo y 7 significa total acuerdo.

Nótese que para todos y cada uno de los ítems más acuerdo significa más prejuicio: todos los ítems tienen igual sentido.

Nótese también que todos los ítems van del 1 al 7: todos tienen igual escala de variación.

Para construir un índice podemos hacerlo:

a) pidiendo el promedio

b) pidiendo la suma.


¿Qué haremos en el ejercicio con los casos que no tienen toda la información? En el ejercicio calcularemos el índice si hay por lo menos 3 valores válidos. Si tiene menos de 3 no lo calcularemos y el índice arrojará un valor faltante.

Con el total hay que tener cuidado, porque los datos faltantes bajan la suma artificialmente, pero esto tiene solución. Puede ver cómo en el vídeo.



https://drive.google.com/file/d/0B9C7VyfotFyJZEVYbFAxbXFwUTg/view?usp=sharing

martes, 15 de septiembre de 2015

Recodificación de variables numéricas. Video.

La recodificación de variables es una operación básica en el análisis de datos. Generalmente se realiza en otras variables, a fin de no sobreescribir la variable original.

En el video se muestra la recodificación de variables categóricas (nominales u ordinales) y de variables de escala. El procedimiento más flexible es la llamada recodificación en distintas variables.

También se muestran la recodificación de variables de escala en un cierto número de "ntiles" (cuartiles, quintiles, deciles, etc.) y el uso del agrupador visual, muy útil este cuando queremos dividir en gran número de categorías.

El video puede verse en línea en
 https://drive.google.com/open?id=0B9C7VyfotFyJUEJKV0ZuMEZvekE



lunes, 7 de septiembre de 2015

Ejercicio de cálculo con condiciones. Tema: elección de película. (Con solución escrita)


Corra la sintaxis entre asteriscos y resaltada en amarillo. Se generará una base de datos.

Para esto en Spss vaya a Archivo, Nuevo, Sintaxis, copie el contenido entre asteriscos y ejecute.



********************************************.
INPUT PROGRAM.
LOOP PeliculaNro=1 TO 400.
END CASE.
END LOOP.
END FILE.
END INPUT PROGRAM.

set seed = 7998.
compute aleat = rv.uniform(0,1).
string genero (a15).
if range (aleat, 0, 0.10) genero = "terror".
if range (aleat, 0.10, 0.25) genero = "policial".
if range (aleat, 0.25, 0.40) genero = "lejano oeste".
if range (aleat, 0.40, 0.60) genero = "romantico".
if range (aleat, 0.60, 0.80) genero = "guerra".
if range (aleat, 0.80, 1) genero = "comedia".


compute duracion_minut = trunc (rv.uniform(60,140)).
compute nacionalidad_director = trunc(rv.uniform(1,8)).
value labels nacionalidad_director 1 "inglés" 2 "norteamericano" 3 "indio" 4 "chino" 5 "latinoamericano" 6 "turco" 7 "otro".
Compute entradas_vendidas = trunc(rv.uniform(5000000, 15000000)).
compute recibio_premios = rv.uniform(0,1) < 0.70.
value labels recibio_premios 1 "Sí" 0 "No".
execute.
delete variables aleat.
execute.

********************************************.



La base de datos generada simula las películas a las que pueden acceder tres amigos.



  1. El primero, Mario, desea ver una película que no sea de guerra, y con un director que no sea inglés ni norteamericano. ¿Cuántas películas son aceptables para Mario?
  2. El segundo, Alberto, desea una película que se encuentre en el primer tercil de duración, es decir que sea relativamente corta. ¿Cuántas películas son aceptables para Alberto?
  3. El tercero, Miguel, quiere ver una película que tenga premios, y que dure entre 70 y 100 minutos (ambos extremos incluidos). ¿Cuántas películas son aceptables para Miguel?
  4. Los tres amigos confeccionan una lista con las películas aceptables para los tres, y de ellas eligen la que vendió más entradas. ¿Qué película verán, identificada por su número, cuál fue su género, duración y la nacionalidad de su director?






+++++++++++++++++++ Mi solución +++++++++++++++++++



domingo, 6 de septiembre de 2015

martes, 1 de septiembre de 2015

El asesino del picahielo. Ejercicio de cáculo 0-1. Solución en video.

Ejercicio para identificar a personas que cumplen distintas condiciones, resoluble con cálculo 0-1.

Se invita a intentar resolverlo antes de mirar la solución: esto da el máximo rendimiento desde el punto de vista del aprendizaje.


Base y letra del problema

Solución en video

domingo, 30 de agosto de 2015

Cálculo 0 - 1. Video.

En este curso llamo "cálculo 0 - 1" a la creación de una nueva variable igualándola a una condición.

Por ejemplo, podemos tener una variable Sexo que tiene dos categorías: 1 para "hombre" y 2 para mujer.

Si calculamos una nueva variable, que podemos llamar Mujer, poniendo
compute mujer = (sexo = 2).
le estamos diciendo a SPSS que la nueva variable toma el valor de una condición que puede ser cierta o falsa. Para cada renglón la condición sexo = 2 puede cumplirse o no. En estos cálculos, cuando la condición se cumple, la nueva variable, en este caso Mujer, toma el valor 1, en caso de que no se cumpla toma el valor 0.

Un segundo ejemplo: Si en nuestra base tenemos la variable Partido_que_Votó, con las categorías de respuesta 1 "FA", 2 "PN", 3 "PC", 4 "PI" y 5 "AP", podriamos calcular una nueva variable llamada frenteamplista así:
compute frenteamplista = (Partido_que_Votó = 1).

Para los que votaron al FA, la condición es cierta y la nueva variable tomará el valor 1. Para el resto de los casos, la condición es falsa y la nueva variable tomará el valor 0.

En resumen, si calculamos una nueva variable y decimos que es igual a una condición, va a poner 1 o 0. Pondrá 1 si la condición es cierta, y 0 si es falsa.

El video que sigue detalla esta forma de cálculo.

https://drive.google.com/open?id=0B9C7VyfotFyJZXZic2lYNk0xUUE





sábado, 29 de agosto de 2015

Ejercicio sobre curva Roc. Sin solución

Se presenta base con pacientes con tumores y dos potenciales marcadores que se pide sean comparados.


Ejercicio

viernes, 28 de agosto de 2015

Curvas ROC. Video

Las curvas ROC sirven para evaluar pruebas diagnósticas continuas de enfermedades dicotómicas (si/no). Grafican la sensibilidad versus los falsos positivos para distintos puntos de corte posibles.

Por ejemplo, podemos pensar que un marcador tumoral nos va a servir para predecir adecuadamente la presencia o no presencia de un tumor. La curva Roc, a través de la AUC (área bajo la curva), nos permite saber si es un buen marcador o no.

En términos convencionales, según su AUC, un test es:
  • .90-1 = excelente
  • .80-.90 = bueno 
  • .70-.80 = razonable
  • .60-.70 = pobre
  • .50-.60 = inadecuado
La curva ROC nos sirve, además para elegir el mejor punto de corte. A veces podemos buscar maximizar simultáneamente la sensibilidad y la especificidad, o a veces, según criterios médicos, podemos darle prioridad a una sobre la otra.


martes, 25 de agosto de 2015

Variables del tipo "tiempo hasta el evento" Video.



Hay un tipo de variables especiales que requiere dos columnas en SPSS: son las llamadas "tiempo hasta el evento" o "tiempo al evento".

El evento puede ser de muy distinto orden, aunque se verá primero un caso de supervivencia, porque al menos en medicina se emplea con mucha frecuencia para analizar supervivencia.

En nuestro ejemplo habrá dos variables: una que nos dice cuanto tiempo pasa hasta un evento (muerte en nuestro caso) a partir de un cierto momento (infarto).

Pero no en todos los casos se producirá la muerte. A veces se producirá, y esto lo marcaremos con un 1 en una segunda variable que llamaremos evento. A veces no se producirá, y esto lo marcaremos con un 0.

¿Por qué no se produce el evento muerte en nuestro ejemplo? Básicamente por dos razones: la primera es que se produce el fin del estudio y la persona sigue viva, y la segunda que alguna gente fue observada pero luego "se perdió de vista". Por ejemplo, el infartado que veníamos estudiando se fue del país. Estas observaciones en las que no se produce el evento se llaman "observaciones censuradas".

¿Cómo se describe gráficamente un cierto tiempo hasta el evento? Una de las maneras más habituales es mediante el gráfico de Kaplan Meier.

También pueden usarse cuartiles de supervivencia: cuanto tiempo pasa para que fallezca por ejemplo el 25 % y sobreviva exactamente el 75 %. Pueden usarse otros cuartiles (mediana y percentil 25).

Estos análisis de tiempo hasta el evento pueden usarse también en ciencias sociales. Por ejemplo, podemos hacer un estudio de reincidencia en el delito de presos liberados. ¿Cuánto tiempo pasa antes de que hayan reincidido el 10%, o el 25%, etc.? Aquí habrá observaciones censuradas: algunos no reincidirán, al menos durante la duración del estudio y otros serán perdidos de vista.

Y también puede usarse para eventos favorables. ¿Cuánto tiempo pasa para que una pareja recién formada tenga su primer hijo? Nuevamente habrá observaciones censuradas: parejas que no tienen hijos durante la duración del estudio o que se disuelven antes de tener algun hijo.


En el video se muestra el aspecto de estas variables que requieren dos columnas, y la forma en que se describen en SPSS.



https://drive.google.com/file/d/0B9C7VyfotFyJMGdrSlRnNldKWG8/view?usp=sharing

jueves, 20 de agosto de 2015

¿Puede ser tratada una distribución como aproximadamente normal? Pequeño texto.





Hay diversas pruebas estadísticas que pueden ser aplicadas si una distribución es "aproximadamente normal".

Pero no es unívoco a qué llamamos "aproximadamente normal".





Métodos gráficos


Algunos estadísticos se inclinan por una inspección gráfica de la muestra. Si el histograma es aproximadamente simétrico y unimodal, algo acampanado, les alcanza para decir que proviene de una población aproximadamente normal, o al menos para no descartar la hipótesis nula de normalidad de la población.

Otros estadísticos piden curvas QQplot y PPplot, que grafican percentiles esperados para una distribución normal y los percentiles observados en nuestra muestra. Si la nube de puntos no se aleja demasiado de la diagonal y si no hay outliers extremos, damos la distribución por normal. En SPSS las curvas QQplot y PPplot pueden ser encontradas en Analizar, Estadísticos descriptivos, gráficos PP y QQ.

¿Qué es una distribución no normal? Esencialmente distribuciones bimodales o trimodales,  distribuciones fuertemente sesgadas, ya sea a izquierda o a derecha, o distribuciones con outliers muy marcados.







Métodos que usan el coeficiente de asimetría o de curtosis.


Hay autores que deciden tratar a una curva como normal o no según sean sus medidas de asimetría y curtosis. En SPSS se pueden pedir estas medidas así: Analizar, Estadísticos descriptivos, Explorar.

Ahora bien, ¿qué es aproximadamente normal? Parecen haber grandes diferencias entre autores.

Encuentro en la red una propuesta de considerar normal una distribución si ambos coeficientes caen en el entorno de ± 0.5: 

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente 

(Tomado de http://www.spssfree.com/curso-de-spss/analisis-descriptivo/medidas-de-distribucion-curtosis-asimetria.html).

**

En cambio, otros autores usan los límites de ± 1 y de ± 2 para las medidas de asimetría y curtosis. Hasta 1 muy bueno, al menos para cálculos psicométricos y hasta 2 aceptable. 

    Measures of the shape of the distribution

    (measures of the deviation from normality)

    • Kurtosis: a measure of the "peakedness" or "flatness" of a distribution. A kurtosis value near zero indicates a shape close to normal. A negative value indicates a distribution which is more peaked than normal, and a positive kurtosis indicates a shape flatter than normal. An extreme positive kurtosis indicates a distribution where more of the values are located in the tails of the distribution rather than around the mean. A kurtosis value of +/-1 is considered very good for most psychometric uses, but +/-2 is also usually acceptable.
    • Skewness: the extent to which a distribution of values deviates from symmetry around the mean. A value of zero means the distribution is symmetric, while a positive skewness indicates a greater number of smaller values, and a negative value indicates a greater number of larger values. Values for acceptability for psychometric purposes (+/-1 to +/-2) are the same as with kurtosis.

(Tomado de http://psychology.illinoisstate.edu/jccutti/138web/spss/spss3.html)




Métodos que usan pruebas de significación para establecer normalidad.

Spss ofrece hacer pruebas de significación para intentar rechazar la hipótesis nula de distribución normal (Analizar, Estadísticos Descriptivos, Explorar, Gráficos, Gráficos con pruebas de normalidad). Las pruebas realizadas son las de Kolmogorov-Smirnov y la de Shapiro-Wilk.

Pero estas pruebas también tienen sus inconvenientes. Si la muestra es muy chica, aunque sea extraída de una distribución nada normal, es probable que la prueba no alcance los umbrales de significatividad (La prueba "no está segura" de rechazar la hipótesis nula de normalidad simplemente porque la muestra es muy chica).

Las pruebas de significación tampoco funcionan bien con las muestras grandes. Si una muestra está apenas alejada de lo normal, pero la muestra es de gran tamaño, la prueba de significación puede "estar segura" de que la distribución no es perfectamente normal. Y aunque nuestra muestra no fuese exactamente normal, es muy probable que pudiese recibir tests que tengan entre sus premisas la normalidad.





Métodos combinados

Hay autores que recomiendan la inspección visual y una prueba de significación. Entre Kolmogorov Smirnov y Shapiro-Wilk, le dan prioridad a la última por considerarla más sensible.




En conclusión:


Hay varias formas para expedirse sobre la normalidad aproximada de una muestra. Ninguna es totalmente satisfactoria en todas las circunstancias. Ni la gráfica, ni las pruebas de significación, ni los valores de asimetría y curtosis.

Ante la duda acerca de la normalidad de una población de la cual se extrae una muestra, podemos analizarla de dos formas distintas: como si procediera de una población normal y como si viniese de una población no normal. Si se arriba a conclusiones similares en ambos análisis, deja de ser importante si es normal o no.

En otras ocasiones lo mejor es fijarse en el área específica que se está trabajando. Si se desea hacer un indicador en psicología, habría que ver qué criterios usan quienes arman indicadores en psicología.












sábado, 15 de agosto de 2015

Análisis univariado. Ejercicio (sin soluciones) sobre el Archivo de Personas de la ECH


 En este ejercicio se piden descripciones univariadas de variables continuas y categóricas.

También se piden descripciones de variables tales que sólo recogen información en algunos casos. Por ejemplo, una de las preguntas a mujeres mayores de 14 años es cuántos hijos tuvieron nacidos vivos. Estas preguntas no se hacen a hombres ni a mujeres de 14 años o menos. ¿Cómo maneja la ECH estas situaciones.

El archivo adjunto contiene una base recortada de personas de la ECH 2014, un cuestionario para poder entender bien qué se preguntó, un libro de códigos y un archivo de texto con las preguntas a contestar.


https://drive.google.com/file/d/0B9C7VyfotFyJOTc1TkZJRnMwcTA/view?usp=sharing

lunes, 10 de agosto de 2015

Ejercicio de análisis univariado. Video.



Se adjuntan a este mail una base de datos y la letra de un ejercicio. También se adjunta un vídeo con la solución,

Se lo invita a que descargue a su computadora los archivos adjuntos. A partir de la base y el documento .doc podrá hacer el ejercicio por usted mismo. Luego, si lo desea, verifique su solución viendo el vídeo.

https://drive.google.com/open?id=0B9C7VyfotFyJX1c5Q2RGZl83Uzg

miércoles, 5 de agosto de 2015

Análisis Univariado. Video.

La expresión análisis univariado alude al análisis de variables "sueltas", esto es, se estudian las variables de a una sin ver, en esta etapa, su conexión con otras.

En el análisis univariado tenemos dos grandes caminos, que trabajan juntos: el gráfico y el numérico. ¿Qué gráficas? Dependen del nivel de medición. ¿Qué medidas de resumen numérico? Dependen del nivel de medición.

No es lo mismo representar una variable categórica (nominal u ordinal) que una variable de escala.

El siguiente video alude al tema y puede verse en línea:

https://drive.google.com/open?id=0B9C7VyfotFyJWVp3VTNfN0k1bTg

domingo, 2 de agosto de 2015

Importación de datos desde Excel, con conversión de fechas. Video


En este video se importarán datos desde una planilla un tanto atípica

Además de los nombres de variables y datos hay títulos, y por tanto es necesario especificar desde donde a donde van los nombres de las variables y los datos.

Además se muestra cómo se resuelve un problema habitual al pasar de Excel a SPSS: las fechas de Excel que se ven como números de cinco cifras en SPSS.

Lo anticipo aquí: se usa esta sintaxis:

DO REPEAT d= var_fecha1 var_fecha2 var_fecha3 var_fecha4.
COMPUTE d= date.mdy(1,1,1900) + ((d-2)*24*60*60).
END REPEAT print.
DO REPEAT d=var_fecha1 var_fecha2 var_fecha3 var_fecha4.
FORMATS d(date14).
END REPEAT print.







En el video se utiliza la base adjunta.


Base

Video

sábado, 1 de agosto de 2015

Importación de fechas desde Excel: con frecuencia dan problemas

Cuando se importan fechas desde Excel, es habitual que aparezcan en SPSS como un dígito de 5 números, unas veces en formato numérico y otras en formato cadena.

La manera de solucionarlo es, si las variables están en formato de cadena, pasarlas a formato numérico. Una manera es con el comando alter type, por ejemplo:

Alter type varCadena (f8).

 Aquí la variable varCadena es transformada en numérica, con un largo de 8: eso hace el  (f8).


****************************

Si el problema fuera con una sola variable de fecha, que aparece como un número de 5 dígitos, hacemos:

COMPUTE Var1 = date.mdy(1,1,1900) + ((Var1 - 2) *24*60*60).


FORMATS Var1 (date14).


Execute.

****************************

Si tenemos varias variables de fecha que no se han leído bien desde Excel sino como números de 5 dígitos, hacemos:


DO REPEAT d= Var1 Var2 Var3 Var4.
COMPUTE d= date.mdy(1,1,1900) + ((d-2)*24*60*60).
END REPEAT print.

DO REPEAT d= Var1 Var2 Var3 Var4.
FORMATS d(date14).
END REPEAT print.


Execute.

****************************