domingo, 30 de agosto de 2015

Cálculo 0 - 1. Video.

En este curso llamo "cálculo 0 - 1" a la creación de una nueva variable igualándola a una condición.

Por ejemplo, podemos tener una variable Sexo que tiene dos categorías: 1 para "hombre" y 2 para mujer.

Si calculamos una nueva variable, que podemos llamar Mujer, poniendo
compute mujer = (sexo = 2).
le estamos diciendo a SPSS que la nueva variable toma el valor de una condición que puede ser cierta o falsa. Para cada renglón la condición sexo = 2 puede cumplirse o no. En estos cálculos, cuando la condición se cumple, la nueva variable, en este caso Mujer, toma el valor 1, en caso de que no se cumpla toma el valor 0.

Un segundo ejemplo: Si en nuestra base tenemos la variable Partido_que_Votó, con las categorías de respuesta 1 "FA", 2 "PN", 3 "PC", 4 "PI" y 5 "AP", podriamos calcular una nueva variable llamada frenteamplista así:
compute frenteamplista = (Partido_que_Votó = 1).

Para los que votaron al FA, la condición es cierta y la nueva variable tomará el valor 1. Para el resto de los casos, la condición es falsa y la nueva variable tomará el valor 0.

En resumen, si calculamos una nueva variable y decimos que es igual a una condición, va a poner 1 o 0. Pondrá 1 si la condición es cierta, y 0 si es falsa.

El video que sigue detalla esta forma de cálculo.

https://drive.google.com/open?id=0B9C7VyfotFyJZXZic2lYNk0xUUE





sábado, 29 de agosto de 2015

Ejercicio sobre curva Roc. Sin solución

Se presenta base con pacientes con tumores y dos potenciales marcadores que se pide sean comparados.


Ejercicio

viernes, 28 de agosto de 2015

Curvas ROC. Video

Las curvas ROC sirven para evaluar pruebas diagnósticas continuas de enfermedades dicotómicas (si/no). Grafican la sensibilidad versus los falsos positivos para distintos puntos de corte posibles.

Por ejemplo, podemos pensar que un marcador tumoral nos va a servir para predecir adecuadamente la presencia o no presencia de un tumor. La curva Roc, a través de la AUC (área bajo la curva), nos permite saber si es un buen marcador o no.

En términos convencionales, según su AUC, un test es:
  • .90-1 = excelente
  • .80-.90 = bueno 
  • .70-.80 = razonable
  • .60-.70 = pobre
  • .50-.60 = inadecuado
La curva ROC nos sirve, además para elegir el mejor punto de corte. A veces podemos buscar maximizar simultáneamente la sensibilidad y la especificidad, o a veces, según criterios médicos, podemos darle prioridad a una sobre la otra.


martes, 25 de agosto de 2015

Variables del tipo "tiempo hasta el evento" Video.



Hay un tipo de variables especiales que requiere dos columnas en SPSS: son las llamadas "tiempo hasta el evento" o "tiempo al evento".

El evento puede ser de muy distinto orden, aunque se verá primero un caso de supervivencia, porque al menos en medicina se emplea con mucha frecuencia para analizar supervivencia.

En nuestro ejemplo habrá dos variables: una que nos dice cuanto tiempo pasa hasta un evento (muerte en nuestro caso) a partir de un cierto momento (infarto).

Pero no en todos los casos se producirá la muerte. A veces se producirá, y esto lo marcaremos con un 1 en una segunda variable que llamaremos evento. A veces no se producirá, y esto lo marcaremos con un 0.

¿Por qué no se produce el evento muerte en nuestro ejemplo? Básicamente por dos razones: la primera es que se produce el fin del estudio y la persona sigue viva, y la segunda que alguna gente fue observada pero luego "se perdió de vista". Por ejemplo, el infartado que veníamos estudiando se fue del país. Estas observaciones en las que no se produce el evento se llaman "observaciones censuradas".

¿Cómo se describe gráficamente un cierto tiempo hasta el evento? Una de las maneras más habituales es mediante el gráfico de Kaplan Meier.

También pueden usarse cuartiles de supervivencia: cuanto tiempo pasa para que fallezca por ejemplo el 25 % y sobreviva exactamente el 75 %. Pueden usarse otros cuartiles (mediana y percentil 25).

Estos análisis de tiempo hasta el evento pueden usarse también en ciencias sociales. Por ejemplo, podemos hacer un estudio de reincidencia en el delito de presos liberados. ¿Cuánto tiempo pasa antes de que hayan reincidido el 10%, o el 25%, etc.? Aquí habrá observaciones censuradas: algunos no reincidirán, al menos durante la duración del estudio y otros serán perdidos de vista.

Y también puede usarse para eventos favorables. ¿Cuánto tiempo pasa para que una pareja recién formada tenga su primer hijo? Nuevamente habrá observaciones censuradas: parejas que no tienen hijos durante la duración del estudio o que se disuelven antes de tener algun hijo.


En el video se muestra el aspecto de estas variables que requieren dos columnas, y la forma en que se describen en SPSS.



https://drive.google.com/file/d/0B9C7VyfotFyJMGdrSlRnNldKWG8/view?usp=sharing

jueves, 20 de agosto de 2015

¿Puede ser tratada una distribución como aproximadamente normal? Pequeño texto.





Hay diversas pruebas estadísticas que pueden ser aplicadas si una distribución es "aproximadamente normal".

Pero no es unívoco a qué llamamos "aproximadamente normal".





Métodos gráficos


Algunos estadísticos se inclinan por una inspección gráfica de la muestra. Si el histograma es aproximadamente simétrico y unimodal, algo acampanado, les alcanza para decir que proviene de una población aproximadamente normal, o al menos para no descartar la hipótesis nula de normalidad de la población.

Otros estadísticos piden curvas QQplot y PPplot, que grafican percentiles esperados para una distribución normal y los percentiles observados en nuestra muestra. Si la nube de puntos no se aleja demasiado de la diagonal y si no hay outliers extremos, damos la distribución por normal. En SPSS las curvas QQplot y PPplot pueden ser encontradas en Analizar, Estadísticos descriptivos, gráficos PP y QQ.

¿Qué es una distribución no normal? Esencialmente distribuciones bimodales o trimodales,  distribuciones fuertemente sesgadas, ya sea a izquierda o a derecha, o distribuciones con outliers muy marcados.







Métodos que usan el coeficiente de asimetría o de curtosis.


Hay autores que deciden tratar a una curva como normal o no según sean sus medidas de asimetría y curtosis. En SPSS se pueden pedir estas medidas así: Analizar, Estadísticos descriptivos, Explorar.

Ahora bien, ¿qué es aproximadamente normal? Parecen haber grandes diferencias entre autores.

Encuentro en la red una propuesta de considerar normal una distribución si ambos coeficientes caen en el entorno de ± 0.5: 

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente 

(Tomado de http://www.spssfree.com/curso-de-spss/analisis-descriptivo/medidas-de-distribucion-curtosis-asimetria.html).

**

En cambio, otros autores usan los límites de ± 1 y de ± 2 para las medidas de asimetría y curtosis. Hasta 1 muy bueno, al menos para cálculos psicométricos y hasta 2 aceptable. 

    Measures of the shape of the distribution

    (measures of the deviation from normality)

    • Kurtosis: a measure of the "peakedness" or "flatness" of a distribution. A kurtosis value near zero indicates a shape close to normal. A negative value indicates a distribution which is more peaked than normal, and a positive kurtosis indicates a shape flatter than normal. An extreme positive kurtosis indicates a distribution where more of the values are located in the tails of the distribution rather than around the mean. A kurtosis value of +/-1 is considered very good for most psychometric uses, but +/-2 is also usually acceptable.
    • Skewness: the extent to which a distribution of values deviates from symmetry around the mean. A value of zero means the distribution is symmetric, while a positive skewness indicates a greater number of smaller values, and a negative value indicates a greater number of larger values. Values for acceptability for psychometric purposes (+/-1 to +/-2) are the same as with kurtosis.

(Tomado de http://psychology.illinoisstate.edu/jccutti/138web/spss/spss3.html)




Métodos que usan pruebas de significación para establecer normalidad.

Spss ofrece hacer pruebas de significación para intentar rechazar la hipótesis nula de distribución normal (Analizar, Estadísticos Descriptivos, Explorar, Gráficos, Gráficos con pruebas de normalidad). Las pruebas realizadas son las de Kolmogorov-Smirnov y la de Shapiro-Wilk.

Pero estas pruebas también tienen sus inconvenientes. Si la muestra es muy chica, aunque sea extraída de una distribución nada normal, es probable que la prueba no alcance los umbrales de significatividad (La prueba "no está segura" de rechazar la hipótesis nula de normalidad simplemente porque la muestra es muy chica).

Las pruebas de significación tampoco funcionan bien con las muestras grandes. Si una muestra está apenas alejada de lo normal, pero la muestra es de gran tamaño, la prueba de significación puede "estar segura" de que la distribución no es perfectamente normal. Y aunque nuestra muestra no fuese exactamente normal, es muy probable que pudiese recibir tests que tengan entre sus premisas la normalidad.





Métodos combinados

Hay autores que recomiendan la inspección visual y una prueba de significación. Entre Kolmogorov Smirnov y Shapiro-Wilk, le dan prioridad a la última por considerarla más sensible.




En conclusión:


Hay varias formas para expedirse sobre la normalidad aproximada de una muestra. Ninguna es totalmente satisfactoria en todas las circunstancias. Ni la gráfica, ni las pruebas de significación, ni los valores de asimetría y curtosis.

Ante la duda acerca de la normalidad de una población de la cual se extrae una muestra, podemos analizarla de dos formas distintas: como si procediera de una población normal y como si viniese de una población no normal. Si se arriba a conclusiones similares en ambos análisis, deja de ser importante si es normal o no.

En otras ocasiones lo mejor es fijarse en el área específica que se está trabajando. Si se desea hacer un indicador en psicología, habría que ver qué criterios usan quienes arman indicadores en psicología.












sábado, 15 de agosto de 2015

Análisis univariado. Ejercicio (sin soluciones) sobre el Archivo de Personas de la ECH


 En este ejercicio se piden descripciones univariadas de variables continuas y categóricas.

También se piden descripciones de variables tales que sólo recogen información en algunos casos. Por ejemplo, una de las preguntas a mujeres mayores de 14 años es cuántos hijos tuvieron nacidos vivos. Estas preguntas no se hacen a hombres ni a mujeres de 14 años o menos. ¿Cómo maneja la ECH estas situaciones.

El archivo adjunto contiene una base recortada de personas de la ECH 2014, un cuestionario para poder entender bien qué se preguntó, un libro de códigos y un archivo de texto con las preguntas a contestar.


https://drive.google.com/file/d/0B9C7VyfotFyJOTc1TkZJRnMwcTA/view?usp=sharing

lunes, 10 de agosto de 2015

Ejercicio de análisis univariado. Video.



Se adjuntan a este mail una base de datos y la letra de un ejercicio. También se adjunta un vídeo con la solución,

Se lo invita a que descargue a su computadora los archivos adjuntos. A partir de la base y el documento .doc podrá hacer el ejercicio por usted mismo. Luego, si lo desea, verifique su solución viendo el vídeo.

https://drive.google.com/open?id=0B9C7VyfotFyJX1c5Q2RGZl83Uzg

miércoles, 5 de agosto de 2015

Análisis Univariado. Video.

La expresión análisis univariado alude al análisis de variables "sueltas", esto es, se estudian las variables de a una sin ver, en esta etapa, su conexión con otras.

En el análisis univariado tenemos dos grandes caminos, que trabajan juntos: el gráfico y el numérico. ¿Qué gráficas? Dependen del nivel de medición. ¿Qué medidas de resumen numérico? Dependen del nivel de medición.

No es lo mismo representar una variable categórica (nominal u ordinal) que una variable de escala.

El siguiente video alude al tema y puede verse en línea:

https://drive.google.com/open?id=0B9C7VyfotFyJWVp3VTNfN0k1bTg

domingo, 2 de agosto de 2015

Importación de datos desde Excel, con conversión de fechas. Video


En este video se importarán datos desde una planilla un tanto atípica

Además de los nombres de variables y datos hay títulos, y por tanto es necesario especificar desde donde a donde van los nombres de las variables y los datos.

Además se muestra cómo se resuelve un problema habitual al pasar de Excel a SPSS: las fechas de Excel que se ven como números de cinco cifras en SPSS.

Lo anticipo aquí: se usa esta sintaxis:

DO REPEAT d= var_fecha1 var_fecha2 var_fecha3 var_fecha4.
COMPUTE d= date.mdy(1,1,1900) + ((d-2)*24*60*60).
END REPEAT print.
DO REPEAT d=var_fecha1 var_fecha2 var_fecha3 var_fecha4.
FORMATS d(date14).
END REPEAT print.







En el video se utiliza la base adjunta.


Base

Video

sábado, 1 de agosto de 2015

Importación de fechas desde Excel: con frecuencia dan problemas

Cuando se importan fechas desde Excel, es habitual que aparezcan en SPSS como un dígito de 5 números, unas veces en formato numérico y otras en formato cadena.

La manera de solucionarlo es, si las variables están en formato de cadena, pasarlas a formato numérico. Una manera es con el comando alter type, por ejemplo:

Alter type varCadena (f8).

 Aquí la variable varCadena es transformada en numérica, con un largo de 8: eso hace el  (f8).


****************************

Si el problema fuera con una sola variable de fecha, que aparece como un número de 5 dígitos, hacemos:

COMPUTE Var1 = date.mdy(1,1,1900) + ((Var1 - 2) *24*60*60).


FORMATS Var1 (date14).


Execute.

****************************

Si tenemos varias variables de fecha que no se han leído bien desde Excel sino como números de 5 dígitos, hacemos:


DO REPEAT d= Var1 Var2 Var3 Var4.
COMPUTE d= date.mdy(1,1,1900) + ((d-2)*24*60*60).
END REPEAT print.

DO REPEAT d= Var1 Var2 Var3 Var4.
FORMATS d(date14).
END REPEAT print.


Execute.

****************************