Ese momento, donde la distribución no es normal ¡y nos aterrorizamos!

Bienvenidos todos, como se habrán percatado ya hemos visto una serie de temas, y en el post anterior aprendimos sobre la distribución normal. Esa montañita simpática que nos pone de buen humor porque permitirá que hagamos análisis “más precisos” (esto ya lo veremos luego en otros posts, con calma).

El capítulo pasado vimos qué era la distribución normal y cómo es que se puede identificar, los que no pudieron mirar el post o quieren un pequeño recordatorio, pueden ir al post de distribución normal y revisar. Dicho sea de paso, la respuesta al post anterior sobre si la nota “15” estaba por encima del promedio de la clase podrán encontrarlo en la parte de comentarios de este post.

Bueno, luego de la maravillosa introducción vamos a lo nuestro, el objetivo de este episodio de “estadística para todos” es conocer cuándo una distribución es no normal, además les presentaremos los conceptos de asimetría y curtosis. Ok, antes que lloren, salten y quieran salir corriendo tomen una manzanilla, respiren y sigan conmigo.

Primero que todo, una distribución es no normal cuando dentro de la distribución de todos los números, existen muchos valores que son bajos o altos y por ello, el promedio no está justo al medio de toda la distribución. Se los describo de manera distinta, cuando la distribución es normal, la montaña o distribución es perfectamente simétrica donde los valores más frecuentes, el promedio y la mediana están todas al medio (ver sobre la distribución normal). Cuando no se da esto, entonces la cima de la montaña no está al centro. Mejor pondré un par de ejemplos gráficos:

Untitled

Esta vendría a ser una distribución normal porque los valores están distribuidos simétricamente.

exhibit_3_2

Estas dos serían distribuciones no normales porque ambas montañas son asimétricas. En el primer caso, hay muchos valores (o una gran frecuencia de valores) hacia la izquierda y en el segundo caso hay muchos valores hacia la derecha. Esto está todo muy abstracto y raro, mejor vamos a un ejemplo:

En una universidad existen dos salones de estadística, el A y el B. Ambos salones hicieron el examen final del curso y luego de dos semanas el profesor entregó las notas y se percató de algo bien raro. En los salones, que están compuestos por 10 alumnos cada uno habían las siguientes notas:

Salón A: (06, 08, 08, 08, 09, 09, 10, 11, 12, 15). En este caso, el promedio del salón A es de 9.6 sobre 20, lo cual es bien bajo.

En cambio en el salón B, las notas fueron todo lo contrario: (10, 13, 14, 15, 16, 17, 17, 18, 19, 19). En este caso, el promedio del salón B es de 15.8, lo cual es bien alto.

Como los puntajes de una distribución siempre van de izquierda a derecha y de menos a más entonces, como en el salón A hay muchos puntajes bajos (06, 08, etc) el pico de la curva está al lado izquierdo. (Ver el primer dibujo del ejemplo de arriba). En cambio, en el salón B hay muchos puntajes altos (17, 18, 19), entonces el pico de la curva va hacia el lado derecho (ver el segundo dibujo del ejemplo de arriba).

Recuerden, mientras más se repite un puntaje o nota más alto es el pico de la montaña. Mientras menos se repita, la montañita será más baja.

¡Muy bien! ¿Asustados? ¡Nada! seguro están muy bien. Ahora vamos a la asimetría y la curtosis. Tengan siempre en mente los dibujos de la curva o distribución porque estos les permitirá tener una idea gráfica de estos estadísticos.

La asimetría es un indicador que te permite saber cuán asimétrica o no simétrica es la distribución de los puntajes o la curva. Esta puede ser tanto positiva como negativa. Cuando la asimetría es muy grande (mayor a 3) tanto positiva, como negativa entonces podemos decir que nuestra distribución es asimétrica. Si la asimetría es igual a 0 somos personas muy felices porque nuestra distribución es normal. 

Cuando la asimetría es positiva, entonces el tope de la montaña está al lado izquierdo, cuando es negativa entonces el tope de la montaña está al lado derecho. En otras palabras, la asimetría es positiva cuando el pie de la montaña está a la derecha y la asimetría es negativa cuando el pie de la montaña está a la izquierda.

Mejor vamos a un ejemplo gráfico:

En el caso del salón A habían muchas personas con notas muy bajas, como muchas notas bajas se repiten entonces el pico de la montaña está a la izquierda, y a su vez el pie de la montaña está a la derecha. Por ello, la asimetría es positiva (así como este gráfico).

asimet1

Rplot

Por otro lado, en el caso del salón B, las notas resultaron ser bastante altas. Como muchas notas altas se repiten entonces el tope de la montaña está hacia el lado derecho. Por ende, el pie de la montaña está al lado izquierdo. En ese caso, la asimetría es negativa. (otro gráfico para amenizar el día).

asimet2

Rplot01

¿Hola? ¿Aún siguen aquí? ¡Muy bien! Entonces para cerrar con broche de oro vamos a la curtosis. 

La curtosis, nos permite conocer si alguno de nuestros datos se está repitiendo demasiado en nuestra distribución. Existe curtosis tanto positiva como negativa y cuando esta es igual a 0, (mientras saltamos en un pie) podemos decir que nuestra curva es simétrica o perfectamente normal. Mientras más grande es la curtosis o más alta es la montaña (nuestra distribución), más delgada es la montaña. Por otro lado, mientras más bajo es el pico de nuestra montaña, más gorda o gruesa será la distribución o cerro.

Vamos a un ejemplo gráfico, el Salon A y B volvieron a rendir un examen y la mayoría de personas del salón A obtuvieron un “15”, mientras que en el Salón B las notas estuvieron distrbuidas más o menos equitativamente entre todos, algo así (11, 13, 13, 14, 14, 14, 15, 16, 16). En el caso del salón A, como el promedio del salón “se repitió bastante”, más de lo esperado, la curtosis es positiva y alta. En el caso del salón B, como los puntajes se repitieron más a menos equitativamente, la curtosis es más baja y puede llegar a ser negativa. Aquí un ejemplo donde el primer caso la curtosis es negativa (Salón B) y el segundo caso positiva (Salón A). Una curtosis mayor a 8 quiere decir que la distribución de los puntajes es asimétrica, por lo que la curva o distribución de los puntajes, no es normal. 

MF-HedgeFund2-2

Recuerden que, si la curtosis y la asimetría son iguales a 0 entonces la distribución de los puntajes es normal. 

Finalmente, todo esto lo pueden encontrar en SPSS en Analizar – Estadísticos descriptivos – Describir – Opciones, así que no se preocupen, no tienen que dibujar su curva ni nada y estos no son análisis oscuros y raros que no son parte del SPSS. Así que todo muy bien.

¡Muy bien! Si han llegado hasta acá ¡Los felicito! Debo confesar que este post ha sido un poco más largo que los anteriores, pero espero que me haya dejado entender y que hayan pasado un buen rato. Ojo, pestaña y ceja, está no es la única manera de revisar normalidad, cuando entremos a T-Student, veremos que existen otras maneras de probar la normalidad de la distribución de nuestros puntajes. Pero para eso, tendremos que esperar un poco. El siguiente post, tratará sobre tipos de variables que existen en estadística. Para luego entrar a análisis inferenciales.

Como siempre, recuerden que si tienen alguna pregunta o comentario encantado de poder ayudarlos y en la medida de lo posible absolver sus dudas si es que las hay. Aparte, siempre pueden dejar un mensaje amable en el blog que es muy bien recibido. ¡Que les vaya muy bien!

¡Buenas vibras!

Bibliografía recomendada

Howell, D. (2013). Fundamental statistics for the behavioural sciences. Thomson & Wadsworth. USA.

About Juan Carlos Saravia

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
This entry was posted in Conceptos and tagged , , , . Bookmark the permalink.

67 Responses to Ese momento, donde la distribución no es normal ¡y nos aterrorizamos!

  1. Estimados todos, a modo de respuesta a la pregunta del post si es que la nota 15 estaba dentro del promedio de la clase, la respuesta es que no, justo la nota 15 está por encima de promedio de la clase. Esto se puede ver en la gráfica de la distribución normal, el 15 está pasando la media de la clase (la cima de la montaña) hacia el lado derecho que representan mayores notas.

    Like

  2. Gabriela Conde says:

    Juan Carlos, que buen post! Me emociona ver que estos temas puedan ser explicados de manera tan sencilla! Gracias por tomarte el trabajo!! Sigue así! 😀

    Like

    • Estimada Gaby Conde, muchas gracias a ti por la emoción y el interés de leer el blog y los posts. Sí, en realidad sí se puede explicar de manera más sencilla y divertida. De eso se trata. ¡Gracias por los buenos ánimos! Que todo vaya muy bien, ¡Buenas vibras!

      Like

  3. Pingback: Análisis de varianza (ANOVA) ¿Alegría o terror? | Estadística para todos, hecho por un psicólogo

  4. Andrea Freire says:

    Muchas gracias por su trabajo. Junto con mi esposo somos fieles lectores. Adelante!!!

    Like

  5. Pingback: ¿Qué rango tiene usted? Los rangos promedios. | Stats SOS

  6. Hola Juan Carlos Saravia Drago he tenido el gusto de revisar tu página y me parece que logras perfectamente transmitir la estadística con un lenguaje sencillo tan necesario. No obstante, serviría de mucho le agregaras referencias bibliográficas a tus textos para poder revisarlos o citarlos. me interesa puntualmente los valores que manejas para asimetria y curtosis para suponer normalidad. Saludos.

    Like

    • Estimado Gilbher,
      Aprovecho un espacio que tengo para responderte. Me alegra mucho que esté siendo de utilidad mi blog. ¡Muchas gracias! Perfecto, voy a tomar en cuenta tu observación. Los siguientes posts les pondré referencias y eventualmente iré completando las referencias de los anteriores también.
      Los valores que utilizo de asimetría y curtosis los puedes revisar en estos textos:
      – Kline, R. B. (1998). Principles and practice of structural equation modeling. NY: Guilford Press.
      – Kline, R.B. (2005), Principles and Practice of Structural Equation Modeling (2nd Edition ed.). New York: The Guilford Press.
      Prometo ir poniendo estas referencias, especialmente cuando hay que presentar estas “reglas de dedo”.
      Espero que esto haya servido y gracias por comentar el blog.
      ¡Buenas vibras!

      Like

  7. Pingback: ¿Muestras no paramétricas relacionadas? La W-wilcoxon | Stats SOS

  8. Juan Carlos Saravia Drago antes que todo felicitarte por los interesantes temas de estadística que explicas en tu blog me ayudas mucho a repasar temas que me interesan mucho. Seguiré leyendo cada post hasta terminarlo y hacerte más preguntas..! Ahora tengo una, ¿Cómo es que se haya la curtosis? Es decir como determinas que el puntaje es 8, como es la fórmula para hallar la curtosis. Muchas gracias!!

    Like

    • Estimada Airin,

      Muchas gracias por escribir en Stats SOS. La curtosis se puede hallar con el SPSS utilizando estadísticos descriptivos. Con esta ruta, podrías llegar a conseguir la curtosis: Analizar – Estadísticos descriptivos – Describir – Opciones. Luego de pedirle al programa que te entregue la curtosis saldrá un valor y ese valor si es mayor a 8 en valor absoluto entonces la distribución de tus puntajes no muestra una forma normal.
      Por otro lado, la curtosis se calcula de la siguiente manera:

      Curtosis = (La sumatoria de (X – MediaX) a la cuarta potencia. /N * S a la cuarta potencia).-3

      En este caso: X son todos valores de tu variable, MediaX es el promedio de tu variable, N es el tamaño de tu muestra y S es la desviación estándar de la variable que quieres calcular su curtosis.

      Quisiera poner la fórmula en el comentario pero lamentablemente no me permite la página hacerlo.

      ¡Mucho éxito!

      Like

  9. Laura says:

    Hola buenos días. existen varias pruebas para distribución normal y no parametricas, sin embargo me cuesta trabajo entender como definir muestras relacionadas con muestras independientes, al momento de plasmar las variables y entender cual el es objetivo de cada una de las pruebas como t-student, fisher, chi cuadrada, friedman, mc negar, u whitney, kruskal wallis, wilcoxon ya que encuentro artículos sobre éstos temas pero la manera en que lo desarrollan es poco entendible a diferencia de como Ud. lo muestra. Hasta dan ganas de ser investigador !!! le agradecería su ayuda. Buen día

    Like

  10. Estimada Laura,

    Muchas gracias por escribir a Stats SOS y tus palabras. A ver, la gran diferencia entre pruebas relacionadas y muestras independientes es la siguiente:

    Las pruebas independientes son tal como el nombre lo dice, independientes entre sí. En ese caso, hombres y mujeres, jóvenes y adultos mayores son grupos que son independientes. Lo importante es que uno es “aparte del otro”. Desde ahí ya puedes hablar de hacer análisis con muestras “independientes” o no relacionadas como algunas que has mencionado como por ejemplo la t student o la U de Mann Whitney.

    Por otro lado, las muestras dependientes tiene algunas particularidades. Por lo general, son el mismo grupo que se mide múltiples veces a lo largo del tiempo.. Por ejemplo, a un grupo de mujeres se les toma una prueba de estrés hoy y al mismo grupo se le vuelve a tomar la misma prueba (o una prueba muy similar) una semana después. Entonces, estas son muestras relacionadas porque se quieren comparar a un grupo a lo largo del tiempo. Entonces las muestras están relacionadas porque las medidas (los puntajas del constructo de estrés) son iguales o muy similares pero se ha evaluado exactamente al mismo grupo.

    ¡Mucho éxito!

    Like

  11. Natalie says:

    Hola Juan Carlos, excelentes posts, me han facilitado la vida con mi tesis.

    ¡Tengo una duda! He realizado la ruta que has mencionado, pero aparte, según recordaba de mis cursos, había hecho los análisis de Normalidad a través de Explorar (con dependientes y factores). La duda es: estoy comparando o voy a correlacionar distintas subescalas en muestras independientes (edad, sexo), entonces, ¿debo sacar la normalidad de cada grupo? Me refiero a: debo buscar la normalidad de Subescala A de Masculino y aparte normalidad de Subescala A femenino y así sucesivamente, o ¿podría sólo correr la normalidad de las subescalas sin segmentar y utilizar ello para los futuros análisis? Tengo 7 subescalas y 6 factores así que me encantaría saber si debo realizar todas esos análisis de normalidad.

    Y, además, deseo saber, si al obtener los datos estadísticos de Curtosis y Asimetría, los considero como salgan o debo realizar alguna operación con el error estándar.

    ¡¡Muchas gracias de antemano!!

    Like

    • Estimada Natalie,

      Muchas gracias por escribir a Stats SOS. Voy a enumerar tus preguntas cosa que es más fácil de responder:
      1) Sí, tendrías que hacer normalidad para cada uno de los grupos siempre y cuando quieras comparar medias. Entiendo que es trabajoso pero lamentablemente, así son las reglas del juego :). Sin embargo, si quieres hacer correlaciones no hay necesidad de correr análisis de normalidad de tus puntajes porque no tiene que ver con la correlación.
      2) Si deseas ver la asimetría y la curtosis lo único que tienes que revisar son los estadísticos. Si la asimetría es mayor a 3 o la curtosis mayor a 8 entonces tienes fuertes evidencias que la distribución de tus puntajes no es normal. No tienes que realizar ninguna operación con el error estándar, existen procedimientos que lo hacen como por ejemplo el de Jarque-Bera pero es otra manera de revisar normalidad de los puntajes, no es indispensable.

      ¡Mucho éxito!

      Like

      • Natalie says:

        ¡Muchas gracias! Tengo una última duda.

        He escuchado en muchos compañeros y algunos profesores que se usa Pearson cuando la distribución es normal, por lo que quería saber si es que había distintas teorías al respecto. Leí tu post de Pearson donde aclaras que no importa si la distribución es paramétrica o no, entonces me entró la duda sobre de dónde sale la creencia tan oída tanto en mis compañeros de social como clínica.

        ¡¡Gracias!!

        Like

        • Estimada Natalie,

          Muchas gracias por escribir a Stats SOS. Sí, la distribución no tiene nada que ver con las correlaciones. ¿De dónde sale el mito? Lo que ocurre es que los datos que usa para la correlación de Spearman para hacer el análisis no asume una distribución normal porque son datos ordinales. En cambio, Pearson usa datos continuos que sí pueden estar distribuidos de manera normal. Entonces, quizás se asume que todos los datos que no se distribuyen de manera paramétrica no son continuos. Como te digo, estoy especulando un poco, pero creo que por ahí aparece el mito.

          ¡Mucho éxito!

          Like

  12. Alexander says:

    Estimado Juan Carlos, los valores máximos de 3 y 8 para la simetría y curtosis respectivamente, ¿de qué fuente los tomaste? Me gustaría citarla para justificar que realizaré la T de Student. Tengo en mis grupos valores de curtosis hasta 4. ¡Gracias!

    Like

  13. Gustavo says:

    Buenos días Dr.s que significa una t negativa?

    Like

    • Estimado Gustavo,

      Muchas gracias por escribir a Stats SOS. En realidad significa que cuando el programa está calculando la T-student está poniendo el promedio más bajo primero y el más grande segundo. Entonces al restar sale negativo. Así que todo bien, no te preocupes.

      ¡Mucho éxito!

      Like

  14. Laura says:

    Hola Juan Carlos, tengo una duda importante ¿puedo realizar correlación de pearson aunque mis datos no sigan una distribución normal? Justificando que mis variables son de intervalo o de razón…

    Like

    • Hola Laura,

      Muchas gracias por escribir en Stats SOS. Claro que sí puedes, la condición básica para hacer una correlación de Pearson es que los puntajes sean continuos. La distribución de los datos (normal o no) no es un impedimento para este análisis.

      ¡Mucho éxito!

      Like

  15. Carolina says:

    Buenas tardes Juan Carlos, gracias por compartir esta información de manera sencilla en este blog, me ha sido de mucha ayuda. Quería preguntarte algo muy importante:
    Mi muestra es pequeña (n=20) debido a que la evaluación y calificación de uno de mis instrumentos requiere de tiempo extenso, además de contar con una muestra con características muy particulares.
    Entre otras cosas, mi pregunta va a si es posible emplear el análisis de normalidad por asimetría y kurtosis en una muestra tan pequeña. Además, mi objetivo general busca determinar si existe relación entre los constructos que miden cada uno de mis instrumentos (dos instrumentos o pruebas psicológicas) en mi muestra específica, por lo que pensaba emplear correlación. Leyendo tu post de Pearson, no logré identificar si era necesario para emplear este estadístico que la muestra sea de un tamaño específico y quería preguntarte si es posible hacerlo. Quedo atenta a tu respuesta.
    Muchas gracias.

    Like

    • Estimada Carolina,

      Muchas gracias por escribir en Stats SOS. Honestamente no haría unacorrelación de Pearson co 20 casos, pero por si acaso armaría un gráfico de dispersión para que más o menos se pueda ver si hubiera una relación entre tus dos variables. El tema es que es posible que por la cantidad de muestra que tienes podrían salir tus resultados no significativos cuando podrían serlo.

      ¡Mucho éxito!

      Like

  16. S. Peña says:

    Hola, antes que nada quiero felicitarle, me ha sido en verdad de gran ayuda su blog. Quisiera que me orientara sobre las pruebas de normalidad.
    Tengo los datos de un experimento con varios grupos (3) con mediciones a través del tiempo (4 mediciones). Metí ANOVA para medidas repetidas con n de 4, 5 y 6 respectivamente. Sin embargo cometí el error de no revisar antes los supuestos de normalidad. Cuando los revise, la prueba de S. Wilks me arrojaba no normalidad para cada grupo. por lo que utilice Friedman, pero con esa prueba me da diferencias solo entre los días, y lo que yo quiero es ver diferencias entre los grupos.
    Revisando tu blog lei que los valores de asimetria y curtosis indican normalidad, los valores de asimetría son .623, 1.289, 1.627, 1.572 y de curtosis son -1.292, 2.848, 1.669, 1.516, para cada medición.
    Por favor ayúdeme, no se que prueba realizar y estoy desesperada. Muchas gracias.

    Like

    • Estimada S. Peña,

      Muchas gracias por escribirme a Stats SOS. Eso podría pasar, las pruebas de normalidad a veces pueden ser sumamente exigentes, dado los valores de la asimetría y curtosis que evidencian que la distribución no incumple los supuestos de normalidad de manera extrema, yo seguiría y haría una ANOVA de medidas repetidas en lugar de Friedman dada la evidencia que tienes.

      ¡Mucho éxito!

      Like

  17. Juan says:

    Hola Juan Carlos, en primer lugar felicitarle por el buen contenido del post y su fácil lectura y comprensión. Pero tengo una duda, ¿qué implicaciones tiene el hecho de que una variable no siga una distribución normal?, por ejemplo, a la hora de realizar modelos, predicciones, etc.
    Muchas gracias.

    Like

    • Estimado Juan,

      Muchas gracias por escribir a Stats SOS. En realidad más que la distribución normal de los puntajes, el tema es cuando los errores o residuos no están distribuídos normalmente. De todos modos, en un ANOVA, tu usas medias y si los puntajes no están distribuidos normalmente quiere decir que la media no está exactamente en el centro de la escala lo cual podría hacer que tu cálculo esté sesgado o hacia arriba (los puntajes tienden a ser altos) o hacia abajo (los puntajes tienden a ser bajos).

      ¡Mucho éxito!

      Like

  18. daniel says:

    buena tardes, su contenido me ah ayudado al analisis de mi proyecto de investigación pero me surgio un problema que no he podido solucionar, le agradeceria si me pudiera ayudar:
    Resulta que quiero comprobar dos muestras, les realice las pruebas de normalidad a ambas y resulta que una me salio normal y la otra no normal. No se si se pueda comparar de esta manera o haya alguna forma de transformar la no normal a normal.
    Muchas gracias

    Like

    • Estimado Daniel,

      Muchas gracias por escribir a Stats SOS. En ese caso probaría las pruebas no paramétricas: La U de Mann Whitney (para muestras independientes) o la W de Wilcoxon (para muestras relacionadas). Ambas puedes encontrar en el blog.

      ¡Mucho éxito!

      Like

  19. Yosselin says:

    Hola! tengo una pregunta, entiendo que existen dos criterios para evaluar la normalidad de nuestra muestra: usando Kolmogorov-Smirnov o Shapiro y Asimetría y curtosis. Pero existe alguna que sea más precisa que la otra? Qué recomiendan los estadistas? Cuál sería la diferencia entre ambas? Gracias!!!!!

    Like

    • Estimada Yosselin,

      Muchas gracias por escribir a Stats SOS. Son métodos distintos, por un lado, el criterio de la asimetría y curtosis es una regla de dedo sin ninguna significancia estadística. Las pruebas de Kolmogorov y Shapiro son análisis que comparan una distribución esperada como simétrica contra la distribución de los datos. Si sale significativa es que la distribución es diferente a una paramétrica.

      Yo no me haría muchos problemas y seguiría el criterio de asimetría y curtosis que lo puedes encontrar en el libro de Kline.

      ¡Mucho éxito!

      Like

  20. Este blog me resulta muy útil y facil de comprender.
    Quisiera hacer una consulta, que sucede si en mi variable optimismo la asimetría me sale -2.72 y la curtosis 10.47, en este caso sería normal o anormal?
    Muchas gracias

    Like

  21. Nicolás says:

    Hola Stats SOS, tenía una consulta, en algunos estudios del ámbito de la salud he observado que se realizan friedman y t de student juntos para el análisis de muestras dependientes, cabe destacar que es un n bajo de 8 pacientes, con 4 experimentales y 4 controles, y que al aplicarle shapiro wilk se presentan como paramétricas (salvo 2 valores de los 14). Son 4 variables con 3 medidas cada una, y 1 variable con 2 medidas. No sé si es que friedman permitía evaluar estas variables con 3 medidas, si descartan H0, procederíamos a realizar t-Student para confirmar o rechazar H1?

    Like

  22. Francisco says:

    Estimado Juan Carlos. Primero que todo, felicitaciones por su Blog, es muy fácil de entender.
    Ahora bien, tengo unas dudas con una investigación que estoy haciendo para una tesis. Realicé un cuestionario tipo likert que mide percepción hacia la escuela, de 54 ítems divididos en 3 dimensiones, en una muestra de 132 personas. Realicé el análisis de Alfa de Cronbach y análisis de componentes principales (para confirmar lo de las 3 dimensiones).Luego realicé el análisis de sesgo, y aparecen asimetría y curtosis muy altas (.833 y .381 respectivamente). Entonces tengo algunas dudas:
    1. Si mi muestra posee un sesgo relativamente alto, ¿Es posible hacer los análisis de confiabilidad y de componentes principales?
    2. Si quisiera realizar el análisis de comparación de medianas (U. de Mann Whitnney) para comparar hombres y mujeres, por ejemplo, ¿Sería recomendable? ¿Lo puedo hacer si la respuesta es de tipo Likert?
    3. Además de explicar las posibles razones del sesgo, ¿Qué otra información recomendaría obtener a partir de estos datos?

    Muchas gracias!!!
    Saludos!

    Like

    • Estimado Francisco,

      Muchas gracias por escribir a Stats SOS. En realidad una curtosis y asimetría menores a 1, no me aventuraría a catalogarlo como “muy altos”. Con esos valors aún podrías asumir que la distribución de tus datos es normal. Enumeraré las preguntas para que sea más fácil responder:
      1) Sí puedes hacer los análisis que mencionas, no hay problema.
      2) Con valores de asimetría menores a 1 no me preocuparía en la distribución y aplicaría pruebas que usan medias (como la T student). Si tus respuestas no están siendo sumadas y quieres saber directamente las diferencias de las personas entre las preguntas de tu cuestionario (que están en escala Likert) la U de Mann Whitney hace más sentido. Pero si quieres tener el puntaje de toda la prueba podrías usar la T student con una curtsies menor a 8 y una asimetría menor a 3.
      3) Siempre es importante poner los descriptivos de los datos para entender mejor tu muestra.

      ¡Mucho éxito!

      Like

  23. Francisco says:

    Muchas gracias por tu pronta respuesta.
    Si tengo otra duda, te consultaré! Gracias!!!

    Like

    • Francisco says:

      Hola de nuevo.Tengo una nueva consulta.
      Los datos que tengo son los siguientes:
      Muestra de 132 personas
      Cuestionario tipo Likert
      3 dimensiones/ 54 reactivos
      Prueba de Kolmogorov-Smirnova:Estadístico (0.139)// Sig (0.000)
      Asimetría: 0.833
      Curtosis: 0.381
      Basado en estos datos, ¿mi muestra es normal o no?
      Luego, según la respuesta, ¿debería hacer análisis de T de student o U. de Mann Whitnney? Tú me decías que si quiero comparar las diferencias de las personas en las preguntas lo mejor es U. de Mann, pero para ver el puntaje final, T de student. En mi caso, quiero ver si hay diferencia según género (y otras variables) del cuestionario completo. Por lo tanto, ¿debería usar T de student?

      Gracias por tu ayuda!

      Like

      • Hola Francisco,

        Muchas gracias por escribir a Stats SOS. Eso depende del criterio que uses. Los puntajes de la variable que estás analizando podrían seguir una distribución normal.Exacto, si sigues el criterio de asimetría y curtosis y quieres hacer ese análisis utilizaría una T Student.

        ¡Mucho éxito!

        Like

  24. Steve Pareja says:

    Buenas tardes, tengo una duda, es acerca de la prueba de normalidad con kolgomorov smirnov,
    que valores debe obtener para saber si la muestra es parametrica o no parametrica, en mi caso los valores que obtuve para tres muestras fueron: 0.000; 0,200 y 0,06, cual de los tres resultados me indica que es parametrico y cual o cuales no. gracias por la respuesta

    Like

  25. Roberto says:

    Hola, Juan Carlos.

    Antes que nada, te felicitó por el contenido de este blog. La forma en la que explicas cosas que a muchos nos abruman, realmente es liberadora de tensión :s

    Actualmente estoy realizando el análisis de los datos de la aplicación de un intrumento que evalúa actitudes hacia el narcotráfico en adolescentes que asisten a determinadas escuelas de dos localidades. El objetivo es precisar la diferencia entre dichas actitudes entre adolescentes de una localidad en comparación con otra. La aplicación se realizó a jóvenes de dos localidades, al momento se logran contar 36 aplicaciones en el grupo A y 104 en el B. La desproporción de los grupos, en cuando a tamaño, se debe en gran medida a las consideraciones éticas en la elección de la muestra (por ser menores de edad), el tiempo, y al tamaño distinto de la población de las escuelas en que se aplicó. Para el análisis de datos, se elaboraron índices para cada una de las dimensiones que evalúa el instrumento en cuestión, y para la escala global, de modo que los resultados individuales siempre arrojan un valor que va del 0 al 1, en dirección positiva hacia actitudes de aceptación. La intención de todo esto era comparar las medias de los índices entre grupos. Mis dudas son:

    1. ¿Puedo comparar los resultados entre ambos grupos a pesar de la desproporción de tamaño?
    2. ¿Debo realizar pruebas de normalidad a la totalidad (A+B) o hacerlo con cada grupo independientemente (A y B)?
    3. Si debo hacer la prueba de normalidad a cada grupo, considerando sus tamaños ¿debo realizar para el A la de Shapiro-Wilk, y para el B la Kolmogorov-Smirnov?
    4. Si dichas pruebas arrojan que la distribución de cada una de mis variables es asimétrica (< 0.5), ¿Puedo confiar en los parámetros de Asimetría (< 3) y Curtosis (< 8) para sostener la hipótesis de normalidad?
    5. Si tuviese que realizar pruebas no paramétricas para comparar resultados ¿qué prueba es más recomendable para mi caso, y qué medidas, si no es la media, es aconsejable comparar?

    Disculpa si me extendí :p
    Te envío un cordial saludo, y de antemano muchas gracias C:

    Like

    • Roberto says:

      Extiendo la información del punto 2 y el 4.

      Por ejemplo, suponiendo que las pruebas de shapiro-wilk y la kolmogorov-smirnov me arrojan valores muy debajo de 0.05 por grupo (en Dimensiones y Escala Global), sin embargo tengo valores de asimentría y curtosis como estos por dimensión (D# = Dimensión, E. G.= Escala Global) (y por grupo, pero me abstengo de poner los resultados del segundo para ser breve):

      Asimetría Curtosis
      D1 3.206 11.550
      D2 1.840 6.210
      D3 -1.061 .716
      D4 .727 .698
      D5 1.345 2.720
      E.G. 1.767 6.468

      ¿Es correcto hacer este análisis por cada grupo (así como por dimensión y escala global)?
      ¿Puedo considerar algunas de estas distribuciones como normales a pesar de que unos valores rayan en los límites de asimetría y curtosis?, En consecuencia ¿qué es lo recomendable?

      Saludos c:

      Like

      • Estimado Roberto,

        Muchas gracias por escribir a Stats SOS. Sí es correcto hacer la separación. Por otro lado, tus valores no son tan asimétricos con excepción de D1 que sí es marcadamente asimétrico. En ese grupo la gente está tendiendo más a puntuar en valores menores.

        Sí podrías considerar como normales con excepción del D1.

        Mucho éxito!

        Like

    • Estimado Roberto,

      Muchas gracias por escribir a Stats SOS. Voy a enumerar tus dudas:
      1) Depende de la desproporción y los tamaños de muestra de cada grupo. En este caso no lo haría porque un grupo es casi 3 veces más que el otro grupo. Si ya no puedes con tu genio y quieres comparar podrías sacar una muestra aleatoria del grupo grande que sea en tamaño parecida al pequeño, pierdes poder estadístico pero ganas comparabilidad.
      2) Mejor con cada grupo independiente.
      3) Si es el caso sí, eso depende de tus tamaños de muestra de cada grupo. Recuerda la regla general de más 40 y menos 40 personas para elegir el análisis.
      4) Sí puedes hacerlo, el libro de Kline de ecuaciones estructurales comenta esta y dice que sí es un criterio utilizable.
      5) Si sn dos grupos que son independientes como es tu caso podrías aplicar la prueba de U MANN Whitney.

      Mucho éxito!

      Like

      • Roberto says:

        Hola, Juan Carlos. Muchas gracias por tomarte el tiempo y responder. Tomaré en cuenta todo lo que me has dicho. Prestaré especial atención a lo que mencionas sobre el punto 1. Me queda claro lo referente a Asimetría y Curtosis; lo importante es que no rebase los paráetros que la teoría propone al respecto. Volveré si tengo alguna otra duda :p

        Gracias de nuevo! Saludos!!

        Mucho éxito también para ti!

        Like

  26. ygptovar says:

    Saludos mi Estimado. Ante todo lo felicito por aportar tan valiosa información, en cuanto al tema de la estadística. La pregunta tiene que ver con los siguientes resultados de la prueba de normalidad para dos grupos de calificaciones de estudiantes, uno con 12 y el otro con 8, muestra muy pequeñas, que de antemano por la bibliografía se asumen que cae dentro de las prueba no paramétricas. Se realizó la prueba de Shapiro-Wilk y el p-valor para el grupo experimental es de 0,085997 en cambio para el control es de 0,68345. La duda es que decisión se toma en este caso, con respecto a la normalidad?

    Like

  27. Vale says:

    lEl blog es muy interesante pero tengo una duda si me dan el sgte enunciado: la edad promedio en el grupo de los casos es de 64.7 años con una mediana de 65 años y una moda de 65 años. La edad promedio en el grupo de los controles es de 56 años con una media de 56 años, con una moda de 60 años y una desviación típica de 11.57 que es la variación de las edades con relación al promedio. Las distribuciones son diferentes? afecta la prueba estadistica a usar? puedo emplear la prueba de xi 2?

    Like

    • Hola Vale,

      Muchas gracias por escribir. Aplicarás chi cuadrado dependiendo del objetivo de lo que quieras analizar. Si quieres relacionar proporciones o revisar el ajuste de la distribución de tus datos podrías aplicar el chi cuadrado.

      Mucho éxito!

      Like

  28. Anonymous says:

    Hola, quisiera saber qué pasa cuando en una de las dimensiones de mi variable muestra una normalidad de 000, mientras que las demás no, mi muestra es de 159 personas, solo me aparece los 000 en una dimensión pero en las demás no. ¿Sería una distribución normal, o no normal?

    Like

  29. Rocio Santos Pumarrumi says:

    buenas tardes, gracias por toda la explicacion sencilla pero aun no logro interpretarla para mi tesis… ya que mi estudio de dos variables donde se busca la relacion de ambas al analizarlo me dijeron que tiene una distribucion no normal por la prueba de Kolmogórov-Smirnov

    Like

  30. Mariano says:

    Estimados Juan Carlos,
    Me topé con vuestro artículo porque necesito resolver una cuestión. Aprovecho a consultarte lo siguiente. Necesito realizar un analisis de varianza de dos factores, pero mis datos no cumplen supuestos de normalidad, ¿existe alguna alternativa no parametrica para el análisis de varianza de dos o más factores? Gracias!

    Like

    • Estimado Mariano,
      Muchas gracias por escribir. Creo que la técnica Kruskal-Wallis podrá resolver tu tema.

      Gracias!

      Like

      • Mariano says:

        Estimado Juan Carlos, muchas gracias por tu respuesta. Según lo que entiendo, Kruskal-Wallis permite el análisis de un solo factor en K muestras. Por lo tanto, como en mi caso se trata de 2 factores (diseño de 2×3), ¿debería generar un único factor de 6 categorias, producto de la combinación entre las 2 categorías del primer factor original por las 3 categorías del segundo factor original? De ser así, ¿no estaría incrementando la probabilidad de error tipo 1? Gracias

        Like

  31. Daniela says:

    Hola! quisiera tu ayuda para un problema en el modelo que estoy realizando.Es un modelo de regresion multiple donde el logaritmo de salarios es la dependiente y las independientes son varaibles dicotomicas. Mi muestra es bastante alta aproximadamente de 4000. Estoy teniendo problema con la prueba de normalidad, tengo valor de 0.0, cheque los datos, la muestra e inclusive elimine datos atipicos por el comando de grubbes en stata. Pero al sacar un resumen detallado de la variable de los salarios tengo valores de la curtosis arriba de 6.1 y de simetría arriba de 1.4. Hay algun metodo que pueda aplicar para corregir esto ?.
    Espero pueda ayudarme.

    Like

    • Hola Daniela,

      Muchas gracias por escribir. Creería que los valores no están tan altos. Si pasara la curtosis de 8 y la asimetría de 3 si pensaría que la no normalidad es severa.
      De todos modos, para cambiar la distribución a una forma más cerca de la normal podrías aplicar un logaritmo de base 10 a tu variable de salario. Eso debería hacer que tus datos comiencen a tener una distribución mucho más cerca de la normal.
      Saludos!

      Like

  32. Lina Maria Beltran Toca says:

    Buenas tardes Juan Carlos,

    Estoy realizando un estudio de casos y controles (por ausencia de datos no se pudo realizar un muestreo aleatorio sino a conveniencia del investigador), en el grupo caso tengo 193 casos y en en grupo control 464. Al revisar datos como edad, dias de estancia y costos de atencion me arrojan datos con distribucion non normal y al realizar pruebas de Shapiro y Curtosis me dan no normales con valores de 2.55 en kurtosis y sesgo 0.34. Que debo realizar?.

    Like

  33. Juan Castillo says:

    Muy buen articulo, como puedo establecer los limites de control si los datos NO son normales, existe alguna tecnica o algo que nos pueda mostrar, gracias

    Like

Leave a reply to Juan Carlos Saravia Drago Cancel reply