¡Saludos a todos! Nuevamente nos encontramos en un maravilloso capítulo de Stats SOS. Espero que hasta ahora la travesía esté siendo agradable para todos ustedes valientes e interesados lectores.
Primero que todo, quiero nuevamente agradecerles por su soporte y valentía de querer emprender el maravilloso camino de aprender estadística. Ustedes realmente son los que motivan el crecimiento de este blog. Los que aún no se unen, ¡anímense! Prometo que el camino no será muy rocoso.
¡Muy bien! Vamos a lo nuestro, el post busca explicar y describir de manera simple y clara qué es la distribución normal o paramétrica. Para ello, pondremos gráficos que muestran esto ¡no se asusten, borren los malos recuerdos y continúen conmigo!
La distribución normal o distribución de Gaus, es un tipo de curva o distribución donde todos los puntajes de su muestra están organizados de forma simétrica. En otras palabras, los puntajes están concentrados en el centro o se repiten más en el medio de toda la distribución y existe casi la misma cantidad de puntajes bajos como altos a lo largo de toda la muestra. ¿Complicado? ¿Confuso? ¡No hay problema! Vamos a nuestros maravillosos ejemplos.
Ustedes están llevando la clase de estadística dos y han rendido la primera práctica calificada, han pasado dos semanas y el profesor recién les ha devuelto los exámenes. En la devolución, se han percatado que un grupo de personas está con cara de preocupación, otro con cara de satisfacción y otro con cara de alivio. Ustedes han obtenido un 15/20 en su examen y quieren saber si es que su nota está dentro del promedio de la clase o es mayor o menor. Para ello, buscan a su amigo/a loco/a por las estadísticas y le preguntan cómo hacer para responder a esta respuesta. Esa persona con mucha sutileza les dice “consígueme las notas y haré la magia”.
Acto seguido ustedes consiguen las notas y en la recolección se dan cuenta que habían 45 alumnos en la clase y sus puntajes fueron los siguientes: 07,08,08,09, 09,10, 10, 10, 11, 11, 11,11,12, 12, 12, 12, 12, 13, 13, 13, 13, 13, 13, 14,14,14, 14, 14, 14, 15, 15, 15, 15, 16, 16, 16, 16, 16, 17, 17, 18, 18, 19, 20, 20.
Luego de ingresar las notas en la computadora le dieron la base de datos a su amigo/a y él/ella hizo un par de análisis. (Para esta parte usaré el SPSS pero esto se puede aplicar a cualquier paquete estadístico que deseen). Los resultados mostraron primero un gráfico tal como esté:
Como ven, esta distribución es simétrica. En el medio hay mayor cantidad de notas y a los lados hay tanto para la izquierda (que son notas más bajas) como para la derecha (notas más altas) la misma cantidad de notas. Esto quiere decir que la distribución de puntajes del salón de 45 alumnos tiene una distribución normal o paramétrica. ¿Por qué esto es importante? Porque la gran mayoría de análisis estadísticos que hacemos en psicología utilizan o asumen que la distribución es así. Un detalle importante de esta distribución es que, la media, la mediana y la moda son iguales y están justo al medio o en la cima de la curva o montañita azul. En otras palabras, el promedio de puntajes, el valor medio y el número que más se repite de puntajes del salón es el mismo. Si no se acuerdan qué son estos términos no hay problema (este post de estadística descriptiva los puede ayudar).
¡Muy bien! Espero que sigan conmigo y que la curva no los haya asustado. ¿Cómo podemos saber si una curva es normal? La forma más fácil es pidiéndole al SPSS que nos bote un gráfico (como este) de frecuencias y ver cómo está la curva. Si tiene está forma es normal, sino, entonces la distribución es no normal o no paramétrica.
La distribución puede ir hacia la izquierda o hacia la derecha. En otras palabras, puede haber más frecuencia de notas bajas (por consiguiente la distribución va más hacia la izquierda y las barras son más altas al lado izquierdo, primer caso) o puede haber más frecuencia de notas altas (por ende la distribución va hacia la derecha y hay más barras altas al derecho, segundo caso). Aquí un ejemplo de cada una:
Si se percatan, la gráfica del lado izquierdo es el primer caso, mientras que el segundo caso es la gráfica de la derecha.
Existen otras maneras numéricas para ver esto, las cuales veremos en el siguiente post. En ese caso, en nuestro siguiente capítulo trataremos sobre la distribución no normal o la manera de identificar cuando no se cumplen los criterios para una distribución normal.
Ojo pestaña y ceja, además de esta distribución existen una gran gama de distribuciones además de la normal. Para los interesados haré una breve mención de esto en la parte de comentarios.
Si tienen curiosidad de saber si su nota (15) en estadística dos estaba con el promedio de la clase o por encima de este, pueden mirar el siguiente post donde dejaré la respuesta. Si no quieren esperar tanto pueden dejar un comentario con la que ustedes creen que es la respuesta, eso sería muy divertido ¡anímense!
¡Muy bien! Creo que ha sido bastante por hoy, espero que hayan llegado hasta acá sanos y salvos. Como siempre les agradezco en el alma, estar siguiendo el blog. Recuerden que siempre pueden dejar sus comentarios y preguntas y encantado de poder resolver o comentar sobre sus dudas u opiniones. !Buenas vibras a todos!
Bibliografía recomendada:
Howell, D. (2013). Fundamental statistics for the behavioural sciences. Thomson & Wadsworth. USA.
Debo decirlo: Realmente bueno. Súper sencillo, práctico, entendible. Esto vale la pena leerlo más de una vez.
LikeLike
Estimado Moises, agradezco mucho tus palabras. Me alegra mucho que se entienda y que sea suficientemente entretenido para volverlo a leer.
¡Buenas vibras!
LikeLike
Tal como les mencioné, existen una serie de distribuciones pero las más conocidas son la distribución chi cuadrado, la distribución F de Fisher, la distribución Binomial y la distribución logarítmica. En realidad todas estas distribuciones al igual que la normal son gráficas de curvas que muestran cómo están distribuidos los datos.
LikeLike
Pingback: Análisis de varianza (ANOVA) ¿Alegría o terror? | Estadística para todos, hecho por un psicólogo
Pingback: Gonzalo apoya la aditividad: Los 4 supuestos de la regresion lineal | Stats SOS
Holaaa Juan Carlos te quería agradecer por los post de tu blog
LikeLike
Estimado/a,
Muchas gracias por escribir a Stats SOS y me alegra mucho que los posts sean útiles para ti.
¡Muchos éxitos!
LikeLike
Hola Juan Carlos, quería preguntarte sobre las diferencias entre las distribuciones de Shapiro wilk y la de Kolmogorov
LikeLike
Hola Wendy,
Que gusto saber de ti y muchas gracias por escribir en Stats SOS. El Shapiro Wilk y el Kolmogorov Smirnov son pruebas que pueden ser usadas para medir la normalidad de puntajes. ¿Qué significa esto? Que miden si tus puntajes están distribuidos de manera paramétrica (normal) o no.
Dicho esto, el Shapiro Wilk se utiliza cuando tienes muestras pequeñas (menores a 50 casos). Mientras tanto, el Kolmogorov Smirnov se utiliza cuando tienes muestras más grandes (mayores a 50 casos).
¿Cómo funcionan estos estadísticos?
Lo que hacen ambos estadísticos es comparar una distribución de datos esperada contra la distribución de datos que tienes en tu muestra. Esta distribución de datos esperada tiene puntajes distribuidos de manera normal. ¿Hasta ahí todo bien? Ok, sigamos.
Cuando haces este análisis y comparas hipótesis (ver http://statssos.net/2014/11/21/es-significativo-que-es-eso-la-estadistica-inferencial/), dices lo siguiente:
Primera hipótesis (o H0): Puntajes esperados que están distribuidos de manera normal = La distribución de los puntajes de la muestra de mi investigación.
Segunda hipótesis (o H1): Puntajes esperados que están distribuidos de manera normal son diferentes a la distribución de los puntajes de la muestra de mi investigación.
Entonces, como tu quieres que tus puntajes estén distribuidos de manera normal (porque así haces análisis más fáciles) deseas elegir la primera opción. ¿Cómo lo haces? ¡Sencillo!
Estos dos análisis te muestran un valor p (o significación). Tal como sale en el post de estadística inferencial (ver http://statssos.net/2014/11/21/es-significativo-que-es-eso-la-estadistica-inferencial/) si tu valor p es MAYOR a .05 no puedes rechazar la primera hipótesis, por ello tienes que aceptar que ambas distribuciones son iguales. Si una distribución normal esperada es igual a la distribución de tus puntajes, entonces quiere decir que tus puntajes están distribuidos normalmente.
Por otro lado, si la p (significación) es MENOR a .05 rechazas la primera hipótesis y por ende aceptas la segunda hipótesis. Esta te dice que la distribución de tus puntajes es diferente a una distribución de puntajes normal esperada. En palabras simples, la distribución de tus puntajes no es paramétrica.
Espero que esto haya sido de ayuda
¡Muchos éxitos!
LikeLike
muchas gracias!!!!!! en serio muchas gracias, no sabes la pelea que le hago a la estadística desde mis primeros ciclos. gracias por ayudarme
LikeLike
Estimada Wendy,
Muchas gracias a ti por leer Stats SOS. Me alegro que haya sido de ayuda y no te pelees adelante no más.
Muchos éxitos
LikeLike
excelente, me ha gustado a forma clara como explica al detalle para saber interpretar los resultados, voy a seguir su instrucciones para seguir aprendiendo la estadística. Felicitaciones y gracias
LikeLike
Estimada Nelida,
Muchas gracias por escribir a Stats SOS. Me alegra mucho que el blog esté siendo de ayuda. Encantado de tenerla pronto por aquí y comentar.
Mucho éxito
LikeLike
Pingback: ¡No puedo comparar cosas medidas de diferente manera! Los puntajes Z | Stats SOS
Hola Juan Carlos, te escribo para pedirte ayuda respecto a la definición de pruebas paramétricas y pruebas no paramétricas.
Por cierto, tu blog es maravilloso, haces todo más entendible.
Gracias
LikeLike
Estimada Johanna,
Muchas gracias por escribir en Stats SOS. Las pruebas paramétricas son todos los análisis que asumen que los puntajes de las variables están distribuídas de forma normal (como una campana simétrica). En cambio, las pruebas no paramétricas no tienen este supuesto y tampoco asumen que los puntajes de los datos se distribuyen de una manera específica.
¡Mucho éxito!
LikeLike
Hola Juan Carlos, gracias por la información tan clara que nos brindas. Te quisiera hacer otra consulta pero ahora sobre la distribución normal que tan bien describes en este post. Sucede que he aplicado una prueba de likert sobre Clima escolar que tiene 50 ítems, cuyas alternativas miden la frecuencia de ocurrencia de los mismos y son Nunca (0), Casi nunca (1), A veces (2), Mucha veces (3) y Siempre (4). Sin embargo, hay unos 20 ítems que son negativos (relacionados a violencia e indisciplina) y que tendrían que tener valores inversos, es decir Nunca (4), Casi nunca (3), A veces (2), Mucha veces (1) y Siempre (0). Mi pregunta es si a la hora de hacer el análisis de la distribución normal, ¿tengo que tener en cuenta esos valores inversos? ¿o mantengo los valores en un sólo sentido? He probado hacerlo de las dos formas y si mantengo los valores iguales para todos los ítems me sale con distribución normal y en el otro caso no. Es una disyuntiva que tengo ahora. Espero que puedas orientarme. Gracias nuevamente.
LikeLike
Hola Alexander,
Muchas gracias por escribir a Stats SOS. Al invertir los datos, máximo lo que puede ocurrir es que sin invertir tienes una alta frecuencia de valores altos, cuando inviertas esta frecuencia será en valores bajos (en lugar de que se repita mucho el 4, se repetirá mucho el 0). Entonces, si se repiten mucho los valores altos cuando los inviertas es posible que deja de ser simétrica la distribución de valores (siempre y cuando haya una alta frecuencia de valores muy bajo o muy altos). Si está distribuido de manera normal (perfecta) la inversión no tendría que generar un efecto muy importante en la distribución de los datos (se tendría que mantener normal).
Pero de todas maneras, yo tendría todos los valores en un solo sentido (valores más altos representan con mayor intensidad el concepto evaluado). Esto por un tema de orden. Sobre la base de esa decisión correría mi prueba de normalidad y vería qué valores me salen. Aparte, complementaría esta prueba con la revisión de la asimetría y la curtosis para ver si efectivamente la distribución rompe el supuesto de normalidad de manera contundente.
¡Mucho éxito!
LikeLike
Muchas gracias Juan Carlos. Seguiré tu consejo. Tiene sentido lo que me mencionas. ¡Un abrazo!
LikeLike
Hola Juan Carlos, primero agradecerte por tus informaciones, realmente es una gran ayuda.
Quisiera preguntarte si es posible que un (P) significación sea mayor que 1, ya que alguien me dijo que si p0.5 fuerte o que proviene de distribución norma y si p=1 es perfecto , pero me preocupa porque el p es mucho mayor que 1. Mi prueba de normalidad Shapiro Wilk me resultó 0.081 para el pretest y 0.121 para el postest.
Por favor requiero tu ayuda urgente.
LikeLike
Hola Hilda,
Muchas gracias por escribir a Stas SOS. Un valor p no puede ser mayor a 1. Yo volvería a correr el análisis y revisar tu base de datos, puede ser que el cálculo de Shapiro Wilk te salga mayor a 1 que sí es posible pero la significación no puede salirte mayor a 1.
¡Mucho éxito!
LikeLike
Hola muy bueno dias. Quisiera que me ayude con estas dos preguntas: 1.porque al ANOVA se le considera como un análisis ómnibus?.
2. Porque al ANVA se le considera como una prueba robusta? Estaré más que agradecida con tu ayuda.
LikeLike
Estimada Ruth,
Muchas gracias por escribir a Stats SOS. Voy a enumerar tus preguntas para que sea más fácil responder.
1) El ANOVA se llama prueba omnibus porque es una prueba global y no específica de dos grupos. El ANOVA te dice que existen diferencias entre múltiples grupos pero no te dice en cuáles específicamente.
2) Se le considera una prueba robusta porque a pesar de que pueden no cumplirse algunos supuestos clásicos como por ejemplo la distribución normal de puntales debido a la presencia de puntajes que son atípicos (muy altos o muy bajos), el análisis logra hacer un cálculo que no es sesgado. Entonces, la robustez implica a que mantiene la presión a pesar que algunos supuestos del ANOVA no se cumplan al 100%.
¡Mucho éxito!
LikeLike
Que tal, muchas gracias por todos los posts realmente son de excelente ayuda. Quisiera saber cuáles son los pasos para hacer la prueba de normalidad (el gráfico) y la prueba de Kolmogorov Smirnov en SPSS
Muchas gracias por la ayuda
LikeLike
Estimada Brenda,
Muchas gracias por escribir a Stats SOS. Para conseguir la prueba de Kolmogorov Smirnov tendrías que ir a la siguiente ruta: Analizar/Estadísticos descriptivos/Explorar/
Luego ahí es necesario que ingreses la variable que deseas ver la distribución y luego tendrías que ingresar a opciones y especificarle al programa que te de un histograma conjunto con las pruebas de normalidad. Con eso tendrás toda la información necesaria. Si la prueba de kolmogorov es estadísticamente significativa quiere decir que la distribución de tus puntajes no es paramétrica (o normal).
¡Mucho éxito!
LikeLike
Estimado Juan Carlos:
No sabe cómo le agradezco sus clases de estadística. Soy totalmente profana en la materia, de letras de toda la vida, por cuestiones de trabajo debo hacer de vez en cuando análisis estadísticos para mis investigaciones.
Mi cuestión es la siguiente: tengo tres grupos de alumnos de diferentes etapas educativas a los que hemos pasado dos escalas de tipo likert, una de actitud y otra de autopercepción de la eficacia en la escritura, de las que sale una puntuación global para cada escala. Esas serían las variables dependientes. Como independientes tenemos el sexo, el origen cultural y la etapa educativa.
Después de haber leído lo que le escribe a Brenda, hago eso que le dice pero en la ventana del SPSS que se abre tras explorar, salen dos recuadros con “lista de dependientes” y “lista de factores”. aquí va la duda principal: ¿en la lista de dependientes ponemos las dos puntuaciones globales de la escala? ¿Y en la lista de factores?
Podría darse el caso de que en una escala hubiera diferencias significativas y en otra no, es decir, en una no hubiera normalidad y en la otra sí, ¿habría que operar con pruebas diferentes según el caso: no paramétricas para la primera y paramétricas para la segunda? ¿Y si se establece una correlación entre ambas puntuaciones, emplearíamos la prueba de Spearman o la de Pearson?
Perdone si estoy planteándole tonterías, pero en esto de la estadística estoy bastante perdida.
Muchas gracias.
Saludos,
Ana
LikeLike
Perdón, una cuestión más. Y si no hay una puntuación global de cualquier escala, sino una serie de ítems ¿qué se pondría en la lista de dependientes?
Gracias de nuevo.
LikeLike
Estimada Ana,
Muchas gracias por escribir a Stats SOS. Primero que todo yo haría una correlación de Pearson con las dos variables dependientes.
Una variable “factor” es una variable que es categórica (grupos) y que acompaña a explicar una variable dependiente.
Una posibilidad con una serie de ítems es que si están relacionados entre sí, estos se podrían sumar y tener un puntaje global.
¡Mucho éxito!
LikeLike
De acuerdo, muchas gracias, así lo haré. Perdone que no le haya contestado antes, he estado desconectada.
Saludos.
LikeLike
Hola, Juan Carlos. Otra duda sobre la normalidad de la muestra. Si tenemos una muestra de 612 alumnos (con subgrupos de 357 y 255), ¿este número no justifica de por sí el empleo de estadísticos paramétricos sin llegar a hacer las pruebas de Kolmogorov-Smirnov? Teniendo en cuenta que en muestras grandes, ambos tipos de estadísticos (paramétricos y no paramétricos) se comportan de forma tan parecida que los resultados son casi iguales?
En el caso de que así fuera, ¿sabrías alguna referencia para justificarlo?
Muchas gracias.
LikeLike
Estimada Ana,
Muchas gracias por escribir a Stats SOS. Más allá de la distribución de los puntajes los análisis paramétricos tienen un tratamiento distinto a los no paramétricos entonces no diría que son “casi iguales”.
¡Mucho éxito!
LikeLike
Gracias, Pero entonces ¿no es suficiente una muestra grande para usar los paramétricos? ¿Habría que emplear y ver los resultados de la Kolmogorov-Smirnov?
LikeLike
Estimada Ana,
Muchas gracias por escribir a Stats SOS. Es correcto, probaría mejor la normalidad.
¡Mucho éxito!
LikeLike
De acuerdo, muchas gracias, Juan Carlos. Saludos.
LikeLike
Gracias por compartir todo este conocimiento. Estoy en pleno desarrollo de mi tesis y justo me encuentro en la explicación de la metodología y análisis de datos a usar y gracias a este blog estoy entendiendo todos estos conceptos.
LikeLike
Gracias por compartir todo este conocimiento. Estoy en pleno desarrollo de mi tesis y justo me encuentro en la explicación de la metodología y análisis de datos a usar y gracias a este blog estoy entendiendo todos estos conceptos.
LikeLike
Hola!! en primer lugar felicitarte por tu excelente y clara informació
Necesito saber que pasa en caso de que un grupo distribuya normal y otro no? utilice kolmogorov y un grupo solo me dio para mantener la h0, mientras que con el valor p del otro grupo, se rechaza. En este caso se toma como que no distribuye normalmente? GRACIAS ❤
LikeLike
Hola Claudia,
Muchas gracias por escribir a Stats SOS. Yo tomaría que no se distribuye normalmente.
Mucho éxito!
LikeLike
Hola Juan Carlos, felicidades por esta iniciativa que tanto ayuda no solo a estudiantes de psicología, sino de ciencias sociales! Tenía una duda, quiero comparar 5 grupos por edades los puntajes de una escala de participación politica. En la prueba Kolgomorov-Smirnov para los 5 grupos, me salió .05 (no sig.) , qué estadístico debería usar ANOVA o Kruskal Wallis?, también quería saber cuándo usar la asimetría/curtosis o la pruebas de normalidad (KS-SW) para ver la distribución de los datos? se pueden usar los dos a la vez? saludos!!
LikeLike