Estimados todos, bienvenidos a otro capítulo de Stats SOS. Espero que estén muy bien. Como ya comenté en el post pasado, seguiremos avanzando por el maravilloso mundo de los análisis lineales en estadística.
En esta oportunidad, presentaré el análisis de varianza (ANOVA). Entonces, el objetivo de este post es introducir y describir de manera sencilla y divertida el ANOVA.
Antes que nada, un poco de historia para amenizar el post. El ANOVA fue creado por Ronald Fisher (1890 – 1962), un estadístico, matemático, biólogo, genetista, en otras palabras el señor hacía de todo. Quizás si nacía luego hubiera trabajado en algún momento en física con Stephen Hawking o algo por el estilo.
Como vimos antes la t-student es un análisis lineal que nos permite comparar dos grupos y ver si existen diferencias significativas entre los grupos, o de manera más técnica si un par de grupos se relacionan con una variable cuantitativa. En el caso del ANOVA, la relación no es entre dos grupos y una variable cuantitativa o de intervalo sino, una relación entre varios grupos (3 a más grupos) y una variable de intervalo. Si no recuerdan qué es una variable de intervalo siempre pueden ir al post de tipos de variables que les dará un pequeño y maravilloso recordatorio. Muchas veces, el ANOVA se le llama un análisis “Omnibus” porque es un test general que te da a grandes rasgos si existen diferencias entre varios grupos en alguna cualidad determinada. Un dato muy importante, para hacer este análisis es necesario que la distribución de sus datos sea paramétrica o normal (¿Qué es eso? Aquí un recordatorio) y una forma de revisar esto lo pueden encontrar aquí.
Vamos mejor a un ejemplo, en este caso utilizaré datos propios de una investigación que hice tiempo atrás. Si quieren saber cuál, siempre pueden ir a este post que sale la lista de los temas que he publicado o he enviado a publicación. :).
Queremos saber si existe relación entre el tipo de carrera universitaria que una persona quiere seguir y su manejo del tiempo libre. En ese caso, tenemos variable A, que es nominal y agrupa los tipos de carreras universitarias (Ingeniería, Psicología, Arquitectura, Derecho, etc).
Por otro lado, tenemos una variable B, que es de intervalo y que representa el promedio obtenido de una prueba de manejo del tiempo libre. Entonces, tenemos por un lado, una variable nominal (carreras) y al otro lado, una variable de intervalo (promedio de una prueba de manejo del tiempo libre).
La primera hipótesis (hipótesis nula) plantea que no hay diferencias entre los diferentes grupos y el promedio del manejo del tiempo libre. ¿Qué quiere decir esto? Que el manejo del tiempo es igual para todas las carreras. La otra hipótesis nos diría que sí existen diferencias en el manejo del tiempo libre por carrera estudiada. En otras palabras, que sí hay relación entre el tipo de carrera que se estudia y el manejo del tiempo. Si desean refrescar su memoria sobre la prueba de hipótesis este post puede ser de ayuda.
Ahora que tenemos nuestras hipótesis en mente, vamos a la parte técnica, vamos al SPSS y seguimos la siguiente ruta:
Analizar/Comparar medias/ANOVA de un factor/
Luego en factor deben ingresar la variable nominal o las carreras y en lista de dependientes tienen que ingresar manejo del tiempo libre (o para cualquier investigación una variable cuantitativa). ¿Asustados aterrorizados? ¿Salieron corriendo? Espero que no, ojalá sigan acá conmigo porque vamos muy bien. De a pocos, vamos avanzando, el mundo avanza :).
Luego de ello, es probable que les salga una tabla como esta:
Esta es la famosa tabla del ANOVA. Si se fijan hay cinco columnas con números porque el SPSS te muestra todo el proceso que se debe seguir para llegar a la F y la significación que es lo que se usa para determinar si existe una relación o no. No me voy a detener tanto en las especificaciones matemáticas de la tabla sino en el aspecto práctico. Si alguien tiene curiosidad de saber por ejemplo, qué es la suma de cuadrados, grados de libertad y media cuadrática siempre puede dejar un comentario en la sección abajo. Lo que si es importante saber, es que de los cálculos de la mano izquierda o columna izquierda aparecen los de la mano derecha.
Para darles un ejemplo, si dividimos la media cuadrática inter grupos (4.906) entre la media cuadrática intra grupos (2.734) obtenemos la F (1.795). Un tema anecdótico, se le llama “F” porque viene de “Fisher” quien inventó este análisis. Esa es una particularidad de los estadístas, cuando inventan o encuentran un nuevo análisis le ponen rápidamente su apellido.
Volvamos a lo nuestro, la F significa cuan grande es la varianza generada por las carreras en comparación a que esta relación esté generada por el azar. En ese caso, mientras más grande es la F significa que los grupos han generado más varianza que está relacionada a nuestras variables. Entonces, la relación entre las carreras y el manejo del tiempo libre es más debido a las profesiones que al azar. ¿Vamos bien hasta aquí? ¡Entonces sigamos!
Por ello, mientras más grande sea la F más chica será la significación (sig) que nos permite saber si hay diferencias estadísticamente significativas o no. En este caso, la significación es menor a 0.05 entonces podemos rechazar la hipótesis que no hay relación o diferencias entre el tipo de carrera y el manejo del tiempo libre. Entonces, para este caso, aceptamos que sí hay relación entre el tipo de carrera que uno elige y su manejo del tiempo libre. En otras palabras, hay diferencias entre el manejo del tiempo libre por el tipo de carrera. (Si no recuerdan cómo funciona la significación este post les puede ser de ayuda).
La pregunta del millón es ¿Cuáles carreras se diferencian en el manejo del tiempo libre? Para eso, tenemos que hacer otro análisis llamado análisis post hoc. Pero ese tema, será el tema central de nuestro siguiente post.
Espero que hayan llegado hasta acá, que estén ilesos después de su batalla con el ANOVA. Cerramos el post de hoy con una ligera observación que me he percatado cuando explico este análisis y que hace referencia al título. Por alguna razón, cuando la gente escucha la palabra “ANOVA” la cara le cambia y un temor tremendo se refleja en su rostro. Pero luego de que se explica y lo entienden, aparece una sensación de satisfacción y alivio bastante agradable :).
Bueno, esto es todo por hoy, recuerden que siempre pueden dejar sus maravillosos comentarios en la zona de comentarios y los espero pronto en otro capítulo más de estadística para todos. En el siguiente capítulo veremos la continuación del ANOVA que es el análisis post hoc, que, siguiendo nuestro ejemplo, nos permitirá saber qué carreras específicamente tienen un mayor o menor manejo del tiempo libre.
¡Qué les vaya muy bien! ¡Buenas vibras!
Bibliografía recomendada
Miller Jr, R. G. (1997). Beyond ANOVA: Basics of applied statistics. CRC Press.
Pingback: La vida después del ANOVA: el Post Hoc | Stats SOS
Pingback: ¡Pero qué linda relación tienen! La correlación de Pearson | Stats SOS
Pingback: Cálculos manuales del ANOVA | Stats SOS
Pingback: Dos caminos, un destino: el ANOVA de dos vías | Stats SOS
Pingback: Un día llegó la regresión múltiple | Stats SOS
Hola me podrias ayudar con este tema ?
Anova: criterios y limitaciones
Gracias
LikeLike
Estimada Alicia,
Muchas gracias por escribir a Stats SOS. ¿Podrías especificar un poco más tu pregunta?
Intentaré responderla con el riesgo de no completar toda la información.
Criterios:
1) Que tengas una variable categórica con más de dos grupos y una variable que sea de intervalo.
2) Esta variable de intervalo tiene que tener puntajes con una distribución normal.
Esos son los criterios claves para realizar el análisis de ANOVA que está arriba.
Limitaciones:
1) Si la variable de intervalo no tiene una distribución no normal los resultados podrían ser sesgados.
2) En sí, el ANOVA solo te especifica diferencias generales entre todos los grupos pero no te dice entre qué grupos específicamente.
3) Es un análisis que solo puede utilizar dos variables (las previamente mencionadas y no más).
Espero que esto ayude.
¡Muchos éxitos!
LikeLike
Hola Juan Carlos,
te quería preguntar si es posible o más adecuado reportar ANOVA cuando la distribución de algunas variables no es normal, pero se hallan los mismos resultados que usando Friedman?
Muchas gracias por esta iniciativa.
LikeLike
Hola Sofía,
Muchas gracias por escribir a Stats SOS. Mira, yo revisaría de varias maneras la distribución de mis puntajes antes de determinar que no son normales. Usaría primero, Kolmogorov-Smirnov o Shapiro Wilk (el primero se usacuando tienes más de 40 casos y el segundo si tienes menos de este número). Aparte, revisaría la asimetría y la kurtosis, si estos números son demasiado altos ahí recien determinaría que la distribución no es normal pero si este no es el caso continuaría con ANOVA. Si tu ANOVA es parecido a Friedmann es posible que la distribución de tus puntajes no tenga una forma demasiado lejos de una curva normal.
¡Mucho éxito!
LikeLike
Buenos días: Tengo una pregunta al respecto y espero me la pueda aclarar por favor, es la siguiente:
¿Cuál es la diferencia entre la prueba F-Fisher y la prueba de ANOVA?
Muchas gracias
Saludos cordiales
LikeLike
Buenos días,
Muchas gracias por escribir a Stats SOS.
Para hacer un ANOVA necesitas medirlo utilizando una F-fisher.
Muchos éxitos
Saludos cordiales
LikeLike
Buenas noches,
cuando hacemos el analisis post hoc con varianzas distintas (ejemplo:prueba de TAMHANE) ,¿ no se estaria violando uno de los supuestos de la ANOVA que es la homocedasticidad? Gracias.
LikeLike
Buenos días,
Mucha gracias por escribir a Stats SOS. La respuesta es sí y no. Sí porque las varianzas son diferentes a lo largo de los grupos. No porque los análisis post hoc como por ejemplo el Games Howell hace una corrección para poder calcular las múltiples. En ese este caso, es muy similar a la corrección de Welsch cuando se utiliza T-Student para dos muestras independientes.
¡Mucho éxito!
LikeLike
entonces en este caso de varianzas diferentes, ¿podria seguir utilizando la ANOVA sin ningun problema?
Gracias
LikeLike
Estimad@,
Nuevamente gracias por escribir a Stats SOS. Sí, puedes usar el ANOVA sin ningún problema.
¡Mucho éxito!
LikeLike
Hola Juan Carlos, ante todo gracias por los post -tan bien trabajados- para que puedan ser tan comprensibles. Se que no tiene que ver directamente con este tema;sin embargo, a alguién que se dedica a la estadística ¿se le conoce como estadista o estadístico? Gracias y Saludos.
LikeLike
Estimado Ron,
Muchas gracias por escribir en Stats SOS. No te preocupes, puedes comentar lo que te provoque aquí en el blog. La persona que se dedica a la estadística se le conoce como estadístico.
¡Mucho éxito!
LikeLike
Gracias.
LikeLike
Hola! Una consulta:
Si quiero comparar los puntajes promedios de tres pruebas aplicadas a una misma muestra, para ver si existen diferencias significativas, lo adecuado sería realizar el ANOVA?
Gracias
LikeLike
Estimad@,
En esencia sí, tienes que hacer un ANOVA pero de medidas repetidas. Asumiendo que son las mediciones con las mismas personas. En ese caso, utilizarías otros estadísticos como Mauchly para ver si existen diferencias entre las múltiples medidas tomadas.
¡Mucho éxito!
LikeLike
Hola nuevamente,
En realidad se trata de 3 subescalas de una prueba, que fueron aplicadas a la misma muestra. Yo lo que hice fue ver sus intervalos de confianza y pude observar traslape entre los 3 intervalos, por lo que pensé que no habían diferencias significativas. Luego, para corroborar, hice comparaciones de medias para muestras relacionadas y encontré diferencias significativas entre dos subescalas.
Si es con ANOVA, ¿Cómo podría hacer el análisis en el SPSS?
Muchas gracias!
LikeLike
Estimad@,
Tendrías que usar ANOVA de medidas repetidas si es que los puntajes están distribuidos normalmente. Este enlace podría ser de ayuda:
https://statistics.laerd.com/spss-tutorials/one-way-anova-repeated-measures-using-spss-statistics.php
Si no estuvieran distribuidos de manera normal tendrías que usar otro procedimiento que se llama el test de Friedmann, aquí está un enlace que podría ser de ayuda.
https://statistics.laerd.com/spss-tutorials/friedman-test-using-spss-statistics.php
¡Mucho éxito!
LikeLike
Creo que una genial idea sería hablar, aunque sea en conceptos la diferencia entre una ANOVA, una ANCOVA, MANOVA y ANCOVA. Nunca lo encontré explicado de forma sencilla y con algún ejemplo. Si puedes resolver esa duda sino esperaré a algún nuevo post. Gracias!
LikeLike
Estimado Adrian,
Muchas gracias por escribir a Stats SOS. Por el momento no existe un post sobre ANCOVA y MANOVA. Sin embargo, podría comentarte velozmente las diferencias.
El ANCOVA es un análisis de covarianza. En este aspecto es bien parecido al ANOVA porque relaciona una variable que tiene varios grupos con una cuantitativa. El ingrediente extra que tiene el ANCOVA es que relaciona una variable de múltiples grupos con una cuantitativa controlando (o manteniendo constante) otra variable que es cuantitativa. En este análisis, a esta variable se le suele llamar covariable. De ahí sale el nombre de ANCOVA o análisis de covarianza.
El caso del MANOVA, es una extensión del ANOVA. Su nombre significa Análisis de varianza múltiple. El MANOVA toma en cuenta dos o más variables dependientes. De este modo tu puedes relacionar una variable que es grupal con dos o más variables cuantitativas.
De este modo, estos análisis tienen dos grandes diferencias: a) el ANCOVA solo analisa una variable cuantitativa dependiente en cambio el MANOVA puede analizar dos o más. b) el ANCOVA relaciona dos variables, una de múltiples y otra cuantitativa mientras que se controla otra variable (llamada covariable) que es de caracter cuantitativo. En cambio, el MANOVA relaciona una o múltiples variables categóricas con múltiples variables cuantitativas sin controlar ninguna covariable. ¿El MANOVA puede controlar covariables? Sí puede pero ya no se llamaría MANOVA sino MANCOVA.
¡Mucho éxito!
LikeLiked by 1 person
Buenas tardes Juan Carlos.
Tengo unos promedios mensuales de índices de temperatura y humedad (ITH) desde marzo 2012 a junio 2016. Quiero analizar en que mes y año los ITH son significativamente diferentes.
Esto lo puedo realizar con el ANOVA?
Debo tomar como grupos los años? o los meses?
Con relación a la anterior pregunta, de cualquier forma los grupos no estarían completos (en el 2016 solo tengo 6 meses de datos y en 2012 solo tengo datos de marzo a diciembre).
Lo anterior me impide hacer el ANOVA? debo utilizar otra prueba?
LikeLike
Estimad@,
Muchas gracias por escribir a Stats SOS. Por lo que entiendo tienes varias mediciones de un mismo grupo a lo largo del tiempo. Esto lo puedes hacer con un ANOVA, pero con uno de medidas repetidas y no con grupos independientes. Con eso, podrás saber el cambio que se dio a lo largo del tiempo. Dado que tienes incompletos los años yo tomaría los meses como unidad de referencia para hacer el análisis. De todos modos, sería lo más adecuado que pongas tu análisis no puede representar específicamente todo el año (porque tienes dos años incompletos) sino cómo es que la temperatura y humedad a cambiado a lo largo de los meses en un espacio de 4 años. Mientras más medidas (o puntos en el tiempo) tengas es mejor porque será más preciso tu análisis.
¡Mucho éxito!
LikeLike
Pingback: ¿Números muy fríos? ¡Presentemos gráficos! | Stats SOS
Hola Juan Carlos,
Tengo una duda respecto al ANOVA para muestras relacionadas, ¿Cómo sé cuál de los estadísticos se recomienda utilizar al correr el Anova para medidas repetidas: traza de pillai, lambda de wilks, traza de hotelling o raíz mayor de roy?
Muchas gracias de antemano
LikeLike
Estimad@,
Muchas gracias por escribir a Stats SOS. Son diferentes cálculos y estos se diferencian mucho más en análisis multivariados como el MANOVA. De todos modos, se ha encontrado que el Wilks Lamda es el más robusto y el que se suele utilizar más.
¡Mucho éxito!
LikeLike
Muchísimas gracias. Me queda una duda sobre la esfericidad. Si la significancia de la W de Mauchly es menor a 0.05 no puedo asumir esfericidad. Entiendo que en ese caso reviso las estimaciones de Greenhouse-Geisser y de Huynh-Feldt para ver si se acercan a 1 y ver si se acerca a la esfericidad. En el caso de que se acerquen (ambos son mayores a 0.9) ¿reporto la F de la Lambda de Wilks, o tengo que reportar otro estadístico univariado?
De nuevo gracias por tu iniciativa y apoyo
LikeLike
Muchas gracias por escribir a Stats SOS. Según ciertos criterios que por ejemplo se pueden encontrar en el libro de Andy Field de estadística, si de la W de Mauchly es menor a 0.05 tendrías que usar GreenHouse-Geisser siempre y cuando este valor sea menor a 0.75. Si el valor es muy extremo también podrías reportar wilks lambda para darle más solidez a tus datos.
¡Mucho éxito!
LikeLike
Muchísimas gracias.
LikeLike
Hola Juan Carlos, muy buenas las explicaciones
Unas dudas respecto a la esfericidad: si a traves de la prueba Mauchly rechazo esfericidad, pero GreenHouse-Geisser es mayor a 0.75, ¿reporto que hay esfericidad?, en caso no haya esfericidad ¿reporto la F multivariada o la univariada (de la tabla de efectos intra-sujetos)?
Gracias por la iniciativa
LikeLike
Estimado Anónimo,
Muchas gracias por escribir a Stats SOS. Discúlpame la demora en responder, pero algo pasó con la página del blog que no me ha permitido responder directamente el mensaje. Voy a pegar la pregunta acá para dar el contexto:
—————————————
Hola Juan Carlos, muy buenas las explicaciones
Unas dudas respecto a la esfericidad: si a traves de la prueba Mauchly rechazo esfericidad, pero GreenHouse-Geisser es mayor a 0.75, ¿reporto que hay esfericidad?, en caso no haya esfericidad ¿reporto la F multivariada o la univariada (de la tabla de efectos intra-sujetos)?
Gracias por la iniciativa
————————————
No, en ese caso tienes que ver la prueba de Huyn-Feldt e interpretar desde ahí. Ese es otro cálculo que no asume esfericidad. Reportaría la univariada siempre y cuando quieres saber si hay diferencias a lo largo de las repeticiones por el hecho de repetir y no por otra variable aparte.
¡Mucho éxito!
LikeLike
Estimado Juan Carlos,
Quería consultar como obtener el coeficiente de eta cuadrado utilizando el análisis de ANOVA. Tengo entendido que es la división entre la suma de cuadrados del efecto con la suma de cuadrados total, donde se cuenta el error, sin embargo en la tabla de ANOVA solo se cuenta con la suma de cuadrados intragrupos y entre grupos.
Muchas gracias de antemano!
LikeLike
Estimado Hugo,
Muchas gracias por escribir a Stats SOS. En una ANOVA, la varianza intra grupos también se cuenta como la varianza del error (porque es la variabilidad entre las personas). En realidad eso no es un error (en multinivel esta varianza es muy útil). La varianza entre grupos es la varianza también de tus predictores (si haces una regresión múltiple con dummies te debe salir ese nombre). Entonces la varianza entre grupos es la que explica tu variable categórica y la varianza intra grupo es lo que no se puede explicar por tus grupos (por eso también le llaman erro). La suma de eso es la varianza total.
¡Mucho éxito!
LikeLike
Muchísimas gracias!
LikeLike
Hola podrias ayudarme con esta duda,
Respecto al tipo de variable, qué limitaciones tiene un análisis de varianza ANOVA?
LikeLike
Estimad@,
Muchas gracias por escribir en Stats SOS. no me queda muy clara la pregunta pero ensayaré una respuesta.
La gran limitación que tiene el ANOVA es que es un análisis bivariado. Por ello, solo puedes analizar un grupo y las diferencias que tienen con respecto a una variable que son puntajes. Entonces, puede ser que te salgan diferencias estadísticamente significativas pero podría deberse por otras variables que no estás tomando en cuenta en lugar de porque los grupos son diferentes.
Otra limitación que tiene es que la distribución de los puntajes de todos los grupos tienen que tener una distribución normal, situación que no siempre se cumple.
Sobre el tipo de variable, siempre se utilizan puntajes que son cuantitativos, pero esto no lo vería como una limitación sino más bien como una característica del análisis en sí.
¡Mucho éxito!
LikeLike
Hola, podrías ayudarme con una pregunta; ¿ por qué al ANOVA se le considera como una prueba robusta?
LikeLike
Estimado Jesus,
Muchas gracias por escribir a Stats SOS.
Se le considera una prueba robusta porque a pesar de que pueden no cumplirse algunos supuestos clásicos como por ejemplo la distribución normal de puntales debido a la presencia de puntajes que son atípicos (muy altos o muy bajos), el análisis logra hacer un cálculo que no es sesgado. Entonces, la robustez implica a que mantiene la presión a pesar que algunos supuestos del ANOVA no se cumplan al 100%.
¡Mucho éxito!
LikeLike
Estimado Prof. Juan Carlos,
Muchas gracias por todo su trabajo.
Si se hace una prueba de 40 preguntas (de selección múltiple con única respuesta) a un grupo de estudiantes, y esa prueba tiene a su vez varias categorías (por ejemplo, una categoría o dimensión es análisis, otra aplicación, otra conceptualización, etc.,, y cada categoría incluye varias de las preguntas de la prueba general), ¿ es posible hacer un ANOVA entre las categorías, aún siendo el mismo grupo de estudiantes?, ¿o qué otra prueba se puede hacer para determinar diferencias entre esas categorías?
Muchas gracias
Saludos
Francisco Córdoba
LikeLike
Estimado Francisco,
Muchas gracias por escribir a Stats SOS. Creo que un ANOVA de medidas repetidas podría ser tu opción que toma en cuenta al mismo grupo en múltiples mediciones.
Mucho éxito!
LikeLike
Estimado Mtro. Juan Carlos:
En primer lugar lo felicito por este espacio, pues es muy claro. Quisiera su apoyo con la siguiente pregunta, ¿qué características tiene la prueba de ANOVA por bloques?
He buscado información en la web y no me queda muy claro su uso ni condiciones.
Saludos.
LikeLike
Buenos días,
Muchas gracias por escribir a Stats SOS. Me podrías ayudar un poco a qué te refieres?
Intuyo que te refieres a un diseño de bloques y luego en ese diseño aplicar un ANOVA. Esos diseños lo que implican es que la asignación de los participantes a cada grupo sea de manera aleatoria. Esto te permite que todos los participantes de tu estudio tengan la misma probabilidad de ser escogida a cualquiera de tus grupos reduciendo así el sesgo de autoselección de grupos (una persona puede escoger pertenecer a un grupo específico por una característica personal que escapa de lo que tu estás trabajado en tu estudio).
Mucho éxito!
LikeLike
Hola, me gustaría saber cuales son sus aplicaciones en la biología
LikeLike
Hola Aris, podrías elaborar un poco más tu pregunta? Yo no soy Biólogo entonces no tengo mucha claridad de conceptos complejos de esa rama. Gracias!
LikeLike