Dos caminos, un destino: el ANOVA de dos vías

Estimados todos, bienvenidos a un nuevo capítulo de Stats SOS, espero que estén muy bien y que todo vaya maravilloso para ustedes.

Ya hemos avanzando bastante y cada vez la complejidad de los temas aumentan pero estoy seguro que ustedes están yendo muy bien. Tal como mencioné el post pasado, ahora vamos a ver una extensión del ANOVA, que es el ANOVA de dos vías o Two way ANOVA. Los que no recuerdan qué es el ANOVA simple no hay ningún problema, pueden ir a este post que los ayudará a refrescar su memoria. 

Entonces, el objetivo de la aventura de hoy es describir y explicar de manera sencilla, el ANOVA de dos vías. Pero antes de ello, brevemente me iré atrás en el tiempo y mencionaré algo sobre el ANOVA simple, ¿está bien?

Tal como ustedes my bien saben, el ANOVA es una prueba lineal, que lo que busca es relacionar una variable categórica que tiene más de tres grupos, con una variable de intervalo. Si no recuerdan a qué me refiero, este enlace les puede hacer el truco.

En el caso del ANOVA de dos vías, la idea ya no es relacionar solo una variable categórica con una variable de intervalo, sino dos variables categóricas con una de intervalo. Por eso, es que se llama de dos vías, porque ya no se desea relacionar una variable (categórica) con otra variable (intervalo), sino dos o más variables categóricas, con esta de intervalo. 

¿Suena a un idioma oscuro y malévolo? ¡No hay problema! Vamos a un ejemplo que seguro nos aclarará el panorama.

Imagínense que tenemos interés en conocer los niveles de estrés de un grupo de jóvenes y cómo estos niveles se relacionan con el sexo y la percepción de salud. Entonces, en este caso tenemos tres variables: a) Estrés que es medida con un cuestionario y tiene puntajes y por ende será nuestra variable de intervalo (variable a). b)  Sexo, que es una variable categórica que puede ser hombre o mujer (variable b). c) Percepción de salud, que es otra variable categórica que tiene cinco opciones. Mala, Regular, Buena, Muy buena y Excelente (variable c).

¡Muy bien! ¿Hasta ahí están conmigo? Espero que sí, así que sigamos. Luego que recogemos toda la información la ingresamos en el SPSS y estamos frente a la computadora, ¿y ahora, qué hago? ¡Muy sencillo! Primero se toman un delicioso café o una infusión para los que no son amantes del cafe y siguen esta ruta.

Analizar/Modelo general lineal/Univariante/

En este caso, la ruta se llama de esta manera porque el ANOVA de dos vías es un análisis lineal que solo usa una variable como resultado, que en nuestro ejemplo es estrés. 

¡Excelente! Luego de ello, les debe haber aparecido un menú. En este caso, tenemos que poner nuestra variable dependiente que sería la variable que queremos analizar. En ese caso, ponemos ahí la variable a, que es el nivel de estrés de los jóvenes. 

Luego, en el recuadro de factores fijos, tenemos que poner nuestras otras dos variables: Sexo (variable b) y Percepción de Salud (variable c). Estas variables se ponen en este recuadro porque son las que deseamos analizar directamente. Los que tienen curiosidad de conocer qué son los otros recuadros, siempre pueden dejar un maravilloso comentario y encantado de ayudarlos.

¿Hasta ahí? ¿Están acá? ¡Muy bien, sigamos! Luego de ello, es importante ir a gráficos y aquí tienen varias opciones, este menú les dice cómo es que quieren su gráfico. Para este ejemplo, lo que haremos es lo siguiente: en eje horizontal  pondremos la percepción de salud y en líneas separadas el sexo. Entonces, al final, nos aparecerá un gráfico con dos líneas, una de hombres y otra de mujeres. Además, en el eje horizontal (el eje echado) saldrán las cinco percepciones de salud (ver arriba). Finalmente, el eje vertical (el parado) les saldrán las medias promedio de estrés . 

Importante: Antes de salir del menú debemos apretar (o pinchar) en añadir para que lo que hemos escogido aparezca en el recuadro de abajo. Esto es importantísimo, porque sino el gráfico no saldrá. Luego debemos poner continuar.

Después de ello, tenemos que ir al botón de Post Hoc y ahí es importante poner los factores en el recuadro del costado que dice “pruebas post hoc para”. Además, es necesario poner un tick en el análisis que queremos. Para este caso, voy a poner Scheffe, porque es lo convencional, sin embargo existen otros análisis más precisos como Dunett y Tukey-B. Para saber más de esto pueden ir al capítulo de post hoc y a la parte de comentarios que les puede dar algunas ideas.  Un dato interesante, es que este análisis de post hoc, es igual al que ya hemos visto antes, entonces ya estamos en la etapa donde los análisis comienzan juntarse entre ellos. Luego de hacer click en todas estas opciones, ponemos continuar.

Finalmente, debemos ir a opciones. Ahí, es necesario pasar las variables del recuadro de “Factores e interacciones” al recuadro contiguo “Mostrar las medias para”. En este caso, tenemos que poner todas las variables menos la que dice “Overall” porque lo que nos interesa es analizar variable por variable. Entonces, queremos analizar, sexo (variable b) y percepción de salud (variable c) y la interacción entre ellas, que en este caso está representado como sexo*percepción general. Los que no recuerdan qué es una interacción pueden ir a este post, que los puede ayudar. ¡Así que no se preocupen! :).

Luego, sería importante también incluir estadísticos descriptivos y la prueba de homogeneidad de varianzas y poner continuar. Los que no recuerdan qué es un estadístico descriptivo, pueden ir a este post. Por otro lado, los que no recuerdan qué es una prueba de homogeneidad de varianzas, este post de la T-student les puede dar la respuesta.

¡Muy bien! Ahora sí, ¡veamos los resultados! Lamento que este post esté siendo un poco largo, pero a medida que se vuelva más complejo el análisis, lamentablemente serán más extensos los posts. En algunos casos intentaré separarlos en dos para aliviar el tema.

¡Importante! El SPSS les va a botar un montón de tablas, y muchas de ellas van a ser redundantes, para este post sólo voy a escoger las tablas que son de mayor utilidad.

Tabla 1

levene2wayanova

Esta primera tabla, mide exactamente lo mismo que ya hemos visto antes, ¿En dónde lo vimos? En la t-student para muestras independientes. Lo que mide esta tabla es si las varianzas son iguales (homogéneas) o diferentes (heterogéneas). Como la significación es mayor a 0.05 no podemos rechazar la idea que las varianzas son iguales. Si no recuerdan por qué se da esto, pueden ir al post de estadística inferencial que los puede ayudar. Un tema importante, para que este análisis sea lo más preciso posible y cumpla todas las reglas de juego, es necesario que las varianzas sean iguales. Dado que en nuestro ejemplo ocurre esto, podemos ser felices y seguir mirando las siguientes tablas.

Tabla 2

intersujetos2wayanova

Esta tabla es la central en el análisis del anova de dos vías. Fírmenlo, recuérdenlo y apúntenlo. Aquí, lo que estamos viendo es la significación y si existe relación entre nuestras variables y el estrés. Aquí podemos ver tres cosas importantes: a) Percepción de salud, la significación es menor a 0.05 (es 0.011), los cual significa que existe relación o diferencias significativas entre las diferentes percepciones de salud y los niveles de estrés. b) Sexo, la significación es menor a 0.05 nuevamente, lo cual significa que sí existe relación entre el sexo y los niveles de estrés en este grupo de jóvenes. En otras palabras, hay diferentes por sexo en los niveles de estrés. Finalmente, c) SG*Sexo (que sería la interacción de percepción de salud con sexo), no muestra relación con los niveles de estrés. Por ello, la variable sexo y percepción de salud, tienen una relación con estrés que es independientemente de cada una. ¿Qué significa eso?  Que no hay una interacción entre Sexo y percepción de salud, y el conjunto relacionado de ambas no generan un cambio en los niveles de estrés. Los que no recuerdan qué es una interacción siempre pueden ir a este pot a refrescar la memoria. 

Tabla 3

diferencias por sexo

Esta tabla nos muestra la diferencia en los niveles de estrés entre hombres y mujeres. Como podemos ver, los hombres reportan menos niveles de estrés que las mujeres. ¿Cómo podemos saber esto? De dos maneras: a) podemos fijarnos en la tabla 2 donde mostraba que hay una relación significativa entre sexo y niveles de estrés. b) podemos ver los intervalos de confianza donde claramente se muestra que los intervalos del promedio de hombres no chocan o traslapan con el de mujeres. ¿Cómo así? El límite superior del intervalo de hombres es 31.301, mientras que el límite inferior de mujeres es 36.343. Por ello, nunca se chocan y eso es una prueba más que hay una diferencia significativa entre sexo. Los que quieren refrescar la memoria sobre intervalos de confianza, pueden ir a este post que les será de utilidad. 

Tabla 4

posthoc2wayanova

Finalmente, pasemos a la última tabla numérica. ¿Siguen acá conmigo? ¿Está todo bien? ¡Excelente sigamos!

Esta tabla intuyo que también debe ser familiar para ustedes, si no lo es, ¡no hay ningún problema! Pueden ir a este post y refrescar la memoria. Esta es una tabla de Post Hoc. Aquí, lo que le pedimos al SPSS es que nos muestre las diferencias entre cada una de las categorías de percepción de salud (Mala, Regular, Muy buena y Excelente) con las otras. No iremos muy al detalle con esta tabla porque es algo que ya hemos visto antes. Pero lo que sí sería importante mencionar es que si seguimos el clásico criterio de la significación menor a 0.05 podemos ver lo siguiente: Existen diferencias en los niveles de estrés entre las personas que dicen tener la salud mala versus los que dicen tener la salud, muy buena y excelente. Las personas con una percepción de mala salud, tienen mayores niveles de estrés que las personas con percepción de muy buena y excelente salud.

Aparte, en todos los otros casos, no existe una relación entre la percepción de salud y los niveles de estrés. Recuerden el post de estadística inferencial, nos morimos por rechazar la primera hipótesis que dice que los niveles de estrés son iguales. Pero para lograr hacer esto, nuestra significación debe ser menor a 0.05.

Gráfico 1

graficade2wayanova

Finalmente, el gráfico, ¡o el famoso gráfico! No se asusten, no se tambalean ni se mareen en la silla. Los gráficos deberían hacernos sonreír en lugar de preocuparnos porque nos dan una representación gráfica de nuestros números. Nota: las medias marginales del lado izquierdo nos muestran los promedios de estrés. Mientras más altos los puntos más estrés. De este gráfico podemos encontrar varias cosas: a) Las mujeres reportan más estrés que los hombres porque la línea verde que significan mujeres está más arriba que la de hombres. b) Tener una mala percepción de salud está relacionada con más altos niveles de estrés, especialmente en mujeres. Como dato curioso, en el caso de los hombres,  se puede ver en la gráfica que los hombres que reportan una percepción de salud buena tienen ligeramente mayores niveles de estrés que los que dicen tener una percepción regular.

Finalmente, y el dato más importante. No hay interacción entre sexo y percepción de salud y esta no se relaciona con los niveles de estrés. ¿Cómo se ve esto en la gráfica? Muy sencillo, si las líneas llegan a cruzarse entre sí, esto quiere decir que sí hay interacción. En otras palabras, la representación de una interacción en la gráfica es cuando las líneas chocan. 

¡Muy bien! ¡Eso sería todo! Lamento que este post haya sido tan largo, espero que no estén agotados, exhaustos ni hayan salido corriendo. Ya saben, que cualquier pregunta, comentario o duda siempre pueden escribir y dejar un maravilloso comentario en la parte de comentarios. Para la siguiente aventura de Stats SOS, veremos la regresión lineal simple. Y ahí se percatarán nuevamente cómo todos estos análisis son parecidos y una misma familia.

Espero que todos tengan un excelente día, ¡Buenas vibras!

About Juan Carlos Saravia

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
This entry was posted in Básico 1.0 and tagged , , . Bookmark the permalink.

59 Responses to Dos caminos, un destino: el ANOVA de dos vías

  1. Anonymous says:

    Hola, Juan Carlos! Una vez más su post es muy esclarecedor. Me quedé muy contenta porque pienso que puedo utilizar el ANOVA de dos vías para mi análisis. Le comento: tengo dos variables nominales: género (femenino y masculino) y orientación sexual (homosexual, heterosexual y otra), que tengo que comparar con otras variables de intervalo. Sin embargo, cuando he hecho una simulación con mis datos, me sale un mensaje de advertencia de que las
    pruebas post hoc no se realizan para género de sujeto porque hay menos de tres grupos. ¿Eso puede perjudicar mi análisis? Muchas gracias por su ayuda. ¡Qué tenga un lindo comienzo de semana! Saludos.

    Like

    • Estimada,

      Muchas gracias por escribir a Stats SOS.
      Entiendo el tema del mensaje de advertencia. Lo que ocurre es que las pruebas de post hoc están diseñadas para reducir el error estadístico que se puede producir cuando se realizan múltiples comparaciones (tres o más). Sin embargo, cuando se tienen dos grupos entonces esto no se aplica. Eso es lo que debe estar pasando.
      Respondiendo directamente a tu pregunta no creo que esto afecte mucho el análisis. Lo que si recomendaría como bien has comentado es hacer un Anova de dos vías, para ver si es que sexo (mujer, hombre) tiene alguna interacción con la orientación sexual. Dependiendo de cuál es la variables de intervalo que utilizas es bastante plausible encontrar una interacción. Eso sería muy interesante.

      ¡Muchos éxitos!

      Like

      • Jorge says:

        Creo que el error que reporta el anónimo del primer comentario se debe a que no tiene sentido realizar pruebas post-hoc cuando un factor sólo tiene dos niveles, porque si existe un efecto significativo de dicho factor sabemos seguro que los dos grupos que lo componen son diferentes entre sí.
        Saludos

        Liked by 1 person

  2. María says:

    En relación con el diseño de un experimento, tengo una duda conceptual. Tengo dos factores. Factor 1 riego: bajo, alto y (¿sin riego?). Factor 2 nutrientes: bajo, alto y (¿sin nutrientes?). ¿Mi duda es si deben realizarse las combinaciones de tratamientos donde no empleo algún factor porque considero que no siempre pueden estar los dos actuando a la vez?. Por ejemplo: Factor 1: sin riego + Factor 2: bajo/alto y viceversa Factor 1: bajo/alto + Factor 2: sin nutrientes. Y en última instancia: Factor 1: sin riego + Factor 2: sin nutrientes sería el control. En realidad, se trata de contemplar la posibilidad de que actúe los dos niveles de un factor sin la aplicación del otro factor. ¿cómo se definirían los tratamientos (y niveles) entonces? 3*3, y uno de ellos sería el control? Gracias

    Like

    • Estimada María,

      Muchas gracias por escribir a Stats SOS.

      Si te entendí correctamente la pregunta alude a si quieres/puedes utilizar el grupo sin riego ni nutrientes. La respuesta es sí. Por supuesto que puedes hacerlo. Ese podría ser tu grupo control.

      Por otro lado, dado que tienes dos variables categóricas (Factor 1 y Factor 2) y quieres saber si estas se relacionan para generar por ejemplo la cantidad de milimetros que crece una planta entonces podrías hacer un ANOVA de dos vías.

      En tu modelo como variables independientes pones el factor 1, el factor 2 y el factor 1*factor 2. Ahí podrías ver la relación del factor 1 con el crecimiento, el factor 2 con el crecimiento y la combinación de ambos (factor 1*factor2) con el crecimiento.
      Como bien dices, de todos modos utilizaría sin riego y sin nutrientes como mi grupo control.

      ¡Mucho éxito en tu proyecto!

      Like

  3. María says:

    Perdona que me haya explicado no del todo bien. Sí, utilizaría sin riego y sin nutrientes, a la vez, como grupo control. Pero además, me gustaría incluir estos tratamientos: sin riego /con nutrientes bajo; sin riego/ con nutrientes alto; riego bajo / sin nutrientes; y riego alto / sin nutrientes. Cuando no se incluye un factor, no sé si se codifica como un nivel 0 o sencillamente no se incluye. Gracias!

    Like

    • Estimada María,

      Muchas gracias por escribir a Stats SOS.

      Ya entendí mejor lo que me comentas. Si tu no incluyes un factor ocurrirá lo siguiente, pongo un ejemplo:
      Si tu solo incluyes factor 1, compararás sin riego, riego bajo y riego alto sin importar la cantidad de nutrientes.
      Si solo incluyes factor 2 ocurrirá lo contrario, sin nutrientes, con pocos nutrientes o muchos nutrientes sin importar el riego.
      Si incluyes los dos (factor1*factor ) ahí sí incluyes la combinaciones con riego bajo y además pocos nutrientes, etc.

      Espero esta vez haya sido de ayuda. Si no fue el caso, ¿me podrías decir cuáles son tus variables independientes (asumo que los factores) cuál es tu dependiente y cuál es el objetivo de tu estudio?

      Mucho éxito

      Like

      • María says:

        Tengo dos factores y dos niveles de cada factor. Estos suman 4 tratamientos. Quiero añadir nuevos tratamientos que consisten en los dos niveles de cada factor actuando si la influencia del otro factor + el control (ningún factor). Estos sumarían 9 tratamientos. Mi duda es si es correcto. Y cómo se debe codificar el nivel 0 “cero” de un factor combinado con los niveles bajo(1) y alto(2). O sea, serían nueve tratamientos, incluido el control, e incluido los tratamientos donde se aparecen los dos niveles de un factor sin la influencia de otro factor. Creo que ahora me he explicado algo mejor, jeje, perdona

        Like

        • Estimada María,

          Sí, no me haría muchos problemas. Lo codificaría de la siguiente manera:
          Factor 1: 0 “sin riego”, 1 “riego bajo”, 2 “riego alto”
          Factor 2: 0 “sin nutrientes”, 1 “bajos nutrientes” 2 “Altos nutrientes”.

          Luego no generaría una nueva variable, sino generaría la interacción de ambos (factor 1*factor 2). En este caso, el programa te codificaría automáticamente las diversas combinaciones que puedes tener. Por ejemplo, 0 “sin riego” + 0 “sin nutrientes” 1 “Riego bajo” + 0 “sin nutrientes”.

          Si deseas también podrías separar todas tus categorías pero sería más trabajoso. El programa te daría todas las opciones, si tu no tienes interés de verlas todas solo prestaría atención a las que te interesan.

          Espero que esta vez si haya podido ayudar, jajaja. Mira si aún no te sientes satisfecha con la respuesta y necesitas más información encantado de que me sigas escribiendo.

          Mucho éxito

          Like

          • María says:

            Muchas gracias, sí me has ayudado mucho!!! Estoy comenzado con este tema. Es nuevo para mí y tengo preguntas de novata. Yo es que duda si era correcto codificar el nivel “0” cuando no hay acción de un factor, pensaba que daría problemas con el software estadístico Muchas gracias

            Like

          • Me alegro María. Como son variables categóricas (grupos de condiciones) codificar con un “0” no tendría por qué traerte alguna dificultad.

            Mucho éxito con tu proyecto

            Like

  4. Tamara says:

    Hola buenas Tardes! me gustaría saber como corregir la falta de homocedasticidad, en un anova de doble via. Creo que puede realizarse transformando la VD, aunque desconozco como se podrían interpretar y presentar los resultados…..

    Like

    • Estimada Tamara,

      Muchas gracias por escribir a Stats SOS. Es correcto lo que dices, una manera de solucionar el problema es que hagas una transformación de la variable dependiente. Por ejemplo, si utilizas un logaritmo para convertir tus datos lo que podrías hacer es sacar el logaritmo cuando vayas a hacer la interpretación de tu dato exacto. Eso podrías hacerlo con una exponencial. Otra posibilidad es interpretar los datos de frente mencionando que has utilizado un logaritmo para calcular tu modelo. En ese caso, en lugar de interpretar los datos de frente dices “el logaritmo de tal variable es…mayor o menor que el logaritmo de la otra variable”.

      ¡Mucho éxito!

      Like

  5. Roxana says:

    Buenas! Encantada con tu explicación, quería preguntarte algo.

    Tengo un experimento en el cual quiero medir si incluir extra información en un mensaje tiene influencia sobre el tipo de decisión que el usuario toma.

    La decisión tiene dos niveles, Hacer algo (una acción determinada) o no hacer nada. El tipo de mensaje tiene dos niveles, mensaje con información extra y sin información extra. He creado 10 escenarios base diferentes, pero con el mismo principio de jugar a tener un papel determinado (dueño de una empresa, restaurante, actividades cotidianas, etc) y cada escenario esta presentado con un tipo de mensaje, es decir al final serían 20 (10 escenarios-mensaje con información y 10 escenarios-mensaje sin información). Básicamente se le presenta solo 10 escenarios aleatorios a un usuario, sin repetir el mismo escenario base, es decir si tienes escenario 1 con información extra, no puedes responder escenario 1 sin información extra.

    Al final quiero determinar, si los mensajes que tienen información extra influyen en tomar decisiones que requieren acción. No me interesa tanto saber si hay interacción entre escenarios y tipo de mensaje, pero si hay interacción entre tipo de mensaje y respuesta. Especificamente si usuarios con el mismo escenario toman más decisiones que requieran acción cuando estan presentes con mensajes con información extra.

    Se puede realizar este análisis con ANOVA? mi variable dependiente seria el tipo de decision de dos niveles. Mis variables independientes serían 1) el tipo de mensaje recibido (dos niveles) y 2) el tipo de escenario recibido (10 niveles dado que son 10 escenarios).

    Like

    • Estimada Roxana,

      Muchas gracias por escribir a Stats SOS. Necesito un poco más de información para ser más preciso en mi respuesta pero asumiendo que “el tipo de decisión” es una variable cuantitativa recién podrías ejecutar un ANOVA. De todos modos, tu ANOVA tendría que ser factorial o de medidas de dos vías. Con este tipo de análisis podrías justamente realizar la interacción que te interesa.

      Por otro lado, si no fuera el caso que las personas generan un puntaje con sus respuestas, y estas fueran dicotómicas (por ejemplo, sí y no) me iría más por una regresión logística. Con la regresión logística podrías incluso realizar la interacción que requieres (aquí el enlace: https://statssos.net/2016/11/22/nuestra-logistica-es-la-regresion-logistica/).

      ¡Mucho éxito!

      Like

  6. ernesto simeon velasco says:

    SE PUEDE USAR ANOVA CON LA CALCULADORA CLASPAD 330?

    Like

  7. Dany says:

    Que tal Juan Carlos, muy buena explicación…
    Quisiera saber si se pudiese hacer lo siguiente:

    Suponiendo que tengo un experimento con dos factores (Vitamina: A y D, Nivel: 5,10 y 15), midiendo como variable respuesta el peso de los individuos a los cuales se les asignaron los tratamientos.

    El resultado de la interacción seria el mismo que realizando un anova simple (A5, A10, A15, D5, D10, D15) ???

    El interés radica en saber cual tratamiento da mejores resultados. Que me recomendarías hacer??

    Saludos

    Like

    • Estimado Dany,

      Muchas gracias por escribir a Stats SOS. El coeficiente simple de la interacción, no te dará mucha información. Para obtener un efecto interpretable tendrías que combinarlo con el efecto directo de uno de los tratamiento (llámese el A o el D). Te recomiendo seguir un ANOVA de dos vías a la vez también leer el libro de mediation y moderation de Paul Jose. Este te dará muy buena información sobre cómo interpretar los coeficentes y si existe una interacción entre las variables.

      Ahí podrías saber si el tratamiento Vit A con Nivel 5 es mejor que el Vit D con nivel 10, por dar un ejemplo. Si solo quieres saber si el Vit A es mejor que el Vit D un ANOVA simple es suficiente.

      ¡Mucho éxito!

      Like

  8. Natalia Villagrán says:

    Estimado, tu post a pesar de ser antiguo me ha sido de mucha utilidad. Sin embargo, tengo una duda: en el Anova me aparece una relación significativa en uno de los dos factores y en el otro no, y la interacción me aparece significativa. Sin embargo, al realizar el post hoc, no puedo encontrar ninguna significación, es esto posible o estoy haciendo algo mal?

    Like

    • Estimada Natalia,

      Muchas gracias por escribir a Stats SOS. Esto sí es posible, los análisis de post hoc son análisis independientes del ANOVA. Entonces por ese lado está todo bien. Por otro lado, también es posible que el efecto directo de un factor no te salga significativo pero la interacción sí. Eso quiere decir que tus variables están altamente correlacionadas y por eso tu interacción es significativa.

      ¡Mucho éxito!

      Like

  9. Benjamín Guzmán says:

    Hola!
    Juan Carlos, soy un fiel seguidor de tu página, es excelente y me encanta la forma en que explicas todo.
    Quería preguntarte lo siguiente: Resulta que tengo una gran cantidad de datos de “Glicemias” de pacientes medidas a lo largo de 4 intervenciones distintas, y cuando hago la prueba de igualdad de Levene, me da un p = 0,000, lo que significa que no distribuyen normal los datos. En base a esto, no podría utilizar el ANOVA de dos vías para analizar los datos cierto? puesto que el ANOVA asume varianzas homogéneas…
    Entonces.. qué puedo hacer para analizar los datos? Con el ANOVA de dos vías mi objetivo era estudiar los efectos e interacciones que hay entre el tiempo y cada condición (Tiempo*Condición) sobre la glicemia de los pacientes, pero ahora me encuentro con las manos atadas pues no se como continuar… o si hacer caso omiso a lo que me dice Levene e interpretar el resto del ANOVA dedos vías de todas maneras… Ayuda!

    Saludos y muchísimas gracias de antemano!!
    Benjamín G.

    Like

    • Hola Benjamín,

      Muchas gracias por escribir a Stats SOS. La prueba de Levene ve homogeneidad de varianza se mas no distribución de los puntajes. Yo te recomendaría continuar con tu prueba de ANOVA de dos vías para que puedas evaluar la interacción que buscas (Tiempo*Condicion).

      Mucho éxito!

      Like

      • Manuel says:

        Buenas! Se me presentó exactamente el mismo dilema. En mi caso, evalúo la tasa de crecimiento de un hongos en diferentes sustratos, combinando esos sustratos con dos aditivos. 5 sustratos x 2 aditivos (10 tratamientos) y evaluar la posible existencia de interacción entre ambos. Cada tratamiento hecho en triplicado. Mientras la prueba de Normalidad de Shapiro-Wilks me daba un valor p mayor a 0,05, la prueba de Levene me dio un valor menor al de p = 0,05. Leí en páginas de estadística, y si existe una referencia bibliográfica sobre ello la agradecería muchísimo, de que el ANOVA es bastante robusto ante la falta de normalidad de datos y homogeneidad de las varianzas, siempre que el diseño sea balanceado (igual número de repeticiones por tratamiento).

        Agradezco de antemano algún comentario! Me dio bastante tranquilidad la respuesta al colega!

        Saludos!

        Like

  10. Andrea Lozano says:

    Hola Juan Carlos,

    Tengo datos de abundancias de especies de aves en diferentes coberturas vegetales y quiero evaluar su variación, podría hacerlo con una anova de dos vías?

    Like

    • Estimada Andrea,

      Muchas gracias por escribir a Stats SOS. Funciona muy bien el ANOVA de dos vías si es que quieres saber cómo dos variables en conjunto tienen un efecto sobre una tercera variable. ¿Quizás me podrías dar un poco más de información para saber si es útil para ti?

      ¡Mucho éxito!

      Like

  11. Anggie Cala says:

    Hola Juan carlos,

    tengo un experimento con 3 variables de respuestas cada una númerica (un valor numérico para cada una). Estas variables de respuestas dependen de varios factores que son pH, concentración de biomasa en el tiempo y consumo de sustrato en el tiempo (las tres son un conjunto de datos, ya que son un intervalo en el tiempo). Y adicionalmente estos factores dependen de mis dos variables de entrada que son tipo de sustrato ( ya sea glucosa o ácido láctico) y su concentración (0,25%, 0,50%, 0,75% y 1,0%)

    he intentado hacer un ANOVA pero todo sale erróneo, no se como montar este diseño de experimentos. Ayuda!

    Like

    • Hola Angie,

      Muchas gracias por escribir a Stats SOS. El ANOVA lo que te va a hacer es comparar grupos. Lo que podrías hacer es poner como variable independiente la concentración y como dependiente (variable numérica) concentración, consumo etc. Pero todas tendrían que ser por separado.

      Por otro lado,si mediciones repetidas a lo largo del tiempo la opción sería hacer un ANOVA de medidas repetidas.

      ¡Mucho éxito!

      Like

  12. Carlos RG says:

    Estimado Juan Carlos,
    Gracias por tu post. Tengo un par de dudas.
    1) cuál sería la alternativa no paramétrica para esta prueba incluyendo las post hoc? Y …
    2) si aun después de transformar de muchas formas mis datos, estos no son normales, podría utilizar este anova de dos vías a mis datos transformados (log+1) ?

    Like

    • Estimado Carlos,

      Muchas gracias por escribir a Stats SOS. Respondiendo a tus preguntas:
      1) En general no hay una alternativa clara entonces yo seguiría con el ANOVA de dos vías.
      2) Si conviertes tus puntajes a Z entonces tendrías de todas maneras una distribución normal. Lo mismo ocurre si le aplicas el logaritmo el problema con realizar eso es que la interpretación de tus datos se vuelve complicada porque en realidad estás modelando el logaritmo de los valores y no estos en sí.

      Muchos éxito!

      Like

  13. Ganim says:

    Hola, Juan Carlos
    Chévere tu post.

    Estoy enredada con unas salidas de ANOVA con dos factores, en la cual me aparece el siguiente mensaje ANOVA F-tests on an essentially perfect fit are unreliable. Pues uno de mis factores sale con suma de cuadrados y cuadrado medio igual a cero, por lo tanto lo quito del modelo y lo vuelvo a correr solo con el factor que salió significativo. ¿A qué se debe ese resultado?

    Like

    • Hola Ganin,

      Muchas gracias por escribir a Stats SOS. Sí, mejor saca el indicador que no te sirve. Las razones son varias pero lo que podría ser es que o tu otra variable tiene variants 0 o también que está altamente correlacionada con la otra variable lo cual genera un problema.

      ¡Mucho éxito!

      Like

  14. ANA says:

    Hoa Juan Carlos:
    Gracias por tu post. Explicas todo de manera muy clara y sencilla. Mi duda es la siguiente:
    Si los dos factores, y también la interacción, me salen significativas, ¿qué puedo concluir del análisis? Podría, posteriormente al ANOVA DE 2-VÍAS, hacer un ANOVA de una vía para explicar las diferencias entre tratamientos? Gracias,
    Ana.

    Like

    • Hola Ana,

      Muchas gracias por escribir a Stats SOS. En realidad tendrías que explicar los resultados desde el ANOVA de 2 vías. Lo que te dice el resultado es que los las diferencias entre tratamientos dependen de una tercera variable (que es la interacción). Entonces hacer un ANOVA de una vía estarías perdiendo información sobre tus hallazgos.

      Mucho éxito!

      Like

  15. Matilde Rincón Pérez says:

    Hola, ¿cuál es la prueba no paramétrica para un anova de dos vías?

    Like

    • Estimada Matilde,

      Muchas gracias por escribir a Stats SOS. Creo que la única opción que se me ocurre es la extensión de Scheirer Ray Hace del Kruskall Wallis. Ese análisis lo puedes encontrar en el SPSS y para hacer pruebas de post hoc, tendrías que hacer la U MANN WHITNEY pero tomando una significancia estadística de 0.001.

      ¡Mucho éxito!

      Like

  16. Estimado Juan Carlos,
    Muchas gracias por tu post. Me surge una duda en relación a lo que dices de “En otras palabras, la representación de una interacción en la gráfica es cuando las líneas chocan”.
    Sin embargo, yo he calculado un anova de dos vías y aunque en la gráfica mis lineas “chocan”, no me sale significativo el efecto de la interacción en la tabla. ¿A qué se debería esto? ¿Debo entonces de comentar la interacción de ambas variables en mi artículo o ignoro este efecto al no ser significativo?
    Muchas gracias.
    Atentamente,
    Olga.

    Like

  17. Manuel says:

    Estimado Juan Carlos,

    Me ha resultado de mucha utilidad leer tus entradas, y se aprecia que haya personas que compartan sus conocimientos en Estadística de forma tan amigable.
    Pero tengo una consulta: El procedimiento que se detalla aquí arriba, ¿puede servirme para un diseño desbalanceado?

    Explico un poco lo que me sucedió. En mi caso, trabajé con dos factores fijos y una variable dependiente. El diseño original de mi experimento consistía en evaluar el cultivo de hongos en diferentes sustratos, combinando esos sustratos con dos aditivos, es decir, 5 sustratos x 2 aditivos (10 tratamientos) y evaluar la posible existencia de interacción entre ambos. Cada tratamiento lo ensayé por triplicado. Pero, al trabajar con este tipo de organismos, existe la posibilidad de que no haya producción de hongos, o que el sustrato se contamine y me obligue a descartar las réplicas. En consecuencia, de la mayoría de los tratamientos “sobrevivieron” las tres réplicas, en otros tantos obtuve datos a partir de dos o una réplica, y en unos pocos tratamientos no pude obtener datos. Por lo tanto, tuve que trabajar con muestras de diferentes tamaños. Creo que es de suponer que el supuesto de homocedasticidad en este caso no se cumple.

    ¿Cómo debería proceder ante esta situación?

    Muchas gracias de antemano!
    Salidos!

    Like

    • Estimado Manuel,

      Muchas gracias por escribir a Stats SOS. En todo caso, si tienes réplicas intentaría Friedmann. Pero igual te quedas con el problema de los modelos des balanceados. Lo que te va a ocurrir es que podrá calcular en algunos hongos todas tus réplicas y en otros no. Una posibilidad para simplificar es reducir la cantidad de réplicas otro, simular cómo hubieran salido las réplicas de esos hongos.

      Mucho éxito!

      Like

  18. Karla Garces says:

    Hola Juan Carlos espero se encuentre bien gracias por sus posts.

    Tengo las siguientes dudas acerca del ANOVA de dos vias.
    1) que pasa cuando el programa SPSS no me da ningun valor para el analisis de homogeneidad y porque pasa esto?
    2) Que significa cuando yo analizo si la profundidad de arrastre y especies tienen un efecto en la abundancia de rayas y tiburones que se capturan, y el resultado es el siguiente.

    Source Type III Sum of Squares df Mean/Square F P Partial Eta Squared
    Species 42698.33 5 8539.67 5.81 0.01 0.71
    Trawl depth 9841.50 1 9841.50 6.69 0.02 0.36
    Trawl depth*Species 13915.50 5 2783.10 1.89 0.17 0.44

    Gracias de antemano

    Like

    • Estimada Karla,

      Muchas gracias por escribir a Stats SOS. Voy a enumerar las dudas para que sea más fácil responder.
      1) Me sorprende que no te de un valor, tendría que saber qué advertencia te sale de ser el caso. Quizás uno de tus grupos es demasiado pequeño y no puede hacer el cálculo.
      2) Estoy asumiendo que por el tamaño de esos F y esos Eta que las tres variables son estadísticamente significativas al igual que la interacción. En otras palabras, que existe un efecto (no se el signo porque no sale) en la profundidad de arrastre y las especies en la abundaría de animales que se capturan. Pero además también, el efecto de la profundidad de arrastre en la captura de animales depende del tipo de especie. Es probable que una especie tenga más o menos profundidad de arrastre y eso hace que sea más o menos capturado.

      Mucho éxito!

      Like

      • Karla Garces says:

        Muchas gracias Juan Carlos por sus aclaraciones e interpretacion de mis resultados.
        Respecto a la pregunta 1, no puedo ajuntar la imagen pero la prueba de Levene me da estos valores.
        F df1 df2 Sig.
        . 11 12 .
        Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
        Design: Intercept + specie + Trawldepth + specie * Trawldepth

        Gracias de nuevo.

        Saludos

        Like

        • Estimada Karla,

          Muchas gracias por escribir a Stats SOS.
          Los datos te dicen que las variantes son igual u homogéneas. Estoy asumiendo que la significancia es mayor a 0.05.
          Eso es lo único que significa ese resultado.

          Mucho éxito!

          Juan Carlos

          Like

  19. Entrenamiento Funcional Curauma Placilla says:

    Que genial blog y con un idioma tan simple que hasta un novato total como yo entiende, una consulta pequeña, qué pasaría o qué debería utilizar si quiero analizar pero dos variables de intervalo con una categórica??

    Like

  20. gonzap91 says:

    Estimado

    Me encanto su post, hace rato vengo analizando resultados y tratando de aprender acerca de que test es el mejor usar y cual aplicar. Tengo una duda con respecto a la interpretación de resultados y a los post test en un two way ANOVA. Antes le explico mi esquema general de experimento: Tengo dos cepas de ratones y evalue X variable a 4 tiempos. Debido a que cada tiempo el experimento se corta, no se tratan de muestras pareadas porque no tengo un mismo raton evaluado en todos los tiempos. En base a esto hago un two way anova con variable dependiente X, y como factores tiempo y cepa. Cuando obtengo los resultados en el SPSS obtengo distintas situaciones dependiendo de la variable:
    1) Supongamos que me da significativo el factor tiempo solo… Al hacer los post test solo tendria que tener en cuenta los que me interpretan el tiempo no? es decir que si hago el contraste de cepa por parejas para cada tiempo y me da no seria correcto interpretarla exacto?. Por otra parte tengo problemas al evaluar los post test porque por lo que vi al compararme el tiempo 1 con el 2 y así es como que me hace un promedio entre los valores de ambas cepas a ese tiempo y para mi es importante saber si es en una cepa u otra la diferencia. Lo mismo sucede con cepa, como tengo solo dos me dice que no se hace post test pero toma el promedio de todos los tiempos de una cepa y los contrasta con el de la otra y a mi eso no me sirve, ya que me interesa saber a que tiempo hay diferencia entre cepas. no se si soy claro con lo que planteo.
    2) supongamos que me da interacción positiva, no debería entonces tener en cuenta los efectos principales sino los simples, por lo tanto el post test es el mismo que el de un anova de un factor combinando ambos factores, es decir, tendria 8 gurpos (4tiempos x 2 cepas)? estoy en lo correcto?
    Espero me pueda ayudar con esta duda porque no encuentro ejemplos de este tipo en la bibliografía y me cuesta interpretarlo..
    El blog esta buenisimo, es muy claro!

    Saludos

    Like

    • Estimado Gonzalo,

      Muchas gracias por escribirme a Stats SOS. Enumeraré las preguntas para que sea más sencillo.
      1)No me queda muy claro pero creo que el tema es la distribución de tu base de datos, qué pasa si pones las cepas en columnas distintas? Porque lo que te entendí es que las has puestos como grupos en una misma columna, no? Quizás en eso el SPSS se está confundiendo. Quizás debes pasar tu base de un formato long a uno wide. (más variables menos filas).
      2)Así es, tal cual el efecto del tiempo dependerá en la cepa.

      Mucho éxito!

      Like

  21. JulianaT says:

    Hola Juan Carlos,
    Gracias pos aclarar con tanta facilidad temas tan complejos….
    Tengo una duda: Si utilizó un Two-way ANOVA es porque (si y solo si) tengo prevaimente un diseño de experimento factorial? no puedo tener menos experimentos que los que mi diseño arrojaría? (tengo 4 y creo que son 6). espero me puedas ayudar.

    Like

    • Estimada Juliana,

      Muchas gracias por escribirme a Stats SOS. No me queda muy clara tu pregunta, me podrías dar más información por favor? Cuántos grupos tienes? Cuántos variables tienes? Cómo es tu variable dependiente?

      Muchas gracias por escribirme!

      Like

  22. María Elena Fernández says:

    Hola, Juan Carlos, muchas gracias por la colaboración que brindás! Tengo el siguiente experimento: dos grupos de plantas, uno control y otro estresado (riego diferencial). Dentro de cada grupo, tengo 20 plantas. Mido en ALGUNAS de ellas, una variable fisiológica en distintas fechas. Y quiero saber si hay efecto del tratamiento de estrés en su conjunto y si hay diferencias entre fechas. Ahora bien, no puedo aplicar un ANOVA de medidas repetidas porque no mido en las mismas plantas en todas las fechas, sino que en cada fecha, tomo 5 plantas al azar. Mi pregunta es si puedo aplicar un ANOVA de dos vías normal, tomando al tratamiento y al tiempo como factores (y ver su interacción), sin importar el efecto “arrastre” que tiene el tiempo sobre las muestras en general….
    Desde ya, muchísimas gracias! Saludos cordiales.

    Like

  23. Juan Manuel says:

    Estimado Juan Carlos,

    Tengo un pequeño problema con mis datos, para lo cual no encuentro una solución, o bien me estoy enredando mucho en el asunto.
    Debo analizar la cantidad de ADN por genoma en un determinado número de poblaciones de una especie de planta. Esta especie a su vez se subdivide en subespecies. De estas subespecies, existe una que a la vez está subdividida en subgrupos (llamados morfotipos). A partir de estos antecedentes, podría decirse que se podría analizar la variable de interés con un ANOVA anidado.
    – Los problemas se me aparecen cuando considero el número de muestras para cada población. Para cada población tengo entre una a tres mediciones (es decir, uno a tres individuos por población). Esto ya hace que mi diseño sea desbalanceado.
    – La normalidad según una prueba de S-W arroja que los residuos de los valores obtenidos tienen una distribución normal. Sin embargo, mis datos violan el supuesto de homogeneidad de las varianzas (a partir de pruebas de Levene y Bartlett).
    A causa de estos dos últimos ítems, creo que no puedo utilizar un ANOVA anidado. Se me ocurrió utilizar un análisis de la varianza según el criterio de Welch, aunque no sé si admite modelos anidados. Luego creí poder utilizar un modelo linear general (GLM), pero creo que es requisito cumplir con los supuestos del ANOVA. Me estoy volcando por utilizar un modelo linear generalizado, empleando las subespecies, morfotipos y poblaciones como efectos fijos, y los individuos como efectos aleatorios… pero no encuentro demasiada información al respecto de estos métodos!

    ¿Qué tipo de análisis sería el más conveniente para mi caso?
    Atentamente,
    Juan Manuel

    Like

    • Hola Juan Manuel,

      Muchas gracias por escribir. El supuesto del modelo lineal general es la lineariedad de los parámetros y no la distribución normal de los puntajes por categoría (requisito del ANOVA), por ello podrías usar un GLM.
      Otra posibilidad es usar un análisis de Kruskall Wallis que es la versión no paramétrica del ANOVA.

      Mucho éxito!

      Like

  24. Ana Belén says:

    Hola, es la primera vez que trabajo con el ANOVA de dos vías y tengo varias dudas en cuanto diseño y análisis de resultados. En mi caso la variable dependiente es la expresión génica de un determinado gen, las variables independientes son Tratamiento (0,10 y 100 ug/L) y Temperatura (18.5 y 23 grados), he estudiado los valores en dos tiempos 8 y 24h. En realidad el análisis lo estoy realizando de forma separada es decir mis 2 factores sobre la expresión a 8h y por otro lado a 24h, porque en realidad el tiempo no es una variable independiente sino que sería más bien una covariable verdad=. Puedo hacerlo de forma separada o debería añadirlo como covariable?.
    Por otro lado en cuanto a los resultados, si tengo diferencias significativas respecto a Tratamiento debo entender que este está ejerciendo efecto sobre la expresión, si existe interacción entonces tanto Tª como Tratamiento actúan sobre la expresión?. Si no existen diferencias significativas como debo interpretar los resultados?. Como han comentado anteriormente he obtenido el error con la Tª de modo que me dice que no se puede hacer post Hoc porque solo tengo 2 variables dentro del factor.
    Muchas gracias

    Like

  25. Juan Carlos, estoy infinitamente agradecida por haber encontrado este gran aporte tuyo respecto al análisis de los resultados del ANOVA. ¡Algo más esclarecedor digerible que tu explicación, no existe! Felicito tu clara forma de explicar y aplaudo tu post.

    Like

  26. Camila says:

    Hola, me podría proporcionar los datos del ejercicio?

    Like

  27. Erick Solis says:

    Hola, excelente información y ejemplos. Sólo tengo una duda. Si Anova de dos vías es una prueba que nos ayuda a identificar DIFERENCIAS de medias entre más de dos grupos, ¿por qué en los ejemplos se habla de RELACIONAR o buscar EFECTOS de una variable dependiente con dos o más independientes?

    Te agradezco tu respuesta.

    Like

Leave a reply to Manuel Cancel reply