Nuestra logística es la regresión logística

Bienvenidos todos a otro maravilloso capítulo de Stats SOS. Yo se que me he demorado un tiempo en volver a escribir un post así que por favor les pido que no me lancen nada quejándose. 🙂 Bueno queridos amigos, la aventura de hoy es una que me han pedido ya por unos cuantos días y semanas. ¿Qué diablos pasa cuando quiero explicar con múltiples factores algo que solo se responde con sí y no?

¿Qué? ¿Cómo? A ver, con un pequeño ejemplo voy a ampliar mi idea para que no parezca chino mandarín. Imagínense que quieren saber qué factores se relacionan con la probabilidad de fumar cigarros. Entonces van caminando por la calle y preguntan, ¿fumas? En esos casos la persona suele responder “sí” o “no”, ¿cierto? Bueno, resulta que en estadística existe un genial análisis que se llama la regresión logística que nos ayuda a analizar nuestros resultados cuando tenemos ese tipo de respuestas. De este modo, la aventura de hoy es conocer ¿qué es la regresión logística y para qué rayos sirve?

Muy bien, dicho esto, abróchense los cinturones que aquí vamos. En esencia, la regresión logística es un análisis donde se quiere medir una variable dependiente que es dicotómico o politómica. ¿Qué es qué? Relajense un poco, una variable dicotómica tiene tan solo dos valores como por ejemplo, “sí” y “no” y politómica es una variable con varias categorías. Para efectos de no complicarnos la existencia, solo veremos acá un ejemplo de un análisis con una variable que tiene dos valores (dicotómica). Ya, ya, ya, mucho palabreo, pero, ¿qué más tiene una regresión logística? ¡Bueno! Este análisis puede tener también variables independientes o predictoras que son categóricas o continuas. Sin embargo, para este ejemplo general pondremos puras variables categóricas para facilitarnos la vida.

¡Ok! ¡Genial! Ahora vamos a un simpático ejemplo que nos aclare un poco todo este rollo. Antes que nada, no se asusten, relájense todo saldrá bien. Imagínense que tienen que hacer un trabajo de investigación y quieren saber cuál es la probabilidad de que un adolescente consuma o no alcohol en el último mes y qué factores hacen que esta probabilidad sea mayor. De este modo, realizan su encuesta y le preguntan a muchísimos temas a los adolescentes de la ciudad donde viven y algunos factores que ustedes consideran según investigaciones pasadas que podrían influir en que una persona consuma o no alcohol. Entre ellas, preguntan si el joven ha fumado alguna vez en la vida y el sexo. De esta manera, la hipótesis que tienen es que las personas que fuman cigarros y el sexo pueden ser factores que incrementan la probabilidad de consumir alcohol en el último mes.

¡Muy bien! Luego de ello, ingresan la data al SPSS y se sientan en la computadora…¿Y ahora? ¿Qué hago? Ok, lloran un poco, luego se reponen, se preparan un maravilloso café (sí, por si acaso yo soy un fanático del café, tomo dos al día y lo disfruto como si fuera un elixir de los dioses), y, ¡para adelante con el análisis!

Perfecto, para realizar los análisis los acompaño en su empresa así que ¡a continuar con nuestra travesía! Y para ello, debemos seguir la siguiente ruta:

Analizar/Regresión/Regresión logística binaria/

En la variable independiente ponemos el sexo y si fuma o no cigarros y en la variable dependiente si consume alcohol o no. ¡Genial! Ingresamos las variables ¡y listo! Aceptar. 

untitlednulo

Este primer cuadro lo que me dice es en promedio cuál es la probabilidad que una persona haya consumido o no alcohol alguna vez en el último mes. En este caso, para facilitar la interpretación utilizaremos el Exp(B) que en términos técnicos se llama OR (Odds ratio en inglés, o razón de odds o razón de momios, las tres son lo mismo). ¿Cuál sería la interpretación de esta tabla? ¡Muy sencillo! Es en promedio la posibilidad (ya no probabilidad porque estamos hablando de OR) de haber consumido un trago o no alguna vez en el último mes. Para este ejemplo, el valor es 14.763, lo cual implica que en promedio existe 14.763 veces la posibilidad que una persona haya consumido alcohol en el último vez a que no lo haya hecho. Nota sumamente importante: esta interpretación no toma en cuenta ninguna de las dos variables que incluimos en la regresión logística, esto tan solo es la posibilidad en promedio de toda la muestra de consumir o no alcohol. ¡Genial, sigamos avanzando!

untitledr2

Este segundo cuadro nos muestra cuán bien el sexo y la ocurrencia de fumar (las variables independientes que comentamos antes) explican nuestro modelo. Esa “cosa extraña” que se ve un poco tenebrosa que dice “-2 log de la verosimilitud” lo único que dice es cuánta varianza no explicada  hay en nuestro modelo cuando ingresamos las dos variables previamente mencionadas. Nada más y nada menos. ¿Cuál es el mensaje para la casa? ¡Muy sencillo queridos amigos aventureros de la vida! Este número compara un modelo con ninguna variable contra nuestro modelo con dos variables, mientras más pequeño es el número quiere decir que hay menos varianza no explicada y por ende nuestro modelo explica más. 

Por otro lado, tanto el R cuadrado de Cox y Snell y el de Nagelkerke, dicen cuánta varianza explica nuestro modelo. De este modo, es muy parecida a la R cuadrado de la regresión lineal múltiple (para los que no se acuerdan aquí la referencia). Los números son distintos porque los cálculos son diferentes, si tuviera que escoger uno utilizaría el segundo que me dice que el sexo y el fumar o no cigarros explica el 35% de la varianza de el consumo de alcohol o no en el último mes. ¡Genial! ¡Ahora el último round!

untitledf

Como ven, en este caso salió que el fumar no muestra un incremento o reducción en la posibilidad de consumir alcohol (la significancia es de .992, cuando debe ser menor a 0.05). Por otro lado, el sexo sí muestra un efecto significativo en la posibilidad de consumir alcohol en el último mes. En este caso, la categoría que se puso como referencia para comparar son hombres contra mujeres y en la tabla ese valor equivale a las mujeres (para más información sobre categorías de referencia encantado que dejen un maravilloso mensaje y con gusto discutimos sobre ello). De este modo, la interpretación vendría a ser que existe una posibilidad de .965 veces que una mujer consuma alcohol en comparación de un hombre. Sin embargo, esto suena medio confuso entonces puedo hacer un pequeño truco. Si nosotros dividimos 1/.965 = 1.03, obtenemos un número mucho más fácil de interpretar que se describiría de la siguiente manera. Existe, en promedio 1.03 veces menos posibilidad que una mujer consuma alcohol en comparación de un hombre en el último mes. Nota útil, cuando el valor del OR es menor a 1 es más fácil utilizar esta interpretación pero cuando es mayor a 1, interpretar directamente se vuelve más sencillo. De todas maneras, el OR tiene múltiples maneras de ser interpretado, para facilitarnos la vida, haré un post aparte en el cual proponga todas las diferentes interpretaciones que se puedan hacer.

¡Muy bien! Como ven, logramos sobrevivir a este terrible batalla, pero genial aventura. Ahora podemos ir a nuestras casas victoriosos y felices. En el siguiente post, mencionaré las diferentes interpretaciones que se pueden hacer con la regresión logística. ¡Recuerden! Siganos, en Facebook  o sino en Twitter o también dejen sus comentarios aquí en la página del blog. ¡Mucho éxito y nos vemos pronto! 🙂

 

 

 

 

Advertisement

About Juan Carlos Saravia

Magister de Estadistica aplicada a las ciencias sociales (Quantitative analysis for the social science). Katholieke University of Leuven (KUL). Magister en psicología clinica y de la salud de la Pontificia Universidad Católica del Perú (PUCP). Especialista en análisis cuantitativos en promoción de la salud, estrés, salud ocupacional y en jóvenes.
This entry was posted in Regresiones, Uncategorized and tagged , , . Bookmark the permalink.

19 Responses to Nuestra logística es la regresión logística

  1. mbenitesd says:

    Wow. Ya entramos en análisis más divertidos.

    Liked by 1 person

  2. Pingback: Cómo decir lo mismo de muchas maneras: interpretaciones de la Regresión Logística | Stats SOS

  3. Violeta Gomez says:

    ¡Gracias por el dato!. Sin embargo, podrías explicar un poco más sobre las categorías de referencia? Se me complica entender “primero” y “último” y en qué circunstancias usarlo. Te agradezco tus aclaraciones!

    Like

    • Estimada Violeta,

      Muchas gracias por escribir a Stats SOS. En este caso, cuando me refiero a “primero” en la categoría de referencia significa que el primer valor que le asignaste a tus categorías va a ser el que se compare contra las otras categorías mientras que el “último”, será la última categoría. Por ejemplo:
      Imagínate que quieres comparar nivel socio económico y tus categorías son: 1 = A, 2 = B y 3 = C. Si asignas que la primera es tu categoría de referencia, en este caso, se comparará el nivel socio económico A contra el B y el C. Si eliges a la última categoría como referencia el nivel socio económico C será comparada contra A y B. ¿Cómo se esto? Porque el SPSS asume que la primera categoría es el número menor (en este caso el “1” está asignado a la categoría “A”). En el caso de la última categoría, el programa asume que el “3” es la indicada dado que es el valor mayor será la última categoría.

      ¡Mucho éxito!

      Liked by 1 person

  4. Daryl Edgardo Gonzalez Hernandez says:

    Juan Carlos, me queda una duda. En todo el proceso explicas la interpretación de los resultados, pero y el modelo? La idea de la regresión es que exista un modelo que a través de variables independientes explique la variable dependiente. En este caso serían VD: sexo y fumar y la VI: consumo de alcohol. Si ambas fueran significativas tendríasn que ir en un modelo.

    Eso es lo que necesito ahora, pero no lo encuentro por ningún lado. Me ayudas por favor?
    Saludos!

    Like

    • Estimado Daryl,

      Muchas gracias por escribir a Stats SOS. Así es en este ejemplo el modelo sería así:
      ln(p/1-p)(consumo de alcohol) = B0 + (B1)Sexo + (B2)fumar + e

      Si ambas fueran significativas entonces se reporta la posibilidad de consumir alcohol según sexo mientras que se controla por el deseo de fumar. De este modo, las VI son: sexo y fumar y la VD: consumo de alcohol.

      ¡Mucho éxito!

      Like

  5. adrianseg says:

    Estimado Juan Carlos, me gustaría realizar este análisis con mis datos pero me surge una duda importante, no sé si es el análisis que busco. Necesito saber cómo una variable dicotómica (contacto directo con inmigrantes sí o no) influye en los niveles de prejuicios de las personas (medidos con dos escalas). En SPSS Analizar/Regresión/Regresión logística binaria/ Dependiente, introduzco el contacto con inmigrantes y el las covariables los niveles de prejuicio. Estoy haciendo lo correcto? Puedo introducir como covariables otras sociodemográficas como el sexo, la ciudad de origen, la cultura…y en caso afirmativo como se interpretaría un resultado significativo de la covariable sexo? muchas gracias por adelantado.

    Like

    • Estimado Adrian,

      Muchas gracias por escribir a Stats SOS. Todo lo que dices es correcto, puedes introducir las variables sociodemográficas ¿Cómo interpretarías la variable sexo?

      Ejemplo: si el OR para la variables sexo es 3 y la categoría de referencia es hombres y la que está en el modelo por ende es mujeres dirías algo como:
      “existe 3 veces más posibilidad que las mujeres tengan contacto con migrantes que los hombres mientras se controla por la ciudad de origen, la cultura, etc”.

      ¡Mucho éxito!

      Like

      • adrianseg says:

        Gracias Juan Carlos por la respuesta pero sigue sin quedarme claro, no entiendo a quñe te refieres con “se controla”, un saludo.

        Like

        • Estimado Adrian,

          Muchas gracias nuevamente por escribir a Stats SOS. Cuando digo “se controla” es que las otras variables se mantienen constantes (o con el mismo valor), entonces no tendrían que afectar cuánto predice el sexo al contacto directo con inmigrantes.

          ¡Mucho éxito!

          Like

  6. Marco Antonio Condarco Iglesias says:

    Estimado, felicidades por el Post, solo para quedar claro, si mi variable dependiente toma los valores de 0 (no deforestado) y 1 (deforestado), al meterlos al SPSS, en la tabla de resultados los valores equivaldrian a los deforestados?, es como en el ejemplo 0 hombres y 1 mujeres?. Saludos desde Bolivia

    Like

    • Estimado Marco Antonio,

      Muchas gracias por escribir a Stats SOS. SÍ, tal cual.

      Mucho éxito!

      Like

      • Marco Antonio Condarco Iglesias says:

        Estimado Juan Carlos, muchisimas gracias por la pronta respuesta, al ir desarrollando mi investigación me encontré con otra similar (https://www.agriculturejournals.cz/publicFiles/152560.pdf) que enuncia lo siguiente “Antes de realizar el modelo de regresión logística, las variables independientes deben ser estandarizadas dividiendo sus valores por su raíz media cuadrática para facilitar la comparación del efecto relativo de cada variable”, Entonces mi pregunta es la siguiente, cuando se debe realizar dicho procedimiento, es aconsejable hacerlo?, y como hacerlo (es solo dividir cada valor por la media cuadrática?) y si aplica para el caso de las variables categóricas incluyendo la dependiente?, muchas gracias de antemano, tu blog me está salvando la vida

        Like

        • Estimado Marco Antonio,

          Muchas gracias por escribir a Stats SOS. Para serte bien honesto no es necesario hacerlo porque de por sí, una regresión logística es fácil de interpretar si usas los OR (Odds ratios) o si transformas estos OR a probabilidades (OR/1+OR). Yo me quedaría con esto y no me haría tantos problemas.

          Mucho éxito!

          Like

          • Marco Antonio Condarco Iglesias says:

            Estimado Juan Carlos al realizar la regresión logística, una de mis 14 variables explicativas me arroja un OR de 69,750 [IC95%, 25,600-190,042], p=0,000, las demás sus OR no pasan superan 3.57 o debajo de 0.64, que opinas?

            Like

          • Estimado Marco Antonio,

            Muchas gracias por escribir a Stats SOS. Sí es un OR algo grande, podría ser que tus variables están relacionadas entre sí (alguna de las 14) con esa y eso genera que se infle el OR. Otra posibilidad es que pocas personas respondieron esa pregunta específica porque el IC es bastante amplio entonces esa variable ciertamente parece ser bastante imprecisa. Me curaría en salud y la retiraría.

            Mucho éxito!

            Like

  7. César Llanco says:

    Estimado Juan Carlos,
    Gracias por el gran aporte ¿Quisiera saber cuál es la diferencia entre el análisis discriminante y regresión logística?

    Like

    • Estimado Cesar,

      Muchas gracias por escribir. El análisis discriminante asume que las variables se distribuyen de manera normal mientras que en la regresión logística no se asume ningún tipo de distribución.

      Mucho éxito!

      Like

  8. Laura Rubio says:

    Buenos días Juan Carlos,
    enhorabuena por tu blog, hace un poco más ameno la ardua tarea de querer entender la estadística. Yo tengo un proyecto donde solamente tengo una variable independiente categórica (formas de respirar del paciente) y como variable dependiente el desplazamiento del centro de gravedad (cuantitativa contínua), me preguntaba si la regresión logística sería la prueba a realizar por un lado y por otro lado cómo llevarlo a cabo en el SPSS (en qué pestaña tengo que meter mis datos).

    Muchas gracias por tu ayuda!

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s