Bienvenidos todos a otro maravilloso capítulo de Stats SOS. Yo se que me he demorado un tiempo en volver a escribir un post así que por favor les pido que no me lancen nada quejándose. 🙂 Bueno queridos amigos, la aventura de hoy es una que me han pedido ya por unos cuantos días y semanas. ¿Qué diablos pasa cuando quiero explicar con múltiples factores algo que solo se responde con sí y no?
¿Qué? ¿Cómo? A ver, con un pequeño ejemplo voy a ampliar mi idea para que no parezca chino mandarín. Imagínense que quieren saber qué factores se relacionan con la probabilidad de fumar cigarros. Entonces van caminando por la calle y preguntan, ¿fumas? En esos casos la persona suele responder “sí” o “no”, ¿cierto? Bueno, resulta que en estadística existe un genial análisis que se llama la regresión logística que nos ayuda a analizar nuestros resultados cuando tenemos ese tipo de respuestas. De este modo, la aventura de hoy es conocer ¿qué es la regresión logística y para qué rayos sirve?
Muy bien, dicho esto, abróchense los cinturones que aquí vamos. En esencia, la regresión logística es un análisis donde se quiere medir una variable dependiente que es dicotómico o politómica. ¿Qué es qué? Relajense un poco, una variable dicotómica tiene tan solo dos valores como por ejemplo, “sí” y “no” y politómica es una variable con varias categorías. Para efectos de no complicarnos la existencia, solo veremos acá un ejemplo de un análisis con una variable que tiene dos valores (dicotómica). Ya, ya, ya, mucho palabreo, pero, ¿qué más tiene una regresión logística? ¡Bueno! Este análisis puede tener también variables independientes o predictoras que son categóricas o continuas. Sin embargo, para este ejemplo general pondremos puras variables categóricas para facilitarnos la vida.
¡Ok! ¡Genial! Ahora vamos a un simpático ejemplo que nos aclare un poco todo este rollo. Antes que nada, no se asusten, relájense todo saldrá bien. Imagínense que tienen que hacer un trabajo de investigación y quieren saber cuál es la probabilidad de que un adolescente consuma o no alcohol en el último mes y qué factores hacen que esta probabilidad sea mayor. De este modo, realizan su encuesta y le preguntan a muchísimos temas a los adolescentes de la ciudad donde viven y algunos factores que ustedes consideran según investigaciones pasadas que podrían influir en que una persona consuma o no alcohol. Entre ellas, preguntan si el joven ha fumado alguna vez en la vida y el sexo. De esta manera, la hipótesis que tienen es que las personas que fuman cigarros y el sexo pueden ser factores que incrementan la probabilidad de consumir alcohol en el último mes.
¡Muy bien! Luego de ello, ingresan la data al SPSS y se sientan en la computadora…¿Y ahora? ¿Qué hago? Ok, lloran un poco, luego se reponen, se preparan un maravilloso café (sí, por si acaso yo soy un fanático del café, tomo dos al día y lo disfruto como si fuera un elixir de los dioses), y, ¡para adelante con el análisis!
Perfecto, para realizar los análisis los acompaño en su empresa así que ¡a continuar con nuestra travesía! Y para ello, debemos seguir la siguiente ruta:
Analizar/Regresión/Regresión logística binaria/
En la variable independiente ponemos el sexo y si fuma o no cigarros y en la variable dependiente si consume alcohol o no. ¡Genial! Ingresamos las variables ¡y listo! Aceptar.

Este primer cuadro lo que me dice es en promedio cuál es la probabilidad que una persona haya consumido o no alcohol alguna vez en el último mes. En este caso, para facilitar la interpretación utilizaremos el Exp(B) que en términos técnicos se llama OR (Odds ratio en inglés, o razón de odds o razón de momios, las tres son lo mismo). ¿Cuál sería la interpretación de esta tabla? ¡Muy sencillo! Es en promedio la posibilidad (ya no probabilidad porque estamos hablando de OR) de haber consumido un trago o no alguna vez en el último mes. Para este ejemplo, el valor es 14.763, lo cual implica que en promedio existe 14.763 veces la posibilidad que una persona haya consumido alcohol en el último vez a que no lo haya hecho. Nota sumamente importante: esta interpretación no toma en cuenta ninguna de las dos variables que incluimos en la regresión logística, esto tan solo es la posibilidad en promedio de toda la muestra de consumir o no alcohol. ¡Genial, sigamos avanzando!

Este segundo cuadro nos muestra cuán bien el sexo y la ocurrencia de fumar (las variables independientes que comentamos antes) explican nuestro modelo. Esa “cosa extraña” que se ve un poco tenebrosa que dice “-2 log de la verosimilitud” lo único que dice es cuánta varianza no explicada hay en nuestro modelo cuando ingresamos las dos variables previamente mencionadas. Nada más y nada menos. ¿Cuál es el mensaje para la casa? ¡Muy sencillo queridos amigos aventureros de la vida! Este número compara un modelo con ninguna variable contra nuestro modelo con dos variables, mientras más pequeño es el número quiere decir que hay menos varianza no explicada y por ende nuestro modelo explica más.
Por otro lado, tanto el R cuadrado de Cox y Snell y el de Nagelkerke, dicen cuánta varianza explica nuestro modelo. De este modo, es muy parecida a la R cuadrado de la regresión lineal múltiple (para los que no se acuerdan aquí la referencia). Los números son distintos porque los cálculos son diferentes, si tuviera que escoger uno utilizaría el segundo que me dice que el sexo y el fumar o no cigarros explica el 35% de la varianza de el consumo de alcohol o no en el último mes. ¡Genial! ¡Ahora el último round!

Como ven, en este caso salió que el fumar no muestra un incremento o reducción en la posibilidad de consumir alcohol (la significancia es de .992, cuando debe ser menor a 0.05). Por otro lado, el sexo sí muestra un efecto significativo en la posibilidad de consumir alcohol en el último mes. En este caso, la categoría que se puso como referencia para comparar son hombres contra mujeres y en la tabla ese valor equivale a las mujeres (para más información sobre categorías de referencia encantado que dejen un maravilloso mensaje y con gusto discutimos sobre ello). De este modo, la interpretación vendría a ser que existe una posibilidad de .965 veces que una mujer consuma alcohol en comparación de un hombre. Sin embargo, esto suena medio confuso entonces puedo hacer un pequeño truco. Si nosotros dividimos 1/.965 = 1.03, obtenemos un número mucho más fácil de interpretar que se describiría de la siguiente manera. Existe, en promedio 1.03 veces menos posibilidad que una mujer consuma alcohol en comparación de un hombre en el último mes. Nota útil, cuando el valor del OR es menor a 1 es más fácil utilizar esta interpretación pero cuando es mayor a 1, interpretar directamente se vuelve más sencillo. De todas maneras, el OR tiene múltiples maneras de ser interpretado, para facilitarnos la vida, haré un post aparte en el cual proponga todas las diferentes interpretaciones que se puedan hacer.
¡Muy bien! Como ven, logramos sobrevivir a este terrible batalla, pero genial aventura. Ahora podemos ir a nuestras casas victoriosos y felices. En el siguiente post, mencionaré las diferentes interpretaciones que se pueden hacer con la regresión logística. ¡Recuerden! Siganos, en Facebook o sino en Twitter o también dejen sus comentarios aquí en la página del blog. ¡Mucho éxito y nos vemos pronto! 🙂
Like this:
Like Loading...