Estimados todos, saludos para ustedes, espero que estén muy bien. Bienvenidos a otra aventura de Stats SOS. El episodio de hoy, es parte del mundo lineal. 🙂
Esta aventura nos verá enfrentados a la regresión lineal múltiple, dónde tendremos que revisarla y comprenderla. Estoy seguro que al final la entenderemos y la podremos describir de manera sencilla.
¡Excelente! Primero que todo, la regresión lineal múltiple, es parte de la familia lineal y es una extensión de la regresión lineal simple. Esta busca relacionar varias variables independientes (o predictoras) con una variable dependiente y esta relación es lineal. ¿Vamos bien, no?
¿Qué les parece si vamos a un ejemplo? Imagínense que tenemos intención de saber si es que el soporte social (Variable A) y una menor desesperanza (Variable B) predice los niveles de estrés (Variable C). Para ello, encuestamos a 269 jóvenes y les preguntamos sobre su soporte social, desesperanza y estrés. ¡Perfecto! Luego de esto, ingresamos todos nuestros cuestionarios a la computadora, y en este caso abrimos SPSS y ¡vamos para adelante! (Aplausos).
Antes de entrar de lleno a nuestra regresión múltiple es importante revisar si es que efectivamente el soporte social y menor desesperanza (por separado) tienen una relación lineal con el estrés. Para ello, tenemos que hacer un análisis ¿Cuál? Seguramente ustedes ya lo deben saber, sin embargo, los que que no recuerdan pueden ir a este post para refrescar la memoria.
¡Muy bien! Aparte, otra medida que podemos tomar previa a nuestro análisis es evaluar la relación entre soporte social y menor desesperanza para revisar si es que hay una fuerte relación entre ellos. ¿Por qué se hacemos esto? ¡Adivinemos! No, nosotros vivimos de hechos y no de adivinanzas así que si no recordamos podemos ir a este post y revisar él título de Mulcolinealidad.
Ojo pestaña y ceja: Aquí hay que tener cuidado, si bien hacer este análisis nos puede dar indicios de que dos variables están muy relacionadas, esto no debe ser determinante (Yoo, Mayberry, Bae, Singh, Qinghua & Lillard jr, 2014), de todos modos, es mejor utilizar diagnósticos de multicolinealidad que los veremos más abajo.
Luego de haber hecho todo el calentamiento previo para la verdadera aventura, vamos al meollo de todo el asunto (Tambores). Para ello, vamos a la siguiente ruta:
Analizar/Regresión/Lineales/
Ahí nos va a salir una ventana que dice Regresiones lineales. En ella, tenemos que especificar cuáles son nuestra variable dependiente y nuestras variables independientes. Es importante que recordemos que nuestra variable dependiente es la que queremos medir, mientras que nuestras variables independientes (o predictoras) son las que queremos utilizar para para medir o predecir los puntajes de la variable dependiente.
En este caso, ponemos Estrés en la parte de que dice Dependientes y en la que dice Independientes ponemos soporte social y menor desesperanza total. ¿Por qué hacemos esto? Porque queremos saber cuánto predicen el soporte social y la menor desesperanza los puntajes de la prueba de estrés.
¡Muy bien! Ahora que tenemos esto, como ya mencionamos anteriormente, es importante también revisar temas como Multicolinealidad así como Homocedasticidad. Los que no recuerdan qué era esto, ¡No hay problema! Este post les puede ser de ayuda.
Para ello, vamos a Estadísticos y marcamos la casilla que dice Diagnósticos de colinealidad, luego continuar. Esta opción nos ayudará a revisar si tenemos problemas de Multicolinealidad o no.
Por otro lado, para probar la Homocedasticidad tenemos que ir a gráficos y ahí en el eje Y es necesario poner Zresid que son los residuos. En otras palabras la variabilidad del error de nuestras variables. Por otro lado, en el eje X es necesario poner Zpred que vendría a ser la variabilidad de nuestros predictores o variables independientes. En otras palabras, la habilidad para predecir de nuestras variables. Luego ponemos continuar. Finalmente aceptar y ¡Ahí vamos!
Tabla 1
Esta tabla, es un resumen general de nuestro modelo. Aquí, podemos ver dos cosas muy importantes: a) Según el R, la combinación de puntajes de Soporte social y puntajes de menos desesperanza tienen una relación de.557 con los puntajes de estrés. Este valor se interpreta de la misma manera que se interpretaría una correlación de Pearson (ver post). Pero lo más importante para nosotros son los siguientes dos valores. El R cuadrado y el R cuadrado corregido que nos llevan a nuestro otro punto: b) Estos números nos indican la proporción de varianza de los puntajes de estrés explicada por los puntajes de Soporte social y de menor desesperanza. Entonces, la proporción de varianza explicada por nuestras dos variables vendría a ser .31. ¿Cuándo usamos el R cuadrado corregida? Es mejor usar este valor cuando tenemos muchas variables independientes (predictoras). Esto se da debido a que muchas variables tienden a subir (o inflar) el R cuadrado y nos podría dar una idea errónea de cuánto está siendo explicada nuestras variable dependiente por nuestras independientes. ¡Muy bien! Eso no fue tan malo, sigamos con la siguiente. 🙂
Tabla 2
No iremos mucho en detalle con esta tabla. Si se fijan esta es la misma tabla que hemos visto tanto en el post de ANOVA, así como en el post de regresión lineal simple. Esto nos muestra dos cosas: a) la regresión y el ANOVA en el fondo son el mismo análisis que pertenecen a la misma familia (la familia de relaciones lineales). b) La regresión múltiple es una extensión (más compleja) de la regresión lineal simple.
Aquí lo importante es que el modelo es significativo porque muestra una F enorme que genera una significación menor a 0.05. Los que desean ver la relación entre la significación y la F pueden ir al post de ANOVA y también pueden revisar las tablas de valores críticos donde pueden buscar la F = 59.761 y ver cuál es la significancia. Por otro lado, los que no recuerdan por qué diablos es significativo cuando es menor a 0.05 pueden ir al post de estadística inferencial que les puede dar muchas luces sobre ello. 🙂
Ahora vamos a la última tabla, ¿Vamos bien? Tomémoslo con calma, respiremos y descansemos un rato si es necesario, entiendo que esta es una aventura larga pero es importante tener toda la información con nosotros para poder lograr nuestra meta. 🙂 ¡Sigamos adelante valientes lectores!
Tabla 3
¡Muy bien! Ahora en este tabla veremos nuestros coeficientes, en este caso nos enfocaremos en los coeficientes no estandarizados, los coeficientes estandarizados y la Tolerancia y el FIV. Los que tiene interés en saber qué es la constante, siempre pueden dejar un excelente comentario abajo y encantado de responder :).
¡Vamos a lo nuestro! Primero que todo, el coeficiente no estandarizado nos muestra cuánto cambia el estrés cada vez que sube un punto de soporte social o de menor desesperanza. Entonces por ejemplo, cada vez que una persona puntúa un punto extra en el cuestionario de soporte social, el estrés baja (por el signo negativo) en .867. ¿Todo bien? ¿Están ahí? (cric cric, como los grillos). ¡Excelente! ¡Sigamos!
El coeficiente estandarizado, se llama de esa manera porque ahora los valores han sido estandarizados, que en sencillo significa que se le han puesto límites donde los números pueden ir de -1 a 1. ¿les suena conocido? A los que no, ¡no hay problema! Este post les podrá luces sobre ello. ¡Muy bien! Este coeficiente nos menciona cuánto nuestras variables independientes o predictoras predicen nuestra variable dependiente cuando las otras (en este caso la otra) tiene un valor constante. Para seguir con el ejemplo, Soporte social se relaciona en .16 (negativo) con estrés cuando menor desesperanza es constante. Mientras que menor desesperanza se relaciona en .469 (negativo) con estrés cuando soporte social se mantiene en un valor constante. ¿Qué nos dice esto? Que dentro de nuestro modelo, menor desesperanza predice mejor el estrés que soporte social.
Aparte, vemos que ambas variables independientes son significativas (menores a 0.05) por ello, podemos decir que estas dos variables son las que predicen los valores de estrés.
¡Excelente! Vamos muy bien, ahora el último respiro para acabar la tabla y terminar con nuestra regresión múltiple :). ¡Vamos nosotros podemos, fuerza!
El FIV (factor de inflación de la varianza), nos muestra si es que un predictor (Variable independiente) tiene una fuerte relación lineal con otro predictor. Un FIV mayor a 10 es muy problemático (Bowerman & O’Connell, 1990; Myers, 1990). Aparte, un FIV muy por encima de 1 puede ser que nuestros resultados estén sesgados (Bowerman & O’Connell, 1990).
Por otro lado, la Tolerancia está relacionada al FIV. En realidad el inverso del FIV es la tolerancia. ¿Qué significa esto? 1/FIV es igual a la tolerancia. Cuando esta es menor a 0.2 es problemático y nos puede dar indicios que hay una relación entre dos variables independientes de nuestro modelo (Menard, 1995).
En nuestro caso, vemos que el FIV (1.218) está muy lejos de 10 y si bien está por encima de 1, no está muy por encima de 1. ¡Así que todo muy bien! No hay multicolinelidad en nuestro modelo :).
Ojo pestaña y ceja: Siempre hay que ser bien precavidos con estas “reglas de dedo”, por ejemplo, algunos autores más actuales han visto que el FIV también puede estar afectado por el tamaño de muestra (O’brien, 2007). Entonces es bueno usar, no solo una correlación previa de nuestras variables independientes (ver más arriba) así como también el diagnóstico de multicolinealidad.
Gráfica 1
Finalmente, este gráfico nos ayuda a ver si es que hay un problema de Homocedasticidad o no. Como vemos, no hay relación lineal entre los residuos y nuestros predictores, por ello, podemos ver que no hay Heterocedasticidad. Los que no recuerdan qué es esto, siempre pueden ir a este post que los puede ayudar. ¿Cómo se sabe cuándo hay relación o no? Muy sencillo, si los puntos tienen una forma en línea diagonal hacia arriba o hacia abajo, quiere decir que hay una relación lineal entre ellos. En ese caso, tenemos un problema de Heterocedasticidad. Para poner gráficamente esta idea de relación entre variables, siempre pueden ir a este post.
¡Excelente! ¡Lo logramos! ¡Qué tal jornada! Pero me imagino que están muy bien. Dense golpecitos en el hombro como manera de felicitarse, ha sido una gran travesía pero que siento que ha valido la pena. Para la siguiente aventura comenzaremos a entrar más a fondo al mundo no lineal así como lo hemos hecho con el mundo lineal. Este mundo también es fascinante :). Pero vamos de a pocos, recuerden que nuestro camino es largo, lleno de retos y aventuras. ¡Espero verlos pronto!
¡Recuerden! Siempre pueden dejar geniales comentarios en el post del blog o poner like en la página de Facebook.
¡Espero verlos pronto! ¡Buenas vibras y una excelente semana!
Referencias:
Bowerman, B. L., & O’Connell, R. T. (1990). Linear statistical models: An applied approach (2nd ed.). Belmont, CA: Duxbury.
O’Brien, R. (2007). A Caution Regarding Rules of Thumb for Variance Inflation Factors. Quality & Quantity, 41, 673–690.
Menard, S. (1995). Applied logistic regression analysis. Sage university paper series on quantitative applications in the social sciences, 07-106. Thousand Oaks, CA: Sage.
Myers, R. (1990). Classical and modern regression with applications (2nd ed.). Boston, MA: Duxbury.
Yoo, W., Mayberry, R., Bae, S., Singh, K., Qinghua, P., & Lillard jr, J. (2014). A Study of Effects of MultiCollinearity in the Multivariable Analysis. International Journal of Applied Science and Technology, 4(5), 9-19.
Juan Carlos,
Una consulta, realice un ejercicio de regresión lineal múltiple, en donde quería determinar si había una relación entre el tiempo de permanencia de los colaboradores (VDEP) en relación a otras variables: Promedio Horas extras, Cantidad de premios recibidos, etc. Todo bien! pero en el grafico los puntos no forman una línea totalmente recta pero si tienen una tendencia. Esto quiere decir que el modelo no es valido?? Otra consulta, cuando realizas el análisis de regresión lineal con una sola variable independiente, es también necesario hacer el gráfico para demostrar la Homocedasticidad? Gracias por tu apoyo
LikeLike
Hola Daniel,
Gracias por escribir en el blog. Si es que tienes una tendencia marcada (yo revisaría bien si realmente es marcada esta tendencia donde hay una clara línea diagonal, o algún tipo de función) ocurre un tema. Tu regresión deja de ser el mejor estimador lineal (en inglés best linear unbiased estimador BLUE). El riesgo es que tu modelo te de predicciones sesgadas (no confiables). Puede ser que el sesgo sea en valores muy altos o valores muy bajos (dependiendo la forma de tu línea).
De todos y nuevamente te comento, yo no me preocuparía mucho, a menos que la forma sea muy clara y marcada.
De ser así el caso, una solución es aplicar una transformación. Puedes aplicarla a tu variable dependiente un logaritmo (con base 10), y correr tu regresión lineal múltiple. Esto significa ponerle un logaritmo (LOG) a todos los valores de tu variable dependiente. No te preocupes la computadora te facilita bastante esto.
Al final, cuando tienes tus resultados lo que puedes hacer es quitar ese logaritmo (por ejemplo a tus coeficientes no estandarizados). ¿Cómo se hace esto? Aplicando un exponencial que es también llamado “Anti log”. Pero ojo, pestaña y ceja, te repito yo iría en esta ruta si la heterocedasticidad es bien marcada.
Sobre tu segundo pregunta, sí, sería recomendable utilizar el gráfico. Lo que te ayuda este gráfico es a evitar que caigas en un error tipo II, que es cuando no rechazas la hipótesis que no hay relación cuando debiste haberlo hecho. En ese caso, dirías que hay una relación entre dos variables cuando en el fondo no la hay.
Espero que te haya ayudado, cualquier cosa encantado de recibir tus comentarios.
¡Buenas vibras!
LikeLike
Gracias Juan Carlos! Fue de bastante ayuda! Haré los pasos que recomiendas!
LikeLike
Hola Juan Carlos!
Nuevamente una consulta, en la Tabla Anova (Tabla 2), quisiera saber que sucede si no es significativo. El modelo no es significativo y por lo tanto no se puede tomar como válido?
Así los valores de los coeficientes (Tabla 3) salgan significativos, ya no sería valido? Gracias por tu apoyo!
LikeLike
Hola Daniel!
Como siempre, muchas gracias por escribir a Stats SOS. Un gusto de tenerte de vuelta. Sí en la tabla 2 la F no es significativa quiere decir que no hay relación entre las variables predictoras o (independientes en conjunto) y la variable dependiente.
La tabla 2 te habla de un modelo más general donde la tabla 3 te muestra particularmente cada variable. Ojo, que no salga significativo tu modelo en la tabla 2 puede ser por una serie de razones, ahí lo que dice es que la relación entre la combinación de las variables y la dependiente no es significativa.
Sin embargo, puede pasar que las variables solas y no en un modelo (como en una correlación) sí tenga relación con la variable dependiente.
Espero esto haya ayudado.
¡Éxitos!
LikeLike
Gracias Juan Carlos por la respuesta, como siempre bastante clara y precisa.
No me quedan mas dudas al respecto.
Saludos,
LikeLike
Hola JC,
Como siempre, mostro el blog. Mas bien, ¿para cuándo el post sobre regresiones logísticas?
Un abrazo,
LikeLike
Hola Alvaro,
Muchas gracias por escribir a Stats SOS. En estos momentos he estado ocupado entonces no he podido postear. Pero estoy trabajando bastante con regresiones logísticas. Entonces a penas me desocupe escribiré primero sobre poder estadístico (un pedido pasado) y luego sobre regresiones logísticas tanto binomiales como multinomiales. Intuyo que eso será para Setiembre. Lamento la demora pero estoy bastante atareado.
Un abrazo y espero tenerte por aquí nuevamente.
LikeLike
Excelente. Una consulta adicional: Al momento de ingresar las VI’s, ¿es relevante si se ingresan juntas o separadas por bloques?
Abrazo,
a.
LikeLike
Estimado Alvaro,
Muchas gracias por escribir a Stats SOS. Sobre tu pregunta eso depende de la técnica que utilizas. Personalmente, yo suelo ingresar todas las variables independientes primero. Luego a medida que voy viendo cuáles no son significativas voy retirando una por una. Sin embargo, el método inverso también se utiliza. Hay gente que utiliza Regresiones Múltiples por pasos (creo que jerárquicas no es la palabra más precisa). Entonces ingresa una variable, luego una segunda, y así sucesivamente. Si se percata que una variable no es significativa la retira. Muchas personas tienen interés de ver cómo el R cuadrado va cambiando a medida que vas ingresando más variables.
Un tema importante es que cuando hay multicolinealidad entre dos variables independientes (ver post: http://statssos.net/2015/03/18/gonzalo-apoya-la-aditividad-los-4-supuestos-de-la-regresion-lineal/), puede ocurrir que esas variables se vuelvan no significativas en el modelo porque están altamente relacionadas entre sí.
Entonces, respondiendo directamente a tu pregunta, sí es relevante si se ingresan juntas o separadas. Poner todas las variables juntas mostrarán resultados distintos a poner sólo una variable independiente contra una dependiente.
Espero que te haya ayudado.
Abrazo y muchos éxitos
LikeLike
Hola Juanca! Tenía una consulta, fuera de este tema ojala me puedas ayudar! Es sobre Análisis Factorial. Es un estudio que estoy realizando con 25 indicadores en una escala del 1 al 5. (Tuve un problema que tuve que eliminar como 100 encuestas, porque es sobre el jefe ideal y lo apliqué en el trabajo y es para gente operativa que tiene miedo que los despidan si dicen la verdad, y marcaron todo entre 4 y 5 que decía algo así que “estoy super contento con mi jefe”). Sucede que realicé el análisis factorial y un solo componente tiene ya 58% de la varianza, pero eso no me sirve. Mi pregunta es: A pesar de la alta varianza con un solo factor, ¿Puedo yo decidir y correr los estadísticos solicitando 4, 6 u 8 factores? O debo asumir que se trata de un solo factor o a lo mucho 2? Espero que se entienda mi duda, Muchas gracias!
LikeLike
Hola Daniel,
Muchas gracias por escribir a Stats SOS. Es posible pedirle al programa que te de más de un factor. Eso no es problema. Lo que tendrías que ver es si efectivamente existe más de un factor. El gráfico de sedimentación, las cargas que se muestran por cada componente, así como los auto valores mayores a 1 podrían darte pistas de esto.
Otra posibilidad es que corras un análisis por componentes principales utilizando algún tipo de rotación (de preferencia VARIMAX, que te fuerza a que los componentes sean independientes entre sí). Pero si solo te arroja un factor entonces eso quiere decir que esos 25 items conforman un factor único.
Por otro lado, si no salen los factores que necesitas otra posibilidad es que revises los indicadores que te interesan de manera individual. Recuerda que el análisis por componentes principales lo que hace es juntar y agrupar indicadores para que tengas menos áreas que analizar. Por ejemplo, en lugar de analizar 25 indicadores analizas 3.
¡Muchos éxitos!
LikeLike
Muchas gracias Juan Carlos!! Queda bastante clara tu explicación.
LikeLike
Estimado Juan Carlos:
Disculpa que te moleste nuevamente, te comento que he llegado a la fase de mi investigación en donde tengo que realizar un modelo predictivo y me parece que la regresión lineal múltiple es mi opción, antes quiero comentarte todos los pasos que he realizado para llegar hasta este punto, primero te aclaro que estoy trabajando con una batería de instrumentos, que como sabrás tiene varias escalas, entre ellas, una que mide el estrés y ésta es la variable con la que estoy trabajando: el nivel del estrés y su relación con estas escalas. Lo primero que realicé fue sacar un alfa de Cronbach por cada escala (de respuesta tipo Likert) ( o uno por cada subescala según correspondiera), me habían pedido que realice una validez de contenido mediante el juicio de expertos, pero según la literatura que revisé, este tipo de validez debe realizarse antes de la aplicación de los instrumentos, entonces eso me quedó pendiente y no pude salir de eso. Posteriormente, realicé un análisis descriptivo: frecuencias y porcentajes de la población estudiada y medias y desviaciones estándar en las escalas, antes te aclaro que la mayoría de mis escalas no tienen una distribución normal, más bien casi todas las puntuaciones se agrupan hacia la izquierda (me parece que es curtosis). Posteriormente, realicé una t de Student (en las variables de dos grupos), un Anova (en las variables de tres grupos) y correlaciones entre mi escala de estrés y las demás escalas, esto con la finalidad de saber qué población presenta mayor nivel de estrés (hombres o mujeres) o también de conocer con qué variable se presentaría diferencias entre las medias de los grupos. Antes que nada te comento que entre las variables sociodemográficas tengo variables de enfermedad de respuesta dicotómica. Bueno, ahora llegado a este punto tengo varias preguntas que me confunden para realizar este paso: ¿tengo que utilizar las escalas (variables de intervalo) y las variables sociodemográficas (variables nominales) en un mismo modelo? O me conviene realizar un modelo separando las variables de intervalo, las variables sociodemográficas (sexo, tipo de establecimiento, etc) y otro modelo por las variables que corresponden a la enfermedad? Es decir, tres modelos diferentes por cada tipo de variable? ¿ o debo realizar un modelo que contenga todas estas variables? Otra pregunta que me planteo ¿De qué me sirve conocer a qué grupo afecta el estrés (hombres mujeres, si sector urbano o rural? Para realizar este modelo predictivo? ¿Afecta en algo que la distribución de los puntajes de mis escalas no sea normal? Disculpa el enorme discurso que te di, pero realmente se me complica realizar este paso, sobre todo debido a mi nula experiencia con la estadística. Probablemente se me quede alguna pregunta pero estas son las que recuerdo.
LikeLike
Estimada Sara,
Muchas gracias nuevamente por escribir a Stats SOS. Voy a enumear tus preguntas para hacer el ejercicio más fácil.
1) Sí, te recomendaría poner todas tus variables en un solo modelo y luego vas sacando una por una. El criterio para sacar una variable es que no sea significativa y el nivel de significancia sea lo más alto posible. De ser así, debes sacar la variable y volver a correr todo pero sin esa variable.
2) El tema de escoger el sexo o el área (urbano rural) depende de tu pregunta de investigación y del criterio del investigador. Yo lo usaría porque la literatura sí plantea que los niveles de estrés entre hombres y mujeres son diferentes. Sobre el tema de área eso depende de lo que ya te mencioné previamente, el objetivo de la investigación y tu criterio.
3) No afecta en la más mínimo que los puntajes no sean normales, la no normalidad de los errores es un problema pero no la normalidad de los puntajes, la precisión del modelo de regresión lineal no se verá afectada por eso.
Espero que todo salga bien!
Mucho éxito!
LikeLike
muchas gracias Juan Carlos por tu respuesta, realmente te estoy muy agradecida, una última pregunta: debo incluir en este modelo las escalas que me salieron con un alfa de cronbach bajo? porque estas mismas escalas me salieron con una correlación moderada con respecto a mi escala de estrés. te estoy muy agradecida!
LikeLike
Estimada Sara,
Muchas gracias nuevamente por escribir a Stats SOS. Eso depende de ti, pero si yo estuviera en tu posición no lo haría. Como esas escalas no son confiables no puedo decir con certeza y sin algún sesgo que las relaciones entre esas variables son reales.
Espero que esto no te desanime, así suele suceder. De todos modos estoy seguro que todo saldrá bien.
Mucho éxito!
LikeLike
Hola estimado Juan Carlos, te agradezco infinitamente la ayuda que me proporcionas, tengo unas preguntas más y espero no molestar demasiado. Antes que nada te menciono, que hice lo que me sugeriste, en mi modelo introduje 25 variables predictivas, pero muchas de ellas, tenían un alto nivel de significancia, y por tanto me quedé al final solo con quince variables. Esto hice antes que nada para después analizar los estadisticos que me permitan validar o verificar que mi modelo predicitivo esté bien elaborado ¿ Esto es correcto? Así también, Te quiero preguntar sobre la bondad de ajuste, como te dije, en mi modelo tengo 15 variables ,por tanto utilicé el valor de R cuadrado corregido, mi pregunta es si debo interpretar solo este valor o también el valor de R, porque noto que en tu explicación haces dos análisis diferentes, tanto para R como para R cuadrado. Así también te quiero preguntar si R cuadrado o corregido en mi caso, se debe interpretar de la misma manera que una correlación de Pearson? Otra pregunta que te quiero hacer es si los coeficientes estandarizados y no estandarizados tienen una diferente interpretación, o si solo puedo utilizar el valor de uno de estos estadísticos para mi explicación. Otro punto que te quiero mencionar es sobre la homocedasticidad, que en mi caso, no adopta una linea recta, pero noto que los puntajes tienden a acumularse sobre todo en el centro, y algunos de ellos, se dispersan hacia el lado derecho de mi gráfico. Te agradezco infinitamente tu ayuda…
LikeLike
Estimada Sara,
Muchas gracias por escribir a Stats SOS. Voy a enumerar las respuestas para que sea más ordenada la respuesta.
1) Sí, introduces todas las variables a tu modelo y luego vas sacando una por una desde la menos significativa (la significancia más alta) hasta que queden solo variables significativas.
2) Yo solo interpretaría el valor de R cuadrado corregido. En este caso, el R cuadrado corregido no se puede interpretar como una correlación de pearson. Se interpreta este número como la proporción de varianza de la variable dependiente explicada por tu modelo.
3) Los coeficientes estadarizados y no estadarizados tienen diferente interpretación. Si en tu caso quieres saber qué variable independiente explica más tu variable dependiente dentro de tu modelo usaría el beta estandarizado.
4) Por lo que mencionas sobre la homocedasticidad parece tener una forma como de nube. Entonces aparentemente no hay relación lineal entre los errores y tu variable predictora entonces no hay ningún problema.
Espero que esto ayude
¡Mucho éxito!
LikeLike
Estimado Juan Carlos:
te comento que seguí cada una de las recomendaciones que me hiciste, te estoy completamente agradecida, ahora me encamino a escribir un modelo de borrador científico, para lo cual necesito ser lo más técnica posible en cada uno de los pasos que realicé para la obtención de mi modelo predictivo.Necesito preguntarte, si el método que me recomendaste seguir es el conocido como “stepwise hacia atrás”, en donde se ingresan todas las variables, hasta conseguir el mejor modelo posible ( que en mi caso fue, hasta conseguir que todas las variables fueran significativas). De nuevo, infinitos agradecimientos por toda la ayuda que me diste, realmente nada de lo que he hecho hasta ahora hubiera sido posible sin este blog.
LikeLike
Estimada Sara,
Muchas gracias por escribir a Stats SOS. Así es, el método es “Stepwise hacia atrás”. No hay gran diferencia entre este método y stepwise hacia adelante. Debe ser por costumbre que yo utilizo el método que mencionas. Pero sí, estás en lo cierto el método propuesto aquí se llama “Stepwise hacia atrás”.
Mucho éxito y me alegro que el blog esté siendo de ayuda.
LikeLike
Buenas noches, soy nueva en el manejo de stata y he tenido dificultades con los datos que estoy tratando de analizar, lo primero que hice fue consolidar mi base de datos en excel y luego la coloque en el programa, asimismo renombre las variables, pero ya cuando quise utilizar comando para identificar tendencias centrales y de dispersión no me aparece información analizada. no sé cual es mi error.
Agradezco su orientación.
LikeLike
Estimada Diana,
Muchas gracias por escribir a Stats SOS. En general, este blog está más dirigido al uso de SPSS y algunos cálculos que son manuales. Sin embargo, te envío este enlace que podrá ayudarte a solucionar la dificultad que tienes con el Stata.
¡Mucho éxito!
Enlace: https://www.youtube.com/watch?v=H58gzaDifFY
LikeLike
Hola Juan Carlos 😀
Unas consultas:
Mencionas en el cuadro 2 , específicamente en estadísticas de colinealidad, que la tolerancia y el VIF te permiten ver si tu predictor (Variable independiente) tiene una fuerte relación lineal con otro predictor. Genial, pero cuando lo hago en el SPPS me sale otro cuadro que se llama diagnostico de colinealidad. Este en qué me pueda ayudar? Lo menciono, ya que en el anterior (coeficientes) ya hemos comprobado que no tiene multicolinealidad. Este es un cuadro más especifico para cada valor? Cómo se interpretara? Son uno de esos cuadros que bota el SPPS como loco?
Igualmente con el cuadro de estadísticas de residuos. Para qué seria útil? No me queda tan claro la importancia de residuos para este modelo.
Gracias!
LikeLike
Una última consulta, ¿Para este modelo tiene algún cambio si la muestra resulta no tener normalidad o solo se asume?
Ahora si, es todo.
LikeLike
Estimada Aurelia,
Muchas gracias por escribir a Stats SOS. Respondo ambas de tus preguntas por acá. EL VIF y la tolerancia te dirán si tus variables efectivamente corren el riesgo de estar relacionadas.
Por otro lado, el diagnóstico de colinealidad te da la proporción de varianza compartida entre tus variables, por ende como bien dices es un análisis más específico pero algo redundante porque el VIF y la tolerancia (1 – VIF) ya te dieron información.
El cuadro de los residuos es útil para ver si es que se cumple el criterio de Homocedasticidad y Normalidad de los residuos. Cumplir los cuatro supuestos de la regresión es sumamente importante para realizar dicho análisis. Aquí te comparto un post donde salen dichos supuestos y pueden dar mucho más luces: https://statssos.net/2015/03/18/gonzalo-apoya-la-aditividad-los-4-supuestos-de-la-regresion-lineal/
¡Mucho éxito!
LikeLike
Pingback: Nuestra logística es la regresión logística | Stats SOS
Pingback: ¿Números muy fríos? ¡Presentemos gráficos! | Stats SOS
Buenas de nuevo Juan Carlos, leyendo sobre la regresión lineal me planteo si tiene lógica que la aplique a mi estudio. Quiero saber si el contacto con cierto tipo de personas disminuye el prejuicio hacia ellas, es decir tengo tres variables, contacto con la persona (si o no). nivel de prejuicio 1 (obtenido con la media de puntuaciones) y nivel de prejuicio 2 (obtenido con media de puntuaciones). Puedo realizar el análisis con una variable dicotómica “si o no”? Iría como variable dependiente y los dos niveles como independiente? gracias.
LikeLike
Estimado Adrian,
Muchas gracias por escribir a Stats SOS. La regresión lineal múltiple solo utiliza variables dependientes que son puntuaciones. Si tu variable dependiente es dicotómica tendrás que utilizar la regresión logística. Aquí te comparto un enlace con la regresión logística: https://statssos.net/2016/11/22/nuestra-logistica-es-la-regresion-logistica/
¡Mucho éxito!
LikeLike
Juan Carlos, como te comenté, mi investigación es explicativa, sin embargo, al hacer las regresiones no se cumplen los supuestos de normalidad ni homocedasticidad, muy a parte de que el R2 es bajo. También me percaté que no hay altas correlaciones entre las variables dependientes e independientes. Debido a que ya hice mis casi 400 encuestas, se me ocurrió replantearla como correlacional pues los supuestos solo son población normal y datos independientes.
Agradeceré muchísimo tus comentarios. Saludos, Brenda.
LikeLike
Estimada Brenda,
Muchas gracias por escribir a Stats SOS. Sí, puedes hacer eso y no habría ningún problema. Eso depende de los objetivos de tu estudio. Tu opción es una posibilidad viable. Ahora tu estudio tendría un diseño correlacional-causal y puedes poner como referencia Hernandez, Fernandez y Baptista.
¡Mucho éxito!
LikeLike
Estimado Juan Carlos,
Quería consultarte, en el caso de una regresión jerárquica, qué información es la que debe de estar necesariamente cuando se reporta en una tabla en formato APA? Por ejemplo, deben de estar los dos betas o solo una es importante?
Muchas gracias.
LikeLike
Estimada Lourdes,
Muchas gracias por escribir a Stats SOS. Yo pondría los 2 betas.
¡Mucho éxito!
LikeLike
Muchas gracias Juan Carlos por tu pronta respuesta. Si tuvieras que escoger entre 1 de los betas, como te dije para el caso de regresión jerárquica, cuál sería más importante?
LikeLike
Estimada Lourdes,
Muchas gracias por escribir a Stats SOS. En realidad los dos tienen igual de importancia porque están relacionados entre sí. Si tu quieres comparar entre modelos los betas no estandarizados son más útiles. Si quieres comparar entre variables dentro de un modelo los betas estandarizados son más útiles.
¡Mucho éxito!
LikeLike
Muchas gracias estimado Juan Carlos!
LikeLike
Saludos Profesor; me pregunto si tendrá algún post sobre Chaid, ya que me interesa profundizar en el tema y que mejor que sea de su blog.
LikeLike
Estimado Luis,
Muchas gracias por escribirme. Lamentablemente no cuento con un post sobre Chaid. Pero en todo caso podrías dejar tu duda sobre el tema para rebotar ideas.
Mucho éxito!
LikeLike
Estimado Juan Carlos,
No tengo muchos conocimientos en estadística, pero en algunos foros he leído que en los métodos de regresión es recomendable utilizar la estandarización de variables, sobre todo cuando estamos utilizando variables que provienen de diferentes instrumentos, ¿tiene alguna recomendación acerca de esto o un post en el que se toque este tema?. Muchas gracias por adelantado.
LikeLike
Estimado Manuel,
Muchas gracias por escribir a Stats SOS. En general la estandarización de variables permite que todas estén en la misma escala. El post que te puede ayudar es sobre puntaje Z que lo puedes encontrar en el apartado de conceptos.
Mucho éxito!
LikeLike
Estimad Juan Carlos,
En el modelado lineal automático de SPSS, así como en algunos paquetes de R, es posible obtener los valores de “importancia del predictor”. Me gustaría saber si es posible obtener este valor en el caso de la regresión múltiple sin usar esta opción automática, o habría alguna externa forma de calcularla. Muchas gracias por las anteriores respuestas. Un saludo.
LikeLike
Estimado Manuel,
Muchas gracias por escribir a Stats SOS. En el SPSS la importancia del predictor en comparación a los otros predictores podrías usar los betas estandarizados que te dan el SPSS. Ese es el comando que te refieres?
En lenguaje de R estoy pensando los lm.beta que te da el paquete QuantPsych después de haber ajustado tu modelo lm(y ~x1 + x2 + etc, data).
Mucho éxito!
LikeLike
opción no parametrica de la regresión lineal múltiple??
LikeLike
Estimado Luis,
Muchas gracias por escribir a Stats SOS. Intuyo que podrías hacer una regresión logística pero la medida dependiente es binaria o de múltiples categorías. Si tus variables no tienen una distribución normaron importa, el tema que es complicado es cuando tus errores o residuos no tienen una distribución normal.
Mucho éxito!
LikeLike
Hola Juan Carlos,
¿Podrías ayudarme en solucionar un problema de heterocedasticidad? Hay una tendencia marcada y no sé cómo podría proceder. He leído de transformar la variable y aplicarle un logaritmo para luego sacarlo pero la verdad es que no tenga ni idea de cómo hacerlo en el programa.
Muchas gracias!
LikeLike
Hola profesor, nunca crei encontrar una pagina tan web relacionada a la estadistica. Tengo una duda….o mas bien 2 dudas. La primera es, ¿se le puede hacer un analisis post hoc a la regresion lineal?. La segudna es, ¿por que se utiliza el anova en la regresion lineal?
LikeLike