70 votos

¿Cuál es la diferencia entre la regresión lineal de y con x y con y?

El coeficiente de correlación de Pearson de x y y es el mismo, si usted calcular pearson (x, y) o pearson (y, x). Esto sugiere que hacer una regresión lineal de y dado x o x dado y debe ser el mismo, pero no creo que sea el caso.

¿Alguien puede arrojar luz sobre cuando la relación no es simétrica, y cómo que relaciona el coeficiente de correlación de Pearson (que siempre pienso como resumiendo el mejor ajuste de línea)?

123voto

Sean Hanley Puntos2428

La mejor manera de pensar acerca de esto es imaginar un diagrama de dispersión de puntos con $$ y en el eje vertical y $x$ representada por el eje horizontal. Dado este marco, se puede ver una nube de puntos, que puede ser vagamente circular, o puede ser alargado, en forma de elipse. Lo que usted está tratando de hacer en la regresión es encontrar lo que se podría llamar la "línea de mejor ajuste". Sin embargo, mientras que esto parece sencillo, tenemos que averiguar lo que queremos decir por "mejor", y eso significa que debemos definir lo que sería para una línea para ser bueno, o para una línea para ser mejor que el otro, etc. En concreto, se deben estipular una función de pérdida. Una pérdida de la función nos da un camino para decir lo 'malo' es algo, y por lo tanto, cuando nos minimizar que hacemos nuestra línea como "bueno" como sea posible, o encontrar la "mejor" línea de.

Tradicionalmente, cuando llevamos a cabo un análisis de regresión, nos encontramos con las estimaciones de la pendiente y la intersección con el fin de minimizar la suma de los cuadrados de los errores. Estos se definen como sigue:

$$ ESS=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2 $$

En términos de nuestro diagrama de dispersión, esto significa que estamos minimizando la suma de las distancias verticales entre los datos observados y de puntos de la línea.

enter image description here

Por otro lado, es perfectamente razonable la regresión de $x$ a $y$, pero en ese caso, podríamos poner $x$ en el eje vertical, y así sucesivamente. Si hemos cumplido nuestra parcela como es (con $x$ en el eje horizontal), la regresión de $x$ a $y$ (de nuevo, usando una versión ligeramente adaptada de la ecuación anterior con $x$ y $y$ conmutada) significa que estaríamos minimizando la suma de las distancias horizontales entre los datos observados y de puntos de la línea. Esto suena muy similar, pero no es exactamente la misma cosa. (La forma de reconocer que esta es hacerlo de ambas maneras y, a continuación, de manera algebraica convertir un conjunto de estimaciones de los parámetros en los términos de la otra. Comparando el primer modelo con la versión arreglada del segundo modelo, es fácil ver que ellos no son el mismo.)

enter image description here

Tenga en cuenta que ni la forma en que se iba a producir la misma línea podríamos intuitivamente dibujar si alguien nos entregó un pedazo de papel cuadriculado con los puntos trazados en ella. En ese caso, podríamos trazar una línea recta a través del centro, pero a fin de minimizar la distancia vertical de los rendimientos de una línea que es ligeramente más plano (es decir, con una menor pendiente), mientras que la minimización de la distancia horizontal de los rendimientos de una línea que es ligeramente más pronunciada.

Una correlación es simétrica; $x$ es como se correlacionó con $ $ y$ $y$ con $x$. La correlación producto momento de Pearson puede ser entendido dentro de un contexto de regresión, sin embargo. El coeficiente de correlación, $r$, es la pendiente de la recta de regresión cuando ambas variables han sido estandarizadas en primer lugar. Es decir, se resta primero fuera de la media de cada observación, y luego se dividen las diferencias por la desviación estándar. La nube de puntos de datos ahora se centra en el origen y la pendiente sería el mismo si la regresión de $y$ en $x$, o $x$ a $y$ (pero tenga en cuenta el comentario de @DilipSarwate a continuación).

enter image description here

Ahora, ¿por qué importa esto? El uso de nuestro tradicional de la función de pérdida, nos está diciendo que todos los de el error está en que sólo una de las variables (viz., $y$). Es decir, estamos diciendo que $x$ es medir sin error y constituye el conjunto de valores que nos interesan, pero que $$ y tiene un error de muestreo. Esto es muy diferente de decir lo contrario. Esto era importante en un interesante episodio histórico: En los finales de los 70 y principios de los 80 en los estados unidos, el caso fue que hubo discriminación contra la mujer en el lugar de trabajo, y esto fue respaldado con el análisis de regresión muestra que las mujeres con igualdad de fondos (por ejemplo, calificaciones, experiencia, etc.) se pagaron, en promedio, menos que los hombres. Los críticos (o, simplemente, personas que estaban muy exhaustivo) razonó que si esto era cierto, las mujeres que fueron pagados en partes iguales con los hombres tendrían que ser más altamente calificados, pero cuando esto se comprueba, se encontró que aunque los resultados eran "significativos" cuando se evaluó la única manera de que no eran "significativos" cuando se selecciona la otra manera, y que lanzó a todos los involucrados en un tizzy. Ver aquí para una famosa papel que trató de aclarar la cuestión.


(Actualizado mucho más tarde) he Aquí otra manera de pensar acerca de esto que se aborda el tema a través de las fórmulas en lugar de discapacitados:

La fórmula para la pendiente de una simple línea de regresión es una consecuencia de la pérdida de la función que ha sido adoptado. Si usted está utilizando el estándar de mínimos Cuadrados Ordinarios función de pérdida (mencionadas anteriormente), se puede derivar la fórmula para la pendiente que se ven en cada introducción de libros de texto. Esta fórmula puede ser presentada en diferentes formas; una de las que yo llamo el "intuitivo" de la fórmula para la pendiente. Considere la posibilidad de esta forma tanto la situación en la que están retrocediendo $y$ en $x$, y donde es la regresión de $x$ en $y$: $$ \overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ on } x}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text {} y} $$ Ahora, espero que sea obvio que ese no sería el mismo, a menos que $\text{Var}(x)$ es igual a $\text{Var}(y)$. Si las varianzas son iguales (por ejemplo, porque estandarizada de las variables en primer lugar), entonces también lo son las desviaciones estándar, y por lo tanto las variaciones de ambos también es igual a $\text{SD}(x)\text{SD}(y)$. En este caso, $\hat\beta_1$ sería igual de Pearson $r$, que es el mismo de cualquier manera, en virtud de que el principio de conmutatividad: $$ \overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlación }x\text{ con }y}~~~~~~~~~~~~~~~~~~~~~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlación }y\text{ con }x} $$

10voto

Peter Puntos1

Voy a ilustrar la respuesta con algunos R de código y de salida.

En primer lugar, se construye un azar de la distribución normal, y, con una media de 5 y una desviación estándar de 1:

y <- rnorm(1000, mean=5, sd=1)

A continuación, crear deliberadamente un segundo al azar de la distribución normal, x, el cual es 5 veces el valor de y por cada y:

x <- y*5

Por diseño, hemos correlación perfecta de x y y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Sin embargo, cuando hacemos una regresión, estamos buscando una función que relaciona x y y por lo que los resultados de los coeficientes de regresión depende de que estamos usando como variable dependiente, y que usamos como variable independiente. En este caso, no nos quepa una intercepción porque hicimos x una función de y sin variación aleatoria:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Así las regresiones nos dicen que y=0.2x y que x=5y, que por supuesto son equivalentes. El coeficiente de correlación es simplemente nos muestra que no hay una coincidencia exacta en la unidad de cambio entre los niveles de x y y, de modo que (por ejemplo) un 1-unidad de incremento en y siempre produce una disminución de 0,2-unidad de incremento en x.

3voto

dicenice Puntos11

En preguntas como esta, es fácil quedar atrapado en los temas técnicos, por lo que me gustaría centrarme específicamente en la pregunta en el título del hilo que se pregunta: ¿Cuál es la diferencia entre la regresión lineal de y con x y x con y?

Pensemos por un momento en un (simplificado) modelo econométrico a partir de la teoría del capital humano (el enlace lleva a un artículo del premio Nobel Gary Becker). Digamos que especificar un modelo de la forma siguiente: \begin{ecuación} \text{salarios} = b_{0} + b_{1}~\text{años de educación} + \text{error} \end{ecuación} Este modelo puede ser interpretado como una relación causal entre el salario y la educación. Es importante destacar que, la causalidad en este contexto significa la dirección de la causalidad va desde la educación a los salarios y no a la inversa. Esto está implícito en la forma en que el modelo ha sido formulado; la variable dependiente es el de sueldos y la variable independiente es los años de educación.

Ahora, si queremos hacer una reversión de la econométrica de la ecuación (que es, de cambio de y respecto de x a x a y), de tal manera que el modelo se convierte en \begin{ecuación} \text{años de educación} = b_{0} + b_{1}~\text{salarios} + \text{error} \end{ecuación} a continuación, implícita en la formulación de la ecuación econométrica es que estamos diciendo que la dirección de la causalidad va desde los salarios a la educación.

Estoy seguro que usted puede pensar en más ejemplos como este (fuera de la esfera de la economía), pero como se puede ver, la interpretación del modelo pueden cambiar muy significativamente cuando nos interruptor de la regresión de y sobre x para x en y.

Así, al responder a la pregunta: ¿Cuál es la diferencia entre la regresión lineal de y con x y x con y?, podemos decir que la interpretación de la ecuación de regresión cambia cuando se la regresión de x sobre y en lugar de y en x. No debemos pasar por alto en este punto, porque un modelo que tiene un sonido de la interpretación puede convertirse rápidamente en uno de los cuales tiene poco o ningún sentido.

3voto

Prekop Puntos21

Hay un fenómeno muy interesante acerca de este tema. Después de intercambiar x y y, aunque el coeficiente de regresión de los cambios, pero la estadística t/F-estadística y nivel de significación para el coeficiente de no cambiar. Esto también es cierto incluso en regresión múltiple, donde el intercambio y con una de las variables independientes.

Es debido a una delicada relación entre el estadístico F y (parcial) coeficiente de correlación. Esa relación realmente toca el núcleo del modelo lineal de la teoría.Hay más detalles acerca de esta conclusión en mi cuaderno: ¿por Qué el intercambio y y x no tiene ningún efecto en la p

-7voto

La idea básica de la regresión pueden ser la "causa y efecto" o "independiente y dependiente". La práctica normal de la colocación de la variable independiente en el eje X y la variable dependiente en el eje Y se representa por Y= mX+c. Si la pendiente es ser llamado como m (X, Y) o (Y, X) y la regresión como: (X Y) o (Y, X). Se trata en ambos sentidos, lo cual no es bueno y debe ser aclarado. Los modeladores con frecuencia el uso de diagramas de Dispersión, para juzgar si Simulado de la Serie de partidos de la Serie Observada; y el uso de la línea de regresión es inevitable. aquí no hay ninguna causal de la cláusula. Teniendo en cuenta esta necesidad, el silencio cuestión planteada por el hilo de stands. O simplemente poner, por favor aclarar cómo se va a llamar a la normal, el análisis de regresión: X en Y; o Y en X?, va más allá de la causal de respuesta. No es una respuesta al hilo principal; pero en paralelo una pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: