97 votos

La interpretación de la trama.lm()

Yo tenía una pregunta acerca de la interpretación de los gráficos generados por parcela(lm) en R. me preguntaba si ustedes podrían decirme cómo interpretar la escala de ubicación y apalancamiento-gráficos de residuos? Cualquier comentario se agradece. Asume un conocimiento básico de estadística, regresión y de la econometría.

149voto

Sean Hanley Puntos 2428

Como se indica en la documentación, plot.lm() puede devolver 6 parcelas diferentes:

[1] un gráco de los residuos contra los valores ajustados, [2] una Escala de Ubicación de la parcela de sqrt(| residuos |) contra los valores ajustados, [3] una Normal Q-Q plot, [4] una parcela de Cook distancias frente a etiquetas de fila, [5] una parcela de residuos en contra de aprovecha, y [6] una parcela de Cook distancias en contra de el apalancamiento/(1-apalancamiento). De forma predeterminada, los tres primeros y 5 se proporcionan. (mi numeración)

Parcelas [1], [2], [3] y [5] se devuelven de forma predeterminada. La interpretación de [1] se discute en CV aquí: la Interpretación de los residuales vs equipada parcela para verificar los supuestos de un modelo lineal. Me explicó la asunción de homoscedasticity y las parcelas que pueden ayudarle a evaluar (incluyendo la escala de ubicación de las parcelas de [2]) en CV aquí: ¿Qué tiene varianza constante en un modelo de regresión lineal significa? He discutido qq-parcelas [3] en CV aquí: QQ plot no coincide con el histograma y aquí: PP-parcelas vs QQ-parcelas. También hay un muy buen resumen aquí: Cómo interpretar un QQ-plot? Así, lo que queda es principalmente la comprensión [5], el diferencial de apalancamiento de la parcela.

Para entender esto, tenemos que entender tres cosas:

  • el apalancamiento,
  • estandarizada de residuos, y
  • Cocinar a distancia.

Para entender el apalancamiento, reconocen que el de mínimos Cuadrados Ordinarios de regresión se ajusta a una línea que pasa a través del centro de datos, $(\bar X,~\bar Y)$. La línea puede ser superficialmente o abrupta, pero va a girar alrededor de ese punto como una palanca sobre un fulcro. Podemos tomar esta analogía bastante literalmente: porque OLS busca minimizar las distancias verticales entre los datos y la línea*, los puntos de datos que se encuentran más hacia los extremos de $X$ se " empujar / tirar más difícil en la palanca (es decir, la línea de regresión); tienen más apalancamiento. Un resultado de esto podría ser que los resultados que obtiene son impulsados por un par de puntos de datos; que es lo que esta parcela está diseñado para ayudarle a determinar.

Otra consecuencia del hecho de que los puntos más alejados en $X$ a tener más fuerza es que tienden a estar más cerca de la línea de regresión (o más exactamente: la línea de regresión es apto para estar más cerca de ellos) que de los puntos que están cerca de $\bar X$. En otras palabras, el residual de la desviación estándar puede variar en los diferentes puntos de $X$ (incluso si el error desviación estándar es constante). Para corregir esto, los residuos son a menudo estandarizado , de modo que tienen varianza constante (suponiendo que los datos subyacentes proceso de generación es homoscedástica, por supuesto).

Una manera de pensar acerca de si o no los resultados fueron impulsados por un determinado punto de datos para calcular la medida de los valores de predicción de los datos se movería si el modelo se ajuste sin el punto de datos en cuestión. De este total calculado la distancia se denomina distancia de Cook. Afortunadamente, usted no tiene que volver a ejecutar el modelo de regresión $$ N veces para encontrar la medida de los valores pronosticados se mueva, Cocinero D es una función de la influencia y estandarizado residuales asociados con cada punto de datos.

Con estos hechos en mente, considere los diagramas asociados con los cuatro situaciones diferentes:

  1. un conjunto de datos donde todo está bien
  2. un conjunto de datos con un alto apalancamiento, pero bajo estandarizado residual punto
  3. un conjunto de datos con un bajo apalancamiento, pero de alta estandarizado residual punto
  4. un conjunto de datos con un alto apalancamiento, de alto estándar residual punto

enter image description hereenter image description here

Las parcelas de la izquierda muestran los datos, el centro de los datos $(\bar X,~\bar Y)$ con un punto azul, los datos subyacentes proceso de generación con una línea gris discontinua, el ajuste del modelo con una línea azul, y el punto especial con un punto rojo. A la derecha, el correspondiente residual-aprovechar las parcelas; el punto es 21. El modelo está muy distorsionada, principalmente, en el cuarto caso en el que hay un punto con un alto apalancamiento y una grande (negativo) estandarizado residual. Para referencia, aquí están los valores asociados con los puntos especiales:

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

A continuación está el código que he usado para generar estas parcelas:

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* Para ayudar a la comprensión de cómo regresión OLS busca encontrar la línea que minimiza las distancias verticales entre los datos y la línea, véase mi respuesta a esta pregunta: ¿Cuál es la diferencia entre la regresión lineal de y con x y x con y?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X