11 votos

Qué hacer con las variables colineales

Descargo de responsabilidad: Este es para una tarea del proyecto.

Estoy tratando de encontrar el mejor modelo para los precios de los diamantes, dependiendo de varias variables, y me parece que tienen un buen modelo hasta ahora. Sin embargo he corrido en dos variables que, obviamente, son colineales:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

La tabla y la Profundidad son dependientes unos de otros, pero todavía quiero incluir en mi modelo predictivo. Hice algunas investigaciones sobre los diamantes y se encontró que la Tabla y la Profundidad son la longitud a través de la parte superior y la distancia desde la parte superior a la parte inferior de la punta de un diamante. Dado que estos precios de los diamantes parecen estar relacionados con la belleza y la belleza parece estar relacionado con las proporciones, me iba a incluir a su relación, decir $\frac{Table}{Depth}$, para predecir los precios. Es este un procedimiento estándar para tratar con variables colineales? Si no, ¿qué es?

Edit: Aquí está una parcela de Profundidad ~ Tabla: enter image description here

14voto

AdamSane Puntos 1825

Esas variables están correlacionadas.

La medida de asociación lineal implícita por la que la matriz de correlación no es remotamente lo suficientemente alta como para las variables a ser consideradas colineales.

En este caso, yo estaría muy contento de poder utilizar todas esas tres variables típicas de regresión de aplicaciones.

Una forma de detectar la multicolinealidad es la comprobación de la descomposición de Choleski de la matriz de correlación - si hay multicolinealidad habrá algunos elementos de la diagonal que están cerca de cero. Aquí es en su propia matriz de correlación:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(La diagonal debe ser siempre positiva, aunque algunas implementaciones pueden ir ligeramente negativa con el efecto de la acumulación de los errores de truncamiento)

Como se puede ver, el más pequeño de la diagonal es de 0.91, lo que es todavía un largo camino desde cero.

Por el contrario he aquí algunos casi colineales datos:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

6voto

rutherford Puntos 165

Pensaba que este diamante de corte esquemático podríamos añadir, la penetración a la Pregunta. No se puede agregar una imagen a un Comentario así que hicieron una respuesta....

enter image description here

PS. @PeterEllis comentario: El hecho de que "los diamantes que son más largos en la parte superior son más cortos de arriba hacia abajo" pueden hacer que el sentido de esta manera: Supongamos que todos los diamantes en bruto son aproximadamente rectangular (dicen). Ahora el cortador debe elegir su corte con este rectángulo delimitador. Que presenta el equilibrio. Si el ancho y el aumento de longitud que va de diamantes más grandes. Posible, pero más raro y más caro. Sentido?

2voto

Dave Puntos 69

El uso de coeficientes de regresión lineal debe ser evitado. Esencialmente, lo que está diciendo es que, si se hizo una regresión lineal sobre estas dos variables, que serían linealmente correlacionada con ninguna intercepción; obviamente, esto no es el caso. Ver: http://cscu.cornell.edu/news/statnews/stnews03.pdf

Además,son la medición de una variable latente - el tamaño(volumen o área) de la diamond. Han considerado que la conversión de los datos a un área de superficie/volumen medir en lugar de incluir ambas variables?

Usted debe publicar un residual de la parcela de que la profundidad y los datos de la tabla. Su correlación entre los dos puede ser no válido de todos modos.

1voto

mydoghasworms Puntos 325

A partir de la correlación de su difícil concluir si la Tabla y la Anchura se correlaciona. Un coeficiente cercano a +1/-1 diría que son colineales. También depende del tamaño de la muestra..si usted tiene más de uso de datos para confirmar.

El procedimiento estándar en el trato con las variables colineales es eliminar uno de ellos...cos sabiendo que uno podría determinar la otra.

1voto

cyborg Puntos 214

¿Qué te hace pensar que la tabla y la profundidad de la causa de la colinealidad en el modelo? A partir de la matriz de correlación es difícil decir que estas dos variables que van a causar problemas de multicolinealidad. ¿Qué hace una conjunta de la prueba F de decirle a usted acerca de ambas variables contribución de su modelo? Como curious_cat menciona la prueba de Pearson puede no ser la mejor medida de la correlación cuando la relación no es lineal (tal vez un rango basado medida?). VIF y la tolerancia pueden ayudar a cuantificar el grado de colinealidad que usted pueda tener.

Creo que su enfoque de la utilización de su relación es el adecuado (aunque no como una solución a la colinealidad). Cuando yo vea la figura, inmediatamente pensé en una medida común de investigación en salud que relación cintura-cadera. Aunque, en este caso es más similar a la de IMC (peso/altura^2). Si la relación es fácilmente interpretable e intuitiva en tu audiencia, no veo una razón para no usarlo. Sin embargo, tal vez capaz de utilizar ambas variables en el modelo a menos que exista una clara evidencia de multicolinealidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: