4 votos

En mi modelo de regresión logística una de las variables independientes es redundante con el término de interacción. ¿Cómo debo lidiar con ella?

En mi regresión logística es la variable dependiente una variable ficticia y también tengo dos variables independientes. Una de ellas es una variable ficticia y la otra es una métrica variable. Yo también suponen una interacción entre estas dos variables.

Yo soy de computación tres regresiones porque quiero explorar la influencia de las variables independientes sobre la variable dependiente en el periodo 1, periodo 2 y en ambos periodos juntos.

Cuando me calcular las regresiones para el período 2 y para ambos períodos juntos, no hay ningún problema.

Pero cuando me calcular la regresión para el período 1, el SPSS genera una advertencia de que "debido a la redundancia de los grados de libertad de al menos una variable se han reducido". Yo realmente no sé lo que significa, pero me enteré de que cuando yo excluir el independiente de la variable ficticia de mi modelo para el período 1, el término de interacción es incluida en el modelo. Por lo tanto las variables son de alguna manera idéntica.

Mi pregunta es ¿cómo debo lidiar con esto en mi trabajo. Debo decir que para el primer período, el término de interacción y la variable ficticia son idénticos? O hay algunas otras consecuencias para la interpretación de mi modelo?

Espero que esto hace que mi pregunta un poco más claro. Gracias de nuevo.

6voto

jldugger Puntos 7490

Software de caída de las variables cuando son colineales. La comprensión de esta situación equivale a calcular de manera más precisa lo que significa.

Hay tres variables independientes involucradas, incluyendo el término constante. Vamos a representar sus valores como la constante (columna) de vectores $X_1 = (1, 1, \ldots, 1)$, un vector de unos y ceros para el chupete $X_2 = (1, 1, \ldots, 1, 0, 0,\ldots, 0)$, y una tercera aparentemente arbitrario de vectores $X_3 = (x_1, x_2, \ldots, x_n)$. (Todos los otros válido ficticio codificaciones son combinaciones lineales de este particular$X_1$$X_2$, así que no hay generalidad se pierde por el supuesto de que este particular binario (0-1) se utiliza la codificación.) He ordenado los datos de manera que todos los registros donde el maniquí es $1$ venir primero; supongamos que hay $k$ de ellos. (Sabemos $k \ge 1$$k \lt n$, de lo contrario, el maniquí sería constante y no pudo ser incluido en cualquier regresión con un término constante.)

La colinealidad de estos tres vectores, junto con el $X_2 X_3$ interacción, es (por definición) que existe una relación lineal no trivial

$$0 = \alpha_1 X_1 + \alpha_2 X_2 + \alpha_3 X_3 + \alpha_4 X_2 X_3$$

The first $k$ equations in this linear combination are

$$0 = \alpha_1 + \alpha_2 + \alpha_3 x_i + \alpha_4 x_i,\quad i=1, 2, \ldots, k.$$

The remaining equations are

$$0 = \alpha_1 + \alpha_3 x_i,\quad i = k+1, \ldots, n.$$

The first group of equations informs us that all the $(\alpha_3 + \alpha_4)x_i$ are equal to the constant $-(\alpha_1+\alpha_2)$ for $1 \le i \k le$. The second group informs us that all the $\alpha_3 x_i$ are equal to the constant $-\alpha_1$ for $k \lt i \le n$. That first statement does not restrict the $x_i$ for $1 \le i \k le$ provided $\alpha_3 + \alpha_4=0$, but the second one then implies that all the $x_i$ are equal to one another for $i \gt k$. For if this were not the case, then necessarily $\alpha_3 = 0$, implying either $\alpha_4=0$ or all the $x_i$ are equal to each other for $1\le i \k le$. If $\alpha_4=0$, these would in turn imply that both $\alpha_1 + \alpha_2=0$ and $\alpha_1=0$, reducing all the $\alpha_i$ to $0$: but that was not the case (the linear relation was nontrivial).

In words, what we have deduced is that the continuous variable $X_3$ exhibits no variation among at least one of the two groups of dummy values.


To confirm this conclusion we may create three examples of such data in R. I have chosen $k=2$ and $n=4$: there are two records for each group of dummy values. In the first case, assigning random values to $X_3$ virtually guarantees there will be variation within both groups:

> set.seed(17)
> x2 <- c(1, 1, 0, 0) # The dummy (binary) variable, sorted as in the analysis
> x3 <- rnorm(4)      # The continuous independent variable
> y <- rnorm(4)       # The dependent variable may have *any* values
> lm(y ~ x2*x3)
Coefficients:
(Intercept)           x2           x3        x2:x3  
     0.6763      -0.9218      -1.2728       0.2703 

All variables are retained. (This is OLS regression, not logistic regression, but that doesn't matter: both methods behave identically concerning treatment of collinear independent variables.)

In the second case, let's set the first two first elements of $X_3$ to the same value:

> x3[1] <- x3[2]; lm(y ~ x2*x3)
Coefficients:
(Intercept)           x2           x3        x2:x3  
     0.6763      -0.4745      -1.2728           NA  

The interaction is dropped due to the collinearity.

In the third case, let's set the last two elements of $X_3$ to a common value while varying the first two. To do this, I just reverse all the element of $X_3$:

> x3 <- rev(x3); lm(y ~ x2*x3)
Coefficients:
(Intercept)           x2           x3        x2:x3  
      1.217       -1.756       -1.605           NA  

Una vez más, la interacción se redujo debido a la colinealidad.

Suena como SPSS se comporta de la misma manera como R en estos casos.

0voto

Dave Puntos 69

Suena como su independencia de las variables están correlacionadas. Probablemente es el caso de que cuando uno es 0, el otro es 1, o una de las variables que toma un único valor. Yo no estoy familiarizado con el programa SPSS, pero también podría ser un error en su código, así que le aconsejo que publiques para que otros para ayudar.

Además, no debería sorprender que los cambios en el modelo cuando se quita un término. Que, sin embargo, no significa que el término de interacción es idéntica a la quita plazo. Este sólo sería el caso donde todos de una variable es cero, todos de una variable, o son inversos el uno del otro. Esto es debido a la interacción var1*var2 es simplemente var1 veces var2 con la única posible de los valores de 1 y 0. La única manera de que su interacción para un registro no es cero es si el resto de variables son 1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: