41 votos

Regresión Logística: La Transformación De Las Variables

Cuando la transformación de las variables, usted no tiene que usar todos la misma transformación? Por ejemplo, puedo escoger y elegir de manera diferente variables transformadas, como en:

Vamos, $x_1,x_2,x_3$ de la edad, duración del empleo, el tiempo de residencia, y de los ingresos.

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

O, usted debe estar de acuerdo con sus transformaciones y utilizar todos el mismo? Como en:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

Mi entendimiento es que el objetivo de la transformación es abordar el problema de la normalidad. Buscando en los histogramas de cada una de las variables, se puede ver que son muy diferentes distribuciones, que me llevan a creer que las transformaciones requeridas son diferentes en una variable por variable.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

alt text

Por último, ¿es válido para transformar las variables de uso de $\log(x_n + 1)$, donde $x_n$ ha $0$ valores? ¿Esta transformación deben ser consistentes a través de todas las variables o es utilizado adhoc incluso para aquellas variables que no se incluyen $0$'s?

## R Code 
plot(df[1:7])

alt text

58voto

jldugger Puntos 7490

Uno se transforma el dependiente de la variable para lograr aproximado de simetría y homoscedasticity de los residuos. Las transformaciones de la independiente de las variables tienen un propósito diferente: después de todo, en esta regresión todos los valores independientes se toman como fijos, no al azar, por lo que la "normalidad" es inaplicable. El principal objetivo de estas transformaciones es lograr lineal de las relaciones con la variable dependiente (o, realmente, con su logit). (Este objetivo está por encima auxiliares, tales como reducir el exceso de apalancamiento o el logro de una simple interpretación de los coeficientes.) Estas relaciones son una propiedad de los datos y los fenómenos que los producen, por lo que necesita la flexibilidad para elegir la re-expresiones de cada una de las variables por separado de los demás. Específicamente, no sólo no es un problema para el uso de un registro, una raíz, y de la reciprocidad, es bastante común. El principio es que no hay (por lo general) nada especial acerca de cómo los datos originalmente se expresan, así que usted debe dejar que los datos sugieren re-expresiones que conducen a la efectiva, precisa, útil y (si es posible) teóricamente justificada modelos.

Los histogramas-que reflejan las distribuciones univariantes--a menudo apuntan a una primera transformación, pero no son determinantes. Acompañar con matrices de diagramas de dispersión, de modo que usted puede examinar las relaciones entre todas las variables.


Transformaciones como $\log(x + c)$ donde $c$ es una constante positiva "valor inicial" puede trabajar, y que puede ser indicado incluso cuando no hay ningún valor de $x$ es cero ... pero a veces destruyen relaciones lineales. Cuando esto ocurre, una buena solución es crear dos variables. Uno de ellos es igual a $\log(x)$ cuando $x$ es distinto de cero y de lo contrario, es cualquier cosa; es conveniente dejarla por defecto a cero. El otro, al que llamaremos $z_x$, es un indicador de si $x$ es cero: es igual a 1 cuando $x = 0$ y es 0 en caso contrario. Estas condiciones contribuyen con una suma

$$\beta \log(x) + \beta_0 z_x$$

para la estimación. Cuando $x \gt 0$, $z_x = 0$ para el segundo término se retira dejando sólo $\beta \log(x)$. Cuando $x = 0$, "$\log(x)$" se ha establecido a cero, mientras que $z_x = 1$, dejando sólo el valor de $\beta_0$. Por lo tanto, $\beta_0$ estima que el efecto cuando $x = 0$ y $\beta$ es el coeficiente de $\log(x)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: