296 votos

Cuando la realización de regresión múltiple, cuando debería centrar sus variables predictoras y cuándo se debe estandarizar ellos?

En algunos libros, he leído que una de regresión múltiple con variables explicativas, si en las diferentes unidades, necesaria para ser estandarizado. (La estandarización consiste en restando la media y dividiendo por la desviación estándar.) En qué otros casos necesito para estandarizar mis datos? Hay casos en los que solamente debo centro de mis datos (es decir, sin dividir por la desviación estándar)?

222voto

Niall Puntos 51

En la regresión, se recomienda a menudo para centro de las variables, de modo que los predictores han significar $p$$. This makes it so the intercept term is interpreted as the expected value of $Y_i$ when the predictor values are set to their means. Otherwise, the intercept is interpreted as the expected value of $Y_i$ when the predictors are set to 0, which may not be a realistic or interpretable situation (e.g. what if the predictors were height and weight?). Another practical reason for scaling in regression is when one variable has a very large scale, e.g. if you were using population size of a country as a predictor. In that case, the regression coefficients may be on a very small order of magnitude (e.g. ^{-6}$) que puede ser un poco molesto cuando estás leyendo la salida del ordenador, así que usted puede convertir la variable a, por ejemplo, el tamaño de la población en millones de personas. La convención que a estandarizar las predicciones principalmente existe para que las unidades de los coeficientes de regresión son los mismos.

Como @gung alude a y @MånsT muestra de forma explícita (+1 a ambos, por cierto), centrando/escala no afecta tu inferencia estadística en modelos de regresión - las estimaciones se ajustan adecuadamente y el $X'X$. Similarly, if a univariate random variable $X$ has been mean centered, then ${\rm var}(X) = E(X^2)$-valores serán los mismos.

Otras situaciones donde centrado y/o escala puede ser útil:

  • cuando usted está tratando de suma o el promedio de las variables que están en diferentes escalas, tal vez para crear una puntuación compuesta de algún tipo. Sin escala, puede darse el caso de que una variable tiene un mayor impacto sobre el importe debido puramente a su escala, lo cual puede ser indeseable.

  • Para simplificar los cálculos y la notación. Por ejemplo, la muestra de la matriz de covarianza de una matriz de valores centrada por su muestra significa, simplemente, % # % # % y la varianza puede ser estimado a partir de una muestra mirando a la media de la muestra de los cuadrados de los valores observados.

  • Relacionados con los anteriormente mencionados, PCA sólo puede ser interpretado como la descomposición en valores singulares de una matriz de datos cuando las columnas han sido por primera vez centrada por sus medios.

Nota de que la ampliación no es necesario en los dos últimos puntos que he mencionado y de centrado puede no ser necesario en la primera viñeta que he mencionado, así que los dos no necesitan ir de la mano en todo momento.

147voto

Sean Hanley Puntos 2428

Usted ha venido a través de la creencia común. Sin embargo, en general, no es necesario para el centro o estandarizar los datos para la regresión múltiple. Diferentes variables explicativas son casi siempre en diferentes escalas (es decir, medido en unidades diferentes). Esto no es un problema; las betas se calcula de tal manera que les convertir las unidades de cada variable explicativa en las unidades de la variable de respuesta adecuada. Una cosa que la gente a veces dice es que si se han estandarizado las variables en primer lugar, se puede interpretar las betas como medidas de importancia. Por ejemplo, si $\beta_1=.6$, and $\beta_2=.3$, luego de la primera variable explicativa es el doble de importante que la segunda. Si bien esta idea es atractiva, por desgracia, no es válido. Hay varios temas, pero quizás el más fácil de seguir es que usted no tiene ninguna forma de control para el rango de posibles restricciones en las variables. La inferencia de la 'importancia' de las diferentes variables explicativas en relación a cada uno de los otros es una tarea muy difícil cuestión filosófica. Nada de eso es para sugerir que la estandarización es malo o mal, simplemente que normalmente no es necesario.

El único caso que se me ocurre de la parte superior de mi cabeza, donde el centrado es útil, es antes de la creación de términos del poder. Digamos que usted tiene una variable, $X$, that ranges from 1 to 2, but you suspect a curvilinear relationship with the response variable, and so you want to create an $X^2$ term. If you don't center $X$ first, your squared term will be highly correlated with $X$, lo que podría enturbiar la estimación de la beta. Centrado primera se refiere a este tema.


(Actualización añadido mucho más tarde:) análogos en el caso de que se me olvidó mencionar es la creación de la interacción de condiciones. Si una interacción del producto / plazo se crea a partir de dos variables que no están centradas en 0, una cierta cantidad de colinealidad será inducida (con la cantidad exacta dependiendo de varios factores). Centrado primera se ocupa de este problema potencial. Para una explicación más detallada, ver este excelente respuesta de @Afín: diagnósticos de Colinealidad problemática sólo cuando el término de interacción es incluido.

82voto

phloopy Puntos 4285

Además de los comentarios en las otras respuestas, me gustaría señalar que la escala y la ubicación de las variables explicativas no afecta a la validez del modelo de regresión de alguna manera.

Considere el modelo $y=\beta_0+\beta_1x_1+\beta_2x_2+\ldots+\epsilon$.

Los estimadores de mínimos cuadrados de $\beta_1, \beta_2,\ldots$ are not affected by shifting. The reason is that these are the slopes of the fitting surface - how much the surface changes if you change $x_1,x_2,\ldots$ one unit. This does not depend on location. (The estimator of $\beta_0$, sin embargo, lo hace.)

Observando las ecuaciones para los estimadores se puede ver que la ampliación de $x_1$ with a factor $a$ scales $\hat{\beta}_1$ by a factor /a$. Para ver esto, observe que

$$\hat{\beta}_1(x_1)=\frac{\sum_{i=1}^n(x_{1,i}-\bar{x}_1)(y_i-\bar{y})}{\sum_{i=1}^n(x_{1,i}-\bar{x}_1)^2}.$$

Así

$$\hat{\beta}_1(ax_1)=\frac{\sum_{i=1}^n(ax_{1,i}-a\bar{x}_1)(y_i-\bar{y})}{\sum_{i=1}^n(ax_{1,i}-a\bar{x}_1)^2}=\frac{a\sum_{i=1}^n(x_{1,i}-\bar{x}_1)(y_i-\bar{y})}{a^2\sum_{i=1}^n(x_{1,i}-\bar{x}_1)^2}=\frac{\hat{\beta}_1(x_1)}{a}.$$

Mirando la correspondiente fórmula para $\hat{\beta}_2$ (por ejemplo) es que (esperemos) claro que esta ampliación no afecta a los estimadores de las otras pistas.

Por lo tanto, la escala simplemente corresponde a la ampliación de la correspondiente pendientes.

Como gung señala, algunas personas, como para cambiar la escala de la desviación estándar con la esperanza de que serán capaces de interpretar cómo "importante" de las diferentes variables. Mientras que esta práctica puede ser cuestionada, se puede señalar que este corresponde a la elección de $a_i=1/s_i$ in the above computations, where $s_i$ is the standard deviation of $x_1$ (which in a strange thing to say to begin with, since the $x_i$ son asumidos para ser determinista).

32voto

alastairs Puntos 3281

En caso de que el uso de gradiente de la pendiente para adaptarse a su modelo, la estandarización de las covariables puede acelerar la velocidad de convergencia (porque cuando usted tiene sin escala de covariables, los parámetros correspondientes de manera inadecuada dominar el gradiente). Para ilustrar esto, algunos R código:

> objective <- function(par){ par[1]^2+par[2]^2}  #quadratic function in two variables with a minimum at (0,0)
> optim(c(10,10), objective, method="BFGS")$counts  #returns the number of times the function and its gradient had to be evaluated until convergence
    function gradient 
          12        3 
> objective2 <- function(par){ par[1]^2+0.1*par[2]^2}  #a transformation of the above function, corresponding to unscaled covariates
> optim(c(10,10), objective2, method="BFGS")$counts
function gradient 
      19       10 
> optim(c(10,1), objective2, method="BFGS")$counts  #scaling of initial parameters doesn't get you back to original performance
function gradient 
      12        8

También, para algunas aplicaciones de SVMs, escala puede mejorar el rendimiento predictivo: Función de la escala de los vectores de soporte de datos descripción.

26voto

cbeleites Puntos 12461

Yo prefiero "razones de peso" para el centrado y la normalización (existen muy a menudo). En general, tienen más que ver con el conjunto de datos y el problema que con el método de análisis de datos.

Muy a menudo, prefiero centro (es decir, cambiar el origen de los datos) a otros puntos que son física o químicamente/biológica/... más significativa que la media (véase también el Macro de la respuesta), por ejemplo,

  • la media de un grupo de control

  • blanco de la señal

Numérico de la estabilidad de un algoritmo relacionados con razón a centro y/o los datos de la báscula.

También, tienen un aspecto similar a la pregunta acerca de la normalización. Que también abarca el "centro único".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X