15 votos

plaza de las cosas en las estadísticas generalizado justificación

¿Por qué la plaza de las cosas en las estadísticas? Me he encontrado con esto mucho, tanto en la minería de datos y estadísticas de las clases, pero nadie ha sido capaz de darme una respuesta. Un ejemplo concreto es cuando se suma la desviación de las puntuaciones en las estadísticas que se tienen a la plaza de ellos (de lo contrario, la suma es 0). ¿Por qué la plaza de ellos en vez de usar algo más, como valor absoluto.

La diferencia entre la pregunta anterior: Si usted tiene una respuesta para el problema anterior, ¿su respuesta aplican a la mayoría de las estadísticas de las cosas que hace esto? Si no, ¿por qué no.

24voto

user60642 Puntos 6

Está bien que uno podría optar por utilizar el error absoluto, de hecho, el error absoluto es a menudo más cerca de lo que "preocuparse por" cuando se hacen predicciones de su modelo. Por ejemplo, si usted compra una acción esperando que su precio en el futuro a ser $P_{predicted}$ y su precio en el futuro es $P_{actual}$ en lugar, usted pierde dinero proporcional a $(P_{predicted} - P_{actual})$, no su plaza! Lo mismo es cierto en muchos otros contextos.

Entonces, ¿por qué del error cuadrado?

El error cuadrático tiene muchas buenas propiedades matemáticas. Haciéndose eco de los otros ms responden aquí, yo diría que muchos de ellos son simplemente "conveniente", nos puede elegir utilizar el error absoluto en su lugar, si no se plantean problemas técnicos a la hora de resolver problemas. Por ejemplo:

  • Si $X$ es una variable aleatoria, entonces el estimador de la $X$ que minimiza el error cuadrático es la media, $E(X)$. Por otro lado, el estimador que minimiza el error absoluto es la mediana, $m(X)$. La media tiene mucho mejor las propiedades de la mediana; por ejemplo, $E(X + Y) = E(X) + E(Y)$, pero no hay ninguna expresión general para $m(X + Y)$.

  • Si usted tiene un vector $\vec X = (X_1, X_2)$ estimado por $\vec x = x_1, x_2$, para el error cuadrático no importa si usted se considera a los componentes por separado o juntos: $||\vec X - \vec x||^2 = (X_1 - x_1)^2 + (X_2 - x_2)^2$, por lo que el error cuadrático de los componentes sólo añade. Usted no puede hacer eso con un error absoluto. Esto significa que el error cuadrático es independiente de la re-parametrizaciones: por ejemplo, si definimos $\vec Y_1 = (X_1 + X_2, X_1 - X_2)$, entonces el número mínimo de cuadrados de la desviación de los estimadores para $Y$ $X$ son el mismo, pero el mínimo absoluto de la desviación de los estimadores no son.

  • Para variables aleatorias independientes, varianzas (esperado del cuadrado de los errores) agregar: $Var(X + Y) = Var(X) + Var(Y)$. El mismo no es cierto que se espera de error absoluto.

  • Para muestra un ejemplo de un multivariante de la distribución Gaussiana (donde la densidad de probabilidad es exponencial en el cuadrado de la distancia desde la media), todos sus coordenadas son Gaussianas, no importa qué sistema de coordenadas que utiliza. Para un multivariante de Laplace de distribución (como una Gaussiana, pero con la absoluta, no el cuadrado de la distancia), esto no es cierto.

  • El error cuadrático de un clasificador probabilístico es una adecuada regla de puntuación. Si había un oráculo diciendo la real probabilidad de cada clase para cada elemento, por lo que fueron calificadas de acuerdo a su Brier score, su mejor apuesta sería la de predecir lo que el oráculo le dijo que para cada clase. Esto no es cierto para el error absoluto. (Por ejemplo, si el oráculo le dice que $P(Y=1) = 0.9$, entonces la predicción de que los $P(Y=1) = 0.9$ da una puntuación esperada de $0.9\cdot 0.1 + 0.1 \cdot 0.9 = 0.18$; en su lugar usted debe predecir que $P(Y=1) = 1$, para un resultado esperado de $0.9\cdot 0 + 0.1 \cdot 1 = 0.1$.)

Algunas coincidencias matemáticas o de las conveniencias que implican el error cuadrático son más importantes, sin embargo. No plantean problema técnico de resolución de problemas; más bien, ellos nos dan razones intrínsecas por qué minimizar la plaza de error podría ser una buena idea:

  • Cuando el ajuste de una distribución de Gauss a un conjunto de datos, la máxima probabilidad de ajuste es la que minimiza el error cuadrático, no el error absoluto.

  • Cuando se hace la reducción de dimensionalidad, la búsqueda de la base de que minimiza el cuadrado de error de reconstrucción de los rendimientos de los análisis de componentes principales, lo cual es bueno para calcular, de coordenadas independientes, y tiene una interpretación natural para multivariante de distribución Gausiana (la búsqueda de los ejes de la elipse que la distribución). Hay una variante llamada "robusto PCA" que se aplica a veces a la minimización absoluta error de reconstrucción, pero parece ser menos estudiados y más difícil de entender y calcular.

Mirando más profundo

Uno bien podría preguntarse si hay algún matemático profundo verdad que subyace a las muchas y diferentes comodidades del error cuadrado. Hasta donde yo sé, hay unos pocos (que se relacionan en algún sentido, pero no, yo diría, el mismo):

La diferenciabilidad

El error cuadrático es diferenciable en todas partes, mientras que el error absoluto no es (su derivada no está definida en 0). Esto hace que el error cuadrático más susceptibles a las técnicas de optimización matemática. Para optimizar el error cuadrático, sólo puede establecer su derivada es igual a 0 y resolver; para optimizar el error absoluto a menudo requiere de técnicas más complejas.

Interior de productos

El error cuadrático es inducida por un producto interior en el espacio subyacente. Un interno de productos es básicamente una forma de "proyectar el vector $x$ a lo largo de vectores $y$" o averiguar "¿cuánto $x$ apuntan en la misma dirección como $y$." En dimensiones finitas este es el estándar (Euclidiana) producto interior $\langle a, b\rangle = \sum_i a_ib_i$. Interior de los productos son lo que nos permiten pensar geométricamente sobre un espacio, porque dan una idea de:

  • un ángulo recto ($x$$y$ son ángulos rectos si $\langle x, y\rangle = 0$);
  • y una longitud (la longitud de $x$$||x|| = \langle x, x\rangle$).

Por "el error cuadrático es inducida por el producto interior Euclidiano" me refiero a que el error cuadrático entre el$x$$y$$||x-y||$, la distancia Euclidiana entre ellos. De hecho, el producto interior Euclidiano es, en cierto sentido, la "única posible" eje independiente del producto interior en un finito-dimensional espacio vectorial, lo que significa que el error cuadrático ha singularmente agradable propiedades geométricas.

Para variables aleatorias, de hecho, se puede definir similar es el producto interior: $\langle X, Y\rangle = E(XY)$. Esto significa que podemos pensar de una "geometría" de variables aleatorias, en la que dos variables de hacer un "ángulo recto" si $E(XY) = 0$. No por casualidad, la "longitud" de $X$$E(X^2)$, lo cual está relacionado con su varianza. De hecho, en este marco, "independiente de variaciones agregar" es sólo una consecuencia del Teorema de Pitágoras:

$$Var(X + Y) = ||(X - \mu_X) + (Y - \mu_Y)||^2 = ||X - \mu_X||^2 + ||Y - \mu_Y||^2 = Var(X) + Var(Y).$$

Más allá del error cuadrado

Dadas estas buenas propiedades matemáticas, nosotros nunca no desea utilizar el cuadrado de error? Bueno, como he mencionado al principio, a veces el error absoluto está más cerca de lo que "la atención acerca de" en la práctica. Por ejemplo, si los datos tienen colas que son más gordo que el de Gauss, a continuación, minimizando el error cuadrático puede colocar demasiado peso en la periferia puntos.

El error absoluto es menos sensible a los valores atípicos. (Por ejemplo, si observa un valor atípico en su muestra, los cambios de la cuadrado-error-la minimización de la media de forma proporcional a la magnitud de los valores atípicos, pero apenas cambia el absoluto-error-la minimización de la mediana en todos!) Y aunque el error absoluto no disfruta de la misma agradable propiedades matemáticas como el error cuadrático, que sólo significa absoluta-problemas de errores son más difíciles de resolver, no es que sean objetivamente peor en algún sentido. El resultado de todo esto es que a medida que los métodos computacionales han avanzado, hemos sido capaces de resolver absoluto del error de los problemas numéricamente, lo que conduce al aumento de la subcampo de sólidos métodos estadísticos.

De hecho, hay una muy agradable a la correspondencia entre los cuadrados del error y absoluta-métodos de error:

Squared error           | Absolute error
========================|============================
Mean                    | Median
Variance                | Expected absolute deviation
Gaussian distribution   | Laplace distribution
Linear regression       | Quantile regression
PCA                     | Robust PCA
Ridge regression        | LASSO

Como mejoramos en modernos métodos numéricos, no cabe duda de que vamos a encontrar otros útiles absoluta-error-técnicas de base, y la diferencia entre el cuadrado del error absoluto y error de los métodos de estrecho. Pero debido a la conexión entre el error cuadrado y la distribución de Gauss, creo que no va a desaparecer por completo.

3voto

anand Puntos 199

Es debido a la estrecha conexión entre muchos de los métodos estadísticos y conceptos geométricos tales como proyecciones, las distancias, y el Teorema de Pitágoras. Por ejemplo, supongamos que ver los datos de los valores de $(x_1,x_2,\ldots,x_n)$ como un punto en $n$espacio tridimensional. A continuación, la muestra de la tarjeta SD es $1/\sqrt {n-1}$ veces la distancia entre este punto y el punto de los medios de $(\bar x,\bar x,\ldots,\bar x)$. Y las sumas de cuadrados en anova de una vía realmente satisfacen el Teorema de Pitágoras, enmarcada en una manera similar.

1voto

bradgonesurfing Puntos 146

Porque hace las matemáticas más fácil. Uno puede hacer uso de otras técnicas, por ejemplo, para la regresión lineal. Ts otros métodos tienden a ser más complicado en los detalles de implementación y tienen menos elegante forma cerrada soluciones. Así que a menudo son ignorados hasta que el proyecto exige que se utilicen.

0voto

BrewStats Puntos 60

Honestamente, es porque hace las matemáticas más fácil que si el valor absoluto fueron utilizados. Laplace, de hecho, trató de utilizar el valor absoluto en lugar de los cuadrados de las diferencias. Esto hace las cosas bastante molesto. Aquí hay un enlace a una descripción de la Laplace distrubtion http://en.wikipedia.org/wiki/Laplace_distribution. Antes de los ordenadores mediante valor absoluto en lugar de los cuadrados de las diferencias hicieron la vida difícil para el estadístico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: