168 votos

¿Cuál es la diferencia entre la varianza y la desviación estándar?

Me preguntaba cuál es la diferencia entre la varianza y la desviación estándar.

Si lo calculas, está claro que obtienes la desviación estándar de la variación...

Pero, ¿qué significa eso en términos de la distribución que estás viendo?

¿Por qué necesitas una desviación estándar?

¡¡Aprecio tu respuesta!!

1 votos

18 votos

Probablemente ya tengas la respuesta. Aun así, este enlace tiene la explicación más sencilla y mejor. mathsisfun.com/data/standard-deviation.html

3 votos

La desviación estándar es útil porque el valor está en la misma escala que los datos a partir de los cuales se calculó. Si se miden metros, la desviación estándar será de metros. La varianza, en cambio, será metros al cuadrado.

118voto

Zizzencs Puntos 1358

La desviación estándar es la raíz cuadrada de la varianza.

La desviación estándar se expresa en las mismas unidades que la media, mientras que la varianza se expresa en unidades cuadradas, pero para ver una distribución, se puede utilizar cualquiera de las dos siempre y cuando se tenga claro lo que se está utilizando. Por ejemplo, una distribución Normal con media = 10 y sd = 3 es exactamente lo mismo que una distribución Normal con media = 10 y varianza = 9.

76 votos

Sí, esa es la forma matemática de explicar estos dos parámetros, PERO ¿cuál es la explicación lógica? Por qué necesito realmente dos parámetros para mostrar la misma cosa (la desviación alrededor de la media aritmética)...

9 votos

En realidad, no necesitas las dos cosas. Si se informa de una, no es necesario informar de la otra

13 votos

Necesitamos ambas cosas: la desviación estándar es buena para la interpretación y la elaboración de informes. Para desarrollar la teoría es mejor la varianza.

64voto

No necesitas ambas cosas. Cada uno tiene un propósito diferente. El SD suele ser más útil para describir la variabilidad de los datos, mientras que la varianza suele ser mucho más útil matemáticamente. Por ejemplo, la suma de distribuciones no correlacionadas (variables aleatorias) también tiene una varianza que es la suma de las varianzas de esas distribuciones. Esto no sería cierto en el caso de la DS. Por otra parte, la DS tiene la conveniencia de expresarse en unidades de la variable original.

27voto

mat_geek Puntos 1367

Si John se refiere a variables aleatorias independientes cuando dice distribuciones no relacionadas, entonces tiene razón. Sin embargo, para responder a su pregunta hay varias cosas que se pueden decir.

  1. La media y la varianza son los parámetros naturales para una distribución normal.

  2. La desigualdad de Chebyshev limita la probabilidad de que una variable aleatoria observada se encuentre dentro de k desviaciones estándar de la media.

  3. La desviación estándar se utiliza para normalizar las estadísticas de las pruebas estadísticas (por ejemplo, la desviación estándar conocida se utiliza para normalizar una media de la muestra para la prueba z que la media difiere de 0 o la desviación estándar de la muestra se utiliza para normalizar la media de la muestra cuando se desconoce la verdadera desviación estándar, lo que da lugar a la prueba t).

  4. Para una distribución normal, el 68% de la distribución está dentro de una desviación estándar. 95,4% dentro de 2 desviaciones estándar y más del 99% dentro de 3 desviaciones estándar.

  5. El margen de error se expresa como un múltiplo de la desviación estándar de la estimación.

  6. La varianza y el sesgo son medidas de la incertidumbre en una cantidad aleatoria. El error cuadrático medio de una estimación es igual a la varianza + el sesgo cuadrado.

4 votos

Probablemente no deberías decir "parámetro natural", que son la media dividida por la varianza, y 1 dividido por la varianza: es.wikipedia.org/wiki/Parámetro_natural

0 votos

Según el enlace de la wikipedia el parámetro(s) natural(es) de la distribución normal en cuanto a su forma de familia exponencial depende de si $\sigma$ se supone que es conocido o desconocido. Pero entiendo tu punto de vista y he quitado los "parámetros naturales" de mi respuesta.

0 votos

En el punto 3, ¿no debería ser "la desviación estándar se utiliza para estandarizar las estadísticas" en lugar de normalizar?

21voto

Hassan Puntos 81

La varianza de un conjunto de datos mide la dispersión matemática de los datos en relación con la media. Sin embargo, aunque este valor es teóricamente correcto, es difícil de aplicar en el mundo real porque los valores utilizados para calcularlo fueron al cuadrado. La desviación estándar, como raíz cuadrada de la varianza, da un valor que está en las mismas unidades que los valores originales, lo que facilita mucho el trabajo y la interpretación en conjunción con el concepto de la curva normal.

1 votos

Esto hace un gran trabajo explicando por qué en términos sencillos.

3 votos

Otra buena observación sería que cada métrica sd y var miden la dispersión de la variable en torno a la media. Tomar la raíz cuadrada de la varianza para obtener la desviación estándar podría verse como un factor de escala aplicado para que la métrica vuelva a estar en unidades de la variable.

6voto

coledot Puntos 674

En términos de distribución son equivalentes (aunque obviamente no son intercambiables), pero tened en cuenta que en términos de estimadores no lo son: la raíz cuadrada de una estimación de la varianza NO es un estimador (no sesgado) de la desviación estándar. Sólo para un número moderadamente grande de muestras (y dependiendo de los estimadores) los dos se aproximan entre sí. Para tamaños de muestra pequeños es necesario conocer la forma paramétrica de la distribución para convertir entre los dos, que puede llegar a ser ligeramente circular.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X