56 votos

¿Cuál es la diferencia entre N y N-1 en el cálculo de la varianza de la población?

No entendí el por qué hay N y N-1 al calcular la varianza de la población. Cuando utilizamos N y cuando usamos N-1 ?

enter image description here
Haga clic aquí para ver una versión más grande

Dice que cuando la población es muy grande no hay diferencia entre N y N-1 pero no dice por qué hay N-1 al principio.

Editar: Por favor, no confundir con n y n-1 que se utilizan en la estimación.

Edición 2: No estoy hablando de la estimación de la población.

5 votos

Allí puede encontrar una respuesta: stats.stackexchange.com/questions/16008/ . Básicamente, debe utilizar N-1 cuando estimación una varianza, y N cuando computa exactamente.

0 votos

@ocram, que yo sepa cuando estimamos una varianza usamos n o n-1.

0 votos

Si quieres que tu estimador sea insesgado, entonces debes usar n-1. Tenga en cuenta que cuando n es grande, esto no es un problema.

28voto

jldugger Puntos 7490

$N$ es el tamaño de la población y $n$ es el tamaño de la muestra. La pregunta es por qué la varianza de la población es la desviación media al cuadrado de la media en lugar de $(N-1)/N = 1-(1/N)$ veces. Por lo demás, ¿por qué detenerse ahí? ¿Por qué no multiplicar la desviación media al cuadrado por $1-2/N$ o $1-17/N$ o $\exp(-1/N)$ ¿Por ejemplo?

En realidad hay una buena razón para no hacerlo. Cualquiera de estas cifras que acabo de mencionar serviría perfectamente para cuantificar una "dispersión típica" dentro de la población. Sin embargo, sin un conocimiento previo del tamaño de la población, sería imposible utilizar una muestra aleatoria para encontrar un estimador insesgado de dicha cifra. Sabemos que el muestra varianza, que multiplica la desviación media al cuadrado de la media de la muestra por $(n-1)/n$ es un estimador insesgado de la varianza poblacional habitual cuando se realiza un muestreo con reemplazo. (No hay ningún problema en hacer esta corrección, porque sabemos que $n$ !) La varianza de la muestra sería, por tanto, un sesgado estimador de cualquier múltiplo de la varianza de la población cuando ese múltiplo, como $1-1/N$ no se conoce exactamente de antemano.

Este problema de una cantidad desconocida de sesgo se propagaría a todas las pruebas estadísticas que utilizan la varianza de la muestra, incluidas las pruebas t y las pruebas F. En efecto, dividir por cualquier cosa que no sea $N$ en la fórmula de la varianza de la población nos obligaría a cambiar todas las tabulaciones estadísticas de los estadísticos t y los estadísticos F (y muchas otras tablas también), pero el ajuste dependería del tamaño de la población. Nadie quiere tener que hacer mesas para cada posible $N$ ¡! Especialmente cuando no es necesario.

En la práctica, cuando $N$ es lo suficientemente pequeño como para que el uso de $N-1$ en lugar de $N$ en las fórmulas hace la diferencia, por lo general hacer conocer el tamaño de la población (o poder adivinarlo con exactitud) y es probable que se recurra a correcciones para poblaciones pequeñas cuando se trabaja con muestras aleatorias (sin reemplazo) de la población. En todos los demás casos, ¿a quién le importa? La diferencia no importa. Por estas razones, guiadas por consideraciones pedagógicas (a saber, centrarse en los detalles que importan y pasar por alto los que no), algunos excelentes textos de introducción a la estadística ni siquiera se molestan en enseñar la diferencia: se limitan a proporcionar una única fórmula de varianza (dividir por $N$ o $n$ según el caso).

27voto

Uri Puntos 111

En lugar de entrar en matemáticas, intentaré explicarlo con palabras sencillas. Si tienes toda la población a tu disposición, entonces su varianza ( varianza de la población ) se calcula con el denominador N . Asimismo, si sólo se dispone de la muestra y se quiere calcular esta varianza de la muestra , se utiliza el denominador N ( n de la muestra, en este caso). En ambos casos, tenga en cuenta que no estimación cualquier cosa: la media que has medido es la verdadera media y la varianza que has calculado a partir de esa media es la verdadera varianza.

Ahora, usted sólo tiene la muestra y quiere inferir sobre la media y la varianza desconocidas en la población. En otras palabras, quiere estimaciones . Se toma la media de la muestra para la estimación de la media de la población (porque la muestra es representativa), de acuerdo. Para obtener la estimación de la varianza poblacional, tienes que pretender que esa media es realmente la media poblacional y por tanto es ya no depende de su muestra desde cuando lo calculaste. Para "demostrar" que ahora la tomas como fija, reservas una (cualquier) observación de tu muestra para "apoyar" el valor de la media: sea cual sea tu muestra, una observación reservada siempre podría llevar la media al valor que tienes y que crees que es insensible a las contingencias del muestreo. Una observación reservada es "-1", por lo que tiene N-1 en el cálculo de la estimación de la varianza. La estimación insesgada se denomina varianza de la muestra (no confundir con la varianza de la muestra) que es un argot; es mejor llamarlo como lo que es: estimación insesgada de la muestra de la varianza de la población estimada con la media de la muestra.

[Pegado aquí de mis comentarios de abajo: Imagina que estás tomando repetidamente muestras de N=3 tamaño. De los 3 valores de una muestra, sólo 2 valores expresan la desviación aleatoria de las observaciones respecto a la población media, pero la izquierda expresa (asume) el desplazamiento de la muestra media de la media de la población. Así, el "grado de variabilidad libre" observacional es 2 de los 3, en cada muestra por separado. Cuando estimamos la variabilidad en una muestra pero queremos que sea una estimación no sesgada (no desplazada) de la variabilidad poblacional, "creemos" sólo esas 2 observaciones libres. Pagamos la decisión de medir la variabilidad a partir de la media de la muestra como si fuera la media de la población, pues necesitamos inferir sobre la variabilidad de la población. Esta "tasa" ( N-1 denominador, el Bessel corrección) hace que la variabilidad sea más amplia, incorporando la oscilación de las medias muestrales dentro de la varianza, pero hace que dicha varianza sea un estimador insesgado].

Pero imagina ahora que de alguna manera conoces la verdadera media de la población, pero quieres estimar la varianza a partir de la muestra. Entonces sustituirá esa media real en la fórmula de la varianza y aplicará el denominador N : no se necesita "-1" aquí ya que conozca la verdadera media, no la estimó a partir de esta misma muestra.

0 votos

Pero mi pregunta no tiene nada que ver con la estimación. Se trata de calcular la varianza de la población; con N y N-1. No estoy hablando de n y n-1.

1 votos

@ilhan, en mi respuesta, he utilizado N tanto para N como para n. N es el tamaño de una totalidad a mano, ya sea población o muestra. Para calcular población varianza, usted debe tienen población a su disposición. Si sólo dispone de la muestra, puede calcular la varianza de esta muestra o calcular la población estimación la varianza. No hay otro camino.

0 votos

Tengo una información completa sobre mi población; todos los valores son conocidos. No me interesa la estimación.

9voto

Andrew Howlett Puntos 1

Generalmente, cuando se tiene sólo una fracción de la población, es decir, una muestra, se debe dividir por n-1. Hay una buena razón para hacerlo, sabemos que la varianza de la muestra, que multiplica la desviación media al cuadrado de la media de la muestra por (n1)/n, es un estimador insesgado de la varianza de la población.

Puedes encontrar una prueba de que el estimador de la varianza muestral es insesgado aquí: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Además, si se aplicara el estimador de la varianza de la población, es decir, la versión del estimador de la varianza que divide por n, sobre una muestra en lugar de la población, la estimación obtenida estaría sesgada.

0 votos

Esto parece responder a una pregunta diferente sobre la estimación de la varianza de la población. Parece circular: ¿no se basa esta respuesta en asumir una convención específica para definir la varianza de la población en primer lugar?

7voto

En el pasado se ha argumentado que se debe utilizar N para una varianza no inferencial, pero yo ya no lo recomendaría. Siempre se debe utilizar N-1. A medida que el tamaño de la muestra disminuye, N-1 es una corrección bastante buena para el hecho de que la varianza de la muestra se reduce (es más probable que se tome una muestra cerca del pico de la distribución, véase la figura). Si el tamaño de la muestra es realmente grande, entonces no importa de manera significativa.

Una explicación alternativa es que la población es una construcción teórica imposible de alcanzar. Por lo tanto, siempre hay que utilizar N-1 porque, sea lo que sea, se está estimando, en el mejor de los casos, la varianza de la población.

Además, a partir de ahora vas a ver N-1 para las estimaciones de varianza. Es probable que nunca te encuentres con este problema... excepto en un examen cuando tu profesor te pida que distingas entre una medida de varianza inferencial y no inferencial. En ese caso no utilices la respuesta de whuber o la mía, consulta la respuesta de ttnphns.

Figure 1

Obsérvese que en esta figura la varianza debería ser cercana a 1. Observe cuánto varía con el tamaño de la muestra cuando se utiliza N para estimar la varianza. (este es el "sesgo" al que se hace referencia en otro lugar)

2 votos

Por favor, dígame por qué N "ya no es recomendable" con la población real a la mano? La población no es siempre una construcción teórica. A veces su muestra es una población real para usted.

0 votos

@John, ¿podrías eliminar todo lo relacionado con "estimación", "estimación" y "muestra"? La pregunta es sobre la población en sí. No hay estimación, ni muestreo, ni muestras. Y por favor, utiliza "n" cuando te refieras al tamaño de la muestra. "N" se utiliza para el tamaño de la población. Corrígeme si me equivoco.

1 votos

ilhan, N puede ser utilizado para su muestra, o puede ser utilizado para el tamaño de la población, si existe. En la mayoría de los casos, la distinción entre N grande y n pequeño depende del tema. Por ejemplo, n puede ser el número de casos en cada condición de un experimento, mientras que N puede ser el número del experimento. Ambos son muestras. No existe una regla global.

4voto

Auron Puntos 2123

La varianza de la población es la suma de las desviaciones al cuadrado de todos los valores de la población dividida por el número de valores de la población. Sin embargo, cuando estimamos la varianza de una población a partir de una muestra, nos encontramos con el problema de que las desviaciones de los valores de la muestra con respecto a la media de la misma son, por término medio, un poco menores que las desviaciones de esos valores de la muestra con respecto a la verdadera media de la población (desconocida). Esto da lugar a que la varianza calculada a partir de la muestra sea un poco menor que la verdadera varianza de la población. El uso de un divisor n-1 en lugar de n corrige esa subestimación.

0 votos

@ Bunnenburg, Si tienes respuesta a tu pregunta. Por favor, acláreme ahora, ¿qué tiene? Es una gran confusión para mí también.

0 votos

para compensar eso poco menos la variación que obtenemos, ¿por qué no se puede utilizar n-2, n-3, etc.? ¿por qué n-1 en particular? ¿por qué no una constante?

0 votos

@SaravanabalagiRamachandran La discrepancia varía con el tamaño de la muestra, por lo que una constante no servirá. La corrección usando n-1 está más cerca funciona mejor que las otras que mencionas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X