5 votos

¿Cómo puede cambiar la proporción de muestreo para estimar cuantiles con tamaño de la población?

Me quiero cortar mis datos de tamaño N en k igualdad de tamaño de los contenedores. Pero estoy feliz con aproximadamente el mismo tamaño de los recipientes, con algunos $\varepsilon$ de error. Como precisa cuantiles de los datos son computacionalmente costosos (clasificación de tiempo crece a la tasa de $O(N \log N)$), estoy feliz de la estimación de los cuantiles. Tomando los cuantiles de algunos submuestra aleatoria de tamaño n es un claro camino a seguir. Pero ¿cuál es la recomendación / teoría / fórmula para qué tamaño de muestra a tomar? ¿A qué tasa debe de muestreo o $\frac{n}{N}$ relación de muestreo crecer por la misma precisión (proporcional desviaciones de bin acciones)?

Hay algoritmos de estimación de cuantiles de la población a partir de muestras pequeñas (como Harrell-Davis) o aproximado de cuantiles de flujos de datos. No estoy seguro de si está relacionado con el problema en cuestión, es decir, tener acceso a toda la población, sólo en busca de una forma sensata para facilitar el cálculo de los cuantiles en el costo de algunos de precisión.

Página 3 de esta encuesta dice que con el muestreo aleatorio simple,

para la estimación de los cuantiles con precisión $\varepsilon n$, con una probabilidad de al menos $1 − \delta$, una muestra de tamaño $\Theta ( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} )$, donde 0 < d < 1.

Esto sugiere que la muestra alrededor de 20,000 por $\varepsilon = 0.1$$\delta = 0.1$? ¿Qué es $\Theta$?

19 vingtiles de corte de los datos en contenedores de 20, cualquiera de los que se debían tener una mayor probabilidad de uno solo. A pesar de corrección en el 3er percentil de la población, todos los vingtiles será demasiado alto. Dicho esto, una visión sesgada de la serie de cuantiles (6%, 11%, etc. en lugar del 5%, 10%, etc.) todavía me deja agarrar una distribución bastante bien.

2voto

kerunaru Puntos 1

Para el orden del tamaño de la muestra, no hay referencia directa aquí (con la notación Theta):

para la estimación de los cuantiles con precisión $\varepsilon n$, con una probabilidad de al menos $1 − \delta$, una muestra de tamaño $\Theta ( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} )$, donde 0 < d < 1.

Pero creo que esto podría ser un problema más fácil de lo que parecía, al menos con una aproximación asintótica. Para cualquier verdadero/población/muestra/N p-ésimo cuantil $q = F^{-1}(p)$ la limitación de la distribución es $$ \sqrt{n}(\hat{q}-q) = \sqrt{n}\Delta q \sim N \left(0,\frac{p(1-p)}{f(q)^2} \right) $$

pero si nos interesa (por ejemplo) de 1 punto porcentual desviaciones ($\varepsilon = 0.01$) en la forma $F(q + \Delta q) \in (p-0.01,p+0.01)$, podemos aproximar la masa en el $\Delta q$ barrio con $f(q) \Delta q$ e intentar obligado. Diciendo que $|f(q) \Delta q | < 0.01$ con un 99% de probabilidad ($1-\delta$ anterior), a continuación, convierte el problema de que la distribución normal tiene su 0.995 cuantil al 0.01, debido a que su varianza, entonces, es el delimitador $\frac{p(1-p)}{n}$. Problemas para el peor de los casos de $p=0.5$, esto le da a la crítica del tamaño de la muestra a ser $n = 16,556$ mientras las aproximaciones espera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: