9 votos

¿Por qué ' t el hecho de que 1 mediana es más baja que otra mediana, significa que la mayoría en el grupo 1 son menos que más en el grupo 2?

Yo creía que los boxplots de abajo podría ser interpretada como "la mayoría de los hombres son más rápidos que la mayoría de las mujeres" (en este conjunto de datos), principalmente debido a que la mediana de los hombres del tiempo fue inferior a la mediana de las mujeres del momento. Pero el EdX curso sobre R y estadística de prueba me dijo que es incorrecto. Por favor, que me ayude a entender por qué mi intuición es correcta.

Aquí está la pregunta:

Vamos a considerar una muestra aleatoria de los finalistas de la Maratón de Nueva York en 2002. Este conjunto de datos se puede encontrar en la UsingR paquete. La carga de la biblioteca y, a continuación, cargar el nym.2002 conjunto de datos.

library(dplyr)
data(nym.2002, package="UsingR")

Uso boxplots y los histogramas para comparar los tiempos de llegada de los machos y las hembras. Cuál de las siguientes describe mejor la diferencia?

  1. Los machos y las hembras tienen la misma distribución.
  2. La mayoría de los hombres son más rápidos que la mayoría de las mujeres.
  3. Machos y hembras tienen derecho similar distribuciones sesgadas con el primero, 20 minutos desplazado a la izquierda.
  4. Distribución se distribuye normalmente con una diferencia en la media de 30 minutos.

Aquí están maratón de nueva york veces para machos y hembras, como cuantiles, histogramas y boxplots:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

Male and female times - histogram

Male and female times - boxplot

7voto

AdamSane Puntos 1825

"La mayoría de los hombres son más rápidos que la mayoría de las mujeres" es potencialmente un poco ambiguo, pero yo normalmente interpretar la intención de que sea que si miramos al azar parirings, la mayoría del tiempo el hombre sería más rápido, es decir, $P(M_i<F_j)>\frac12$ random $i,j$ (donde $M_i$ es 'tiempo para la $i$-th macho", etc).

Por supuesto, otras interpretaciones de la frase son posibles (que es lo que la ambigüedad es, después de todo) y algunas de esas otras posibilidades podrían ser coherente con su razonamiento.

[También tenemos la cuestión de si estamos hablando de las muestras o poblaciones... "la mayoría de los hombres [...] la mayoría de las mujeres", parece ser una población declaración (sobre una población de potenciales veces), pero sólo hemos observado veces que parece que lo estamos tratando como una muestra, por lo que debemos ser cuidadosos con la forma amplia en que hacer el reclamo.]

Tenga en cuenta que $P(M_i<F_j)>\frac12$ no está implícita $\widetilde{M}<\widetilde{F}$. Pueden ir en direcciones opuestas.

[No estoy diciendo que está mal en el pensamiento de que la proporción de azar M-F parejas donde el hombre fue más rápido que la mujer es más de 1/2-son casi ciertamente correcto. Solo estoy diciendo que no se puede saber mediante la comparación de las medianas. Ni se puede decir de ella mirando la proporción en cada una de las muestras por encima o por debajo de la mediana de la otra muestra. Tendrías que hacer una comparación diferente.]

Es decir, mientras que el hombre medio puede ser más rápido que la mediana de la mujer, es posible tener una muestra de veces (o una distribución continua de veces, de hecho) donde la probabilidad de que un azar que el hombre es más rápido que un azar de la mujer es menos de $\frac12$. En grandes muestras de los dos opuestos, las indicaciones de cada ser significativo.


Ejemplo:

Conjunto de datos:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Conjunto de datos B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Conjunto de datos C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(Los datos son de aquí, pero de ser utilizado para un propósito diferente allí-a mi recuerdo que me generó esta en uno mismo)

Tenga en cuenta que la proporción de Un < B es de 2/3, la proporción de < C es 5/9 y la proporción de B < C es de 2/3. Tanto a vs B y B vs C son significativas al 5% de nivel, pero podemos lograr cualquier nivel de significación, simplemente mediante la adición de un número suficiente de ejemplares de las muestras. Incluso podemos evitar lazos, mediante la duplicación de las muestras, pero añadiendo suficientemente pequeña fluctuación (lo suficientemente menor que la mínima diferencia entre los puntos)

La muestra de los separadores de ir en otra dirección: la mediana(A) > mediana (B) > mediana (C)

De nuevo podríamos alcanzar significación para la comparación de las medianas - para cualquier nivel de significación - por la repetición de las muestras.

Stripchart of samples A,B and C with medians marked in showing P(A<B) in opposite direction to medians, etc

Se relacionan con el problema presente, imaginar que es a las mujeres "a veces" y B es "hombres del tiempo". A continuación, la mediana de los hombres del tiempo es más rápido, pero un elegida al azar, el hombre va a 2/3 del tiempo de ser más lento que un elegido al azar de la mujer.

Tomando nuestro ejemplo de las muestras a y C, se puede generar un conjunto de datos mayor (R) de la siguiente manera:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

La mediana de F será de alrededor de 16.25 mientras que la mediana de M será de alrededor de 11.25, pero la proporción de casos donde F < M será 5/9.

[Si se sustituye el n/3 con una variable aleatoria binomial con parámetros de $n$ $\frac13$ nos gustaría ser de muestreo de una población donde la mediana de la distribución de F es a las 16.25, mientras que la mediana de la distribución de M es a las 11: 25. Mientras tanto en la población la probabilidad de que F < M volverá a ser 5/9.]

Tenga en cuenta también que $P(F<\text{med}(M))=\frac23$ $P(M>\text{med}(F))=\frac23$ mientras $\text{med}(M)<\text{med}(F)$ (por una considerable distancia).

7voto

Robert Jones Puntos 423

Creo que la razón por la que se marcaron como incorrecto es no por lo mucho que la respuesta que diste a la pregunta de multichoice estaba mal, más bien que opción 3 "macho y hembras tienen distribuciones sesgadas derecho similares con el anterior, 20 minutos cambió de puesto a la izquierda" tendría sido una mejor opción ya que es más informativo basado en la información proporcionada.

7voto

Eric Duminil Puntos 161

Aquí está el más pequeño de la contra-ejemplo que pude encontrar :

A 1,4,10; B 0,6,9

  • Un ([1, 4, 10]) y B ([0, 6, 9]) tienen el mismo promedio (5)

  • B tiene un mayor promedio (6) de Un (4)

  • Hay un 5/9 probabilidad de que un azar de Un elemento es mayor que un azar B elemento.

He aquí otro ejemplo con 4 elementos:

A 1,1,3,10; B 0,0,6,9

2voto

Loffen Puntos 163

Las siguientes cifras son tomadas de este blog, el cual ilustra una importante práctica de la aplicación de estas ideas.

La normalización ofrece un potente dispositivo para la comparación de 2 distribuciones. Los siguientes 3 cifras comparar la altura de 130 meses de edad, niños y niñas, desde la Inglaterra del Niño a nivel Nacional el Programa de Medición (NEJE). (Esta fue la edad modal en este conjunto de datos; he seleccionado simplemente para obtener la mayoría de los datos, y por lo tanto la más suave de las parcelas, dentro de una misma cohorte de edad.)

Figure 1: Heights of boys and girls aged 130 months, from England's National Child Measurement Programme (NCMP)

Figura 1: las Alturas de los niños y niñas de 130 meses, desde la Inglaterra del Niño a nivel Nacional el Programa de Medición (NEJE)

Figure 2: Percentiles of height for boys and girls aged 130 months. Source: English NCMP

Figura 2: Percentiles de altura para niños y niñas de entre 130 meses. Fuente: inglés NEJE

Figure 3: Distribution of heights of 130-month-old girls relative to boys of the same age.

Figura 3: Distribución de las alturas de 130 meses de edad, las niñas con relación a los niños de la misma edad.

En la última de estas cifras, la altura de la comparación ha sido estandarizado de acuerdo a los muchachos' alturas. Por lo tanto, la lectura a lo largo de la punteadas, líneas grises en la Figura 3, se puede hacer declaraciones tales como:

  • La mediana (es decir, el percentil 50) de altura para los niños es sólo acerca de la 45ª percentil para las niñas. Por lo tanto, el 100% – 45%=55% de las niñas eran más altos que la media niño.
  • El cuartil superior de la altura (percentil 75) para las niñas golpea el quintil superior (percentil 80) para los niños. Así, entre los niños de 130 mos, una chica que es más alto que 3 de cada 4 niñas es también más alto que 4 de cada 5 niños.

Un punto de posible confusión en este terreno no merecen mención. Aunque los chicos de 45° línea es 'superior' en la trama de las chicas' magenta curva, esta observación no obstante, se corresponde con el hecho bien conocido de que a esta edad (estos son los alumnos de 6º grado), las chicas son típicamente más altos que los varones. Tenga en cuenta que este tallerness se vea reflejado en el hecho de que el magenta de la curva se desplaza hacia la derecha en relación a la línea azul.

Este enfoque es bastante genérico. En virtud de una comparación de ese tipo, uno de los grupos - a la que estandarizar - se convierte en el 45° de línea. El otro grupo puede en general ser cualquier monótona creciente de la curva dibujada desde la esquina inferior izquierda a la superior derecha. A condición de que el subyacente de las distribuciones continuas (las densidades falta de punto de masas), la comparación de la curva será continua. Si el subyacente densidades comparten el mismo soporte, la curva se debe ejecutar de$(0,0)$$(1,1)$.

Su pregunta original, ahora puede ser reformulada en términos geométricos, como una pregunta acerca de si usted puede dibujar el magenta de la curva de la Figura 3, así como para lograr simultáneamente (a) el postulado de la relación entre las medianas y (b) el poco difícil de alcanzar relación que @Glen_b dilucidado (correctamente, creo) en su respuesta. Me pregunto si la distribución discontinuidades (punto de masas en las densidades) podría permitir a un 'patológico' caso de ser proporcionada. Suponemos que en cualquier caso patológico va a ser la excepción que confirma la regla'.


Si uno hace el más directo, traducción lógica de la pregunta del cuestionario en el lenguaje más formal susceptible de análisis, entonces (mediante el ajuste de los niños alturas de arriba), vamos a decir que un individuo $x$ tiene la propiedad de TMB si $x$ es taller de most boys. A continuación, el cuestionario pregunta simplemente si la mayoría de las niñas tienen la TMB de la propiedad. Si uno define el 'más' que significa más de la mitad, luego tener la TMB de la propiedad significa ser más alto que la mediana de la altura del niño. Preguntar si la mayoría de las niñas tienen la TMB de la propiedad, a continuación, las cantidades a preguntar si la mediana de la niña tiene esta propiedad. En esta cuenta, la respuesta a la pregunta sería .

Por otro lado, si el propósito real de 'la mayoría' fue ">50%", uno podría esperar que el más preciso de la frase "la mayoría de" haber sido empleado. Si alguien me dice algo "probablemente" va a pasar, yo creo que una probabilidad subjetiva de 60% o más se ha aludido. Asimismo, "la mayoría" para mí significa algo un poco más como 70-80%. Claramente, en el gráco anterior, si 'más' es tomado como un criterio más estricto que el 52,5%, entonces no se puede decir "la mayoría de las niñas [tienen la propiedad de que] son más altos que la mayoría de los niños." Me pregunto si parte de la justificación de la pregunta del cuestionario era estimular un examen de las palabras que se refieren a nociones numéricas. (Si usted piensa que todo esto es un poco tonto, considere estos gráficos, que muestran cómo las personas tienden a interpretar las diferentes probabilística de palabras y frases.) Tal vez la intención era también subrayar el punto de que una gran cantidad de variación presente en el mundo real de las distribuciones, y que una sola estadística (mediana, media, lo que-tiene-usted) rara vez apoyo amplio, declaraciones radicales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: