22 votos

Promedio de paradoja de valor - ¿qué es esto llamado?

Tengo un conjunto de datos. Decir $10$ observaciones y $3$ variables:

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Decir que es $10$ de los clientes que han comprado (1) o no (0) en cada categoría A, B, C. Hay $16$ se por lo que estas $10$ a los clientes a comprar en $1.6$ categorías de producto, en promedio.

Nota: los clientes pueden comprar en más de uno de a, B y C.

Si miro sólo los que compran A, hay $5$ de los clientes que han comprado en $9$ categorías de productos, por lo que es $1.8$ en promedio.

B es $9/5$ o $1.8$.

C es $10/6 = 1.67.$

Todos ellos por encima de $1.6.$

lo que parece extraño. Yo lo entiendo, pero es necesario explicar esto a la comercialización de la próxima semana, por lo que necesitan ayuda!

¿Qué es esta cosa?

Sé que no es de la paradoja de Simpson. A mí me parece similar en la lógica de los Monty Hall problema y la probabilidad condicional.

28voto

Martin Robins Puntos 1893

El promedio de cada subcategoría puede estar por encima de la media general de si las subcategorías de la superposición de los grandes clientes.

Ejemplo sencillo para obtener la intuición:

  • Deje $A$ ser un indicador de si un individuo ha comprado un artículo en la categoría A.
  • Deje $B$ ser un indicador de si un individuo ha comprado un artículo en la categoría B.
  • Deje $X = A + B$ el número de artículos comprados.

\begin{array}{ccc} \text{Person} & A & B \\ i & 1 & 0 \\ ii & 0 & 1 \\ iii & 1 & 1 \end{array}

El conjunto de los individuos que $A$ es cierto se superpone al conjunto de individuos donde $B$ es cierto. Son NO disjuntas conjuntos.

A continuación, $\operatorname{E}[X] \approx 1.33$ mientras $\operatorname{E}[X \mid A] = 1.5$ $\operatorname{E}[X \mid B] = 1.5$

La declaración de que sería la verdadera es:

$$ P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] - P(AB)\operatorname{E}[X\mid AB] = \operatorname{E}[X]$$

$$ \frac{2}{3}1.5 + \frac{2}{3}1.5 - \frac{1}{3}2 = 1.3333$$

Simplemente no se puede calcular $P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] $ debido a que los conjuntos de $A$ $B$ de solapamiento, la expresión de la doble cuenta de la persona que compra tanto elemento $A$$B$!

Nombre de la ilusión/de la paradoja?

Yo diría que esta relacionado con la mayoría de la ilusión de la paradoja en las redes sociales.

Usted puede tener un solo tipo que las redes/amigos de todo el mundo. Esa persona puede ser uno de un millón en total, pero él va a ser uno de cada una de las personas de $k$ amigos.

Del mismo modo, se tiene que 1 de cada 3 aquí la compra de las categorías a y B. Pero dentro de la categoría a o B, de 1 de los 2 a los compradores es el super comprador.

Caso extremo:

Vamos a crear $n$ juegos de billetes de lotería. Cada set $S_i$ incluye dos entradas: una pérdida de ticket $i$ y el boleto ganador del premio mayor.

El promedio de ganancias en cada set $S_i$ luego $\frac{J}{2}$ donde $J$ es el premio mayor. El promedio de cada categoría se FORMA por encima del promedio de ganancias por boleto total $\frac{J}{n+1}$.

Es el mismo conceptual dinámico como el caso de ventas. Cada set $S_i$ incluye el boleto del premio mayor de la misma manera que cada una de las categorías a, B, o C incluye los pesados de los compradores.

Mi línea de fondo y el punto sería que la intuición basada en distintos conjuntos completo de la partición del espacio muestral qué no llevar a una serie de superposición de conjuntos. Si la condición en la superposición de categorías, cada categoría puede estar por encima de la media.

Si la partición del espacio muestral y de la condición en conjuntos disjuntos, entonces las categorías tienen en promedio a la media general, pero eso no es cierto para la superposición de conjuntos.

10voto

Alan Puntos 7273

Yo le llamo a esto el tamaño de la familia paradoja o algo similar

Supongamos, por ejemplo, todo el mundo tenía una pareja y una Poisson distribuidos número de niños con el parámetro $2$:

  • El número medio de hijos por persona sería de $2$
  • El número promedio de hijos por persona con hijos serían $\frac{2}{1-e^{-2}} \approx 2.313$
  • El promedio del grupo de hermanos de tamaño para cada individuo (incluyendo a sus hermanos y hermanas y a sí mismos) serían $3$

Real demográfica y de estudio de los números producir números diferentes pero similares patrones de

La aparente paradoja es que el tamaño promedio de los individuos de grupos de hermanos es mayor que el número promedio de hijos por familia; y estables con la dinámica de la población, las personas tienden a tener menos hijos en promedio que sus padres hicieron

La explicación es si el promedio está siendo tomado padres y familias o sobre los hermanos: hay diferentes ponderaciones se aplica a las grandes familias. En su ejemplo, hay una diferencia entre la ponderación por parte de individuos o de compras; condicional promedios son empujados por el hecho de que en la condición de una compra que se hizo.

8voto

Yar Puntos 131

Las otras respuestas son overthinking lo que está sucediendo. Supongamos que hay un solo producto y dos clientes. Uno comprado el producto (una vez) y uno no. El número promedio de productos comprados es de 0,5, pero si nos fijamos sólo en el cliente que compró el producto, el promedio se eleva a 1.

Esto no parece como una paradoja o contrario a la intuición acondicionado en la compra de un producto generalmente aumentará el número promedio de productos comprados.

5voto

Steve Ross Puntos 2709

Esto no es simplemente el promedio de los promedios de la" confusión (por ejemplo, anterior stackexchange pregunta) disfrazado? Su tentación parece ser que la submuestra de los promedios debería acabar promediando la media de la población, pero esto rara vez sucede.

En el clásico "el promedio de los promedios", alguien busca el promedio de N subconjuntos mutuamente excluyentes y, a continuación, se sorprendió de que estos valores no son el promedio de la media de la población. La única manera de que este promedio de los promedios de las obras se si tu no se solapan los subconjuntos tienen el mismo tamaño. De lo contrario, usted necesita tomar un promedio ponderado.

El problema se hace más complejo tradicional de la media de los promedios de la confusión al tener la superposición de subgrupos, pero a mí me parece que acaba de ser este error clásico con un twist. Con la superposición de los subconjuntos, es aún más difícil de terminar con la submuestra de los promedios que el promedio de la media de la población.

En tu ejemplo, ya que los usuarios que aparecen en varias submuestras (y por lo tanto han comprado muchas cosas) aumento de estos promedios. Básicamente estás contando cada uno de big spender varias veces, mientras que el atractivo y la gente que sólo comprar un artículo sólo se encontró una vez, así que usted está sesgada hacia valores más grandes. Esta es la razón por la que su subconjuntos particulares, superior a la media de los valores, pero creo que esto es solo el "promedio de los promedios" problema.

También se puede construir todo tipo de otros subconjuntos de sus datos en la submuestra de los promedios de asumir diferentes valores. Por ejemplo, vamos a tomar subconjuntos algo similar a sus subconjuntos. Si usted toma el subconjunto de personas que no comprar Una, consigue 7/5=1.4 elementos en promedio. Con el subconjunto que no comprar B, también te 1.4 elementos en promedio. Aquellos que no comprar C, compró 1.5 elementos en promedio. Estos son todos por debajo de la media de la población de 1.6 elementos/cliente. Dada la derecha del conjunto de datos y el derecho de la colección de subconjuntos de, usted podría terminar con la superposición de los subconjuntos cuyos promedios promedio de la media de la población; sin embargo, esto sería poco común en las aplicaciones normales.

Se trata sólo de mí, o no la palabra promedio ahora parece extraño que después de tantos repeticiones... Espero que mi respuesta fue muy útil, y lo siento si he arruinado la palabra promedio para usted!

1voto

Patrick Puntos 121

Ya que el tema es "yo lo entiendo, pero es necesario explicar esto a la comercialización", OP parece relacionados con la forma de un laico va a interpretar estos hechos - (no se si los hechos son verdaderos, o cómo demostrar que son). La pregunta referencias 10 categorías de productos, (A-J), entonces ¿qué pasa con este ejemplo:

[en la reunión con el grupo de marketing]
OP: Así que, como puedes ver aquí, los clientes que compren Un, B, y C, son más valiosos que el promedio.
Laico: Esperar?! Cómo se puede ser más alto que el promedio?
OP: Buena pregunta. Esta diapositiva se centra en los clientes de a, B, y C, pero hay otros, de bajo rendimiento, los grupos no se muestra. Por ejemplo, los clientes de las categorías D y G tienen un valor de alrededor de la mitad de la media.

Esto debe sofocar todos interna de bs-alarma acerca de que "todo está por encima de la media'.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: