10 votos

¿Por qué usar un modelo de mezcla gaussiano?

Estoy aprendiendo sobre los modelos de mezcla gaussianos (GMM) pero estoy confundido sobre por qué alguien debería usar este algoritmo.

  1. ¿Cómo es este algoritmo mejor que otros algoritmos de agrupación estándar como $K$ - significa cuando se trata de agrupar? El $K$ significa que el algoritmo divide los datos en $K$ con una composición clara, mientras que el modelo de mezcla gaussiano no produce una composición clara para cada punto de datos. ¿Cuál es la métrica para decir que un punto de datos está más cerca de otro con el GMM?

  2. ¿Cómo puedo utilizar la distribución de probabilidad final que produce el GMM? Supongamos que obtengo mi distribución de probabilidad final $f(x|w)$ donde $w$ son las pesas, ¿y qué? He obtenido una distribución de probabilidad que se ajusta a mis datos $x$ . ¿Qué puedo hacer con él?

  3. Para seguir con mi punto anterior, para $K$ significa que al final obtenemos un conjunto de $K$ cúmulos, que podemos denotar como el conjunto $\{S_1, \ldots , S_K\}$ que son $K$ cosas. Pero para el GMM, todo lo que obtengo es una distribución $f(x|w) = \sum\limits_ {i=1}^N w_i \mathcal {N}(x| \mu_i , \Sigma_i )$ que es $1$ la cosa. ¿Cómo puede usarse esto para agrupar cosas en $K$ ¿Racimo?

1 votos

El GMM tiene otros significados, sobre todo en econometría. Se ha eliminado la abreviatura del título para reducir la distracción.

11voto

Rickyfox Puntos 197

Tomaré prestada la notación de (1), que describe bastante bien los MMG en mi opinión. Supongamos que tenemos una característica $X \in \mathbb{R}^d$ . Para modelar la distribución de $X$ podemos ajustar un MMG de la forma

$$f(x)=\sum_{m=1}^{M} \alpha_m \phi(x;\mu_m;\Sigma_m)$$ con $M$ el número de componentes de la mezcla, $\alpha_m$ el peso de la mezcla del $m$ -a componente y $\phi(x;\mu_m;\Sigma_m)$ siendo la función de densidad gaussiana con media $\mu_m$ y la matriz de covarianza $\Sigma_m$ . Utilizando el algoritmo EM ( su conexión con K-Means se explica en esta respuesta ) podemos obtener estimaciones de los parámetros del modelo, que aquí denotaré con un sombrero ( $\hat{\alpha}_m, \hat{\mu}_m,\hat{\Sigma}_m)$ . Así pues, nuestro MMG se ha ajustado a $X$ ¡Utilicémoslo!

Esto responde a sus preguntas 1 y 3

¿Cuál es la métrica para decir que un punto de datos está más cerca de otro con GMM?
[...]
¿Cómo se puede utilizar esto para agrupar cosas en K cluster?

Como ahora tenemos un modelo probabilístico de la distribución, podemos, entre otras cosas, calcular la probabilidad posterior de una instancia dada $x_i$ perteneciente al componente $m$ que a veces se denomina responsabilidad" del componente $m$ para (producir) $x_i$ (2) , denotado como $\hat{r}_{im}$

$$ \hat{r}_{im} = \frac{\hat{\alpha}_m \phi(x_i;\mu_m;\Sigma_m)}{\sum_{k=1}^{M}\hat{\alpha}_k \phi(x_i;\mu_k;\Sigma_k)}$$

esto nos da las probabilidades de $x_i$ pertenecientes a los diferentes componentes. Así es precisamente como se puede utilizar un MMG para agrupar los datos.

Las K-Means pueden tener problemas cuando la elección de K no se adapta bien a los datos o las formas de las subpoblaciones difieren. El sitio web La documentación de scikit-learn contiene una interesante ilustración de estos casos

enter image description here

La elección de la forma de las matrices de covarianza del MMG afecta a las formas que pueden adoptar los componentes, También en este caso, la documentación de scikit-learn proporciona una ilustración

enter image description here

Mientras que un número de conglomerados/componentes mal elegido también puede afectar a un MMG ajustado por EM, un MMG ajustado de forma bayesiana puede ser algo resistente a los efectos de esto, permitiendo que los pesos de la mezcla de algunos componentes sean (cercanos a) cero. Puede encontrar más información sobre este tema en aquí .

Referencias

(1) Friedman, Jerome, Trevor Hastie y Robert Tibshirani. Los elementos del aprendizaje estadístico. Vol. 1. No. 10. New York: Springer series in statistics, 2001.
(2) Bishop, Christopher M. Reconocimiento de patrones recognition and machine learning. springer, 2006.

0 votos

¿Cuál es la relación entre $x$ y $X$ ? Además, ¿cuál es la diferencia entre $x_i$ y $x$ ?

8voto

throwaway Puntos 18
  1. ¿Cómo es este algoritmo mejor que otros algoritmos de clustering estándar como $K$ -significa cuando se trata de la agrupación?
  • k-means se adapta bien a los clusters aproximadamente esféricos de igual tamaño. Puede fallar si se violan estas condiciones (aunque puede seguir funcionando si los clusters están muy separados). Los GMM pueden ajustarse a conglomerados con una mayor variedad de formas y tamaños. Sin embargo, ninguno de los dos algoritmos se adapta bien a los datos con conglomerados curvos/no convexos.

  • Los MMG proporcionan una asignación probabilística de los puntos a los clusters. Esto nos permite cuantificar la incertidumbre. Por ejemplo, si un punto está cerca de la "frontera" entre dos clusters, a menudo es mejor saber que tiene probabilidades de pertenencia casi iguales para estos clusters, en lugar de asignarlo a ciegas al más cercano.

  • La formulación probabilística de los MMG nos permite incorporar conocimientos previos, utilizando métodos bayesianos. Por ejemplo, es posible que ya sepamos algo sobre las formas o las ubicaciones de los conglomerados, o el número de puntos que contienen.

  • La formulación probabilística ofrece una forma de manejar los datos que faltan (por ejemplo, utilizando el algoritmo de maximización de expectativas que se suele utilizar para ajustar los MMG). Podemos seguir agrupando un punto de datos, aunque no hayamos observado su valor en algunas dimensiones. Y podemos inferir cuáles podrían haber sido esos valores perdidos.

  1. ...El $K$ significa que el algoritmo divide los datos en $K$ clústeres con una clara pertenencia a un conjunto, mientras que el modelo de mezcla gaussiana no produce una clara pertenencia a un conjunto para cada punto de datos. ¿Cuál es la métrica para decir que un punto de datos está más cerca de otro con GMM?

Los MMG dan una probabilidad de que cada punto pertenezca a cada clúster (véase más adelante). Estas probabilidades pueden convertirse en "asignaciones duras" mediante una regla de decisión. Por ejemplo, la opción más sencilla es asignar cada punto al clúster más probable (es decir, el que tiene la mayor probabilidad de pertenencia).

  1. ¿Cómo puedo utilizar la distribución de probabilidad final que produce el GMM? Supongamos que obtengo mi distribución de probabilidad final $f(x|w)$ donde $w$ son los pesos, ¿y qué? He obtenido una distribución de probabilidad que se ajusta a mis datos $x$ . ¿Qué puedo hacer con él?

He aquí algunas posibilidades. Puedes:

  • Realiza la agrupación (incluyendo las asignaciones duras, como en el caso anterior).

  • Impute los valores que faltan (como en el caso anterior).

  • Detectar anomalías (es decir, puntos con baja densidad de probabilidad).

  • Aprende algo sobre la estructura de los datos.

  • Toma de muestras del modelo para generar nuevos puntos de datos sintéticos.

  1. Siguiendo con mi punto anterior, para $K$ significa que al final obtenemos un conjunto de $K$ clusters, que podemos denotar como el conjunto $\{S_1, \ldots, S_K\}$ que son $K$ cosas. Pero para GMM, todo lo que obtengo es una distribución $f(x|w) = \sum\limits_{i=1}^N w_i \mathcal{N}(x|\mu_i, \Sigma_i)$ que es $1$ cosa. ¿Cómo se puede usar esto para agrupar cosas en $K$ ¿Grupo?

La expresión que has escrito es la distribución para los datos observados. Sin embargo, un MMG puede considerarse como un modelo de variable latente. Cada punto de datos se asocia a una variable latente que indica a qué grupo pertenece. Al ajustar un MMG, aprendemos una distribución sobre estas variables latentes. Esto da una probabilidad de que cada punto de datos sea un miembro de cada cluster.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X