14 votos

Con datos categóricos, puede no ser cúmulos sin las variables relacionadas?

Cuando tratamos de explicar a los análisis de agrupamiento, es común que la gente malinterprete el proceso como si las variables están correlacionadas. Una manera de conseguir que la gente del pasado, que la confusión es un gráfico como este:

enter image description here

Esto muestra claramente la diferencia entre la pregunta de si hay grupos y la cuestión de si las variables están relacionadas. Sin embargo, esto sólo ilustra la distinción para datos continuos. Estoy teniendo problemas para pensar de una señal analógica con datos categóricos:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Podemos ver que hay dos claros grupos: las personas con los bienes a y B, y aquellos con ninguno de los dos. Sin embargo, si nos fijamos en las variables (p. ej., con una prueba de chi-cuadrado), que están claramente relacionados con:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Me parece que estoy en una pérdida para saber cómo construir un ejemplo con datos categóricos que es análoga a la que continuo con los datos anteriores. Es incluso posible tener grupos en puramente de datos categóricos sin las variables relacionadas con el así? ¿Qué pasa si las variables tienen más de dos niveles, o como usted tiene un mayor número de variables? Si la agrupación de las observaciones no implican necesariamente que las relaciones entre las variables y viceversa, hace que implica que la agrupación no es realmente vale la pena hacerlo cuando sólo se tienen datos categóricos (es decir, si usted acaba de analizar las variables en su lugar)?


Actualización: he dejado un montón de la pregunta original porque quería sólo se centran en la idea de que un ejemplo sencillo podría ser creado que sería inmediatamente intuitiva incluso para alguien que fue en gran parte desconocidos con los análisis de agrupamiento. Sin embargo, reconozco que muchos de los clústeres es contingente en la elección de las distancias y los algoritmos, etc. Puede ayudar si puedo especificar más.

Reconozco que de correlación de Pearson es realmente sólo es adecuado para los datos continuos. Para los datos categóricos, se podría pensar en una prueba de chi-cuadrado (por un camino de dos tablas de contingencia) o log-lineal (modelo de multi-forma de tablas de contingencia) como una manera de evaluar la independencia de las variables categóricas.

Para un algoritmo, podemos imaginar el uso de k-medoids / PAM, la cual puede ser aplicado tanto a la continua situación y los datos categóricos. (Tenga en cuenta que, parte de la intención detrás de la continua ejemplo de ello es que cualquier persona razonable en el algoritmo de agrupamiento debe ser capaz de detectar esos grupos, y si no, una más extrema ejemplo, debería ser posible construir.)

Con respecto a la concepción de distancia. Supuse Euclidiana para el continuo ejemplo, porque sería la forma más básica, un ingenuo espectador. Supongo que la distancia a la que es análogo para datos categóricos (en la que sería la más inmediata, intuitiva) sería simple coincidencia. Sin embargo, estoy abierto a las discusiones de otros distancias si que conduce a una solución o simplemente una discusión interesante.

6voto

Uri Puntos 111

Considerar el claro caso de clúster correlacionadas con variables de escala - como la parte superior derecha de la imagen en la pregunta. Y categorizar los datos.

enter image description here

Subdividimos el intervalo de escala de las dos variables X e y en 3 recipientes que de ahora en adelante hemos de tratar de forma categórica las etiquetas. Por otra parte, vamos a declarar nominal, ordinal no, porque la pregunta es, implícitamente, y, principalmente, sobre los datos cualitativos. La spots' es el tamaño de la frecuencia en una frecuencia de la cruz-celda de la tabla; en todos los casos en la misma celda se consideran idénticos.

De forma intuitiva y más en general, los "clusters" se define como coágulos de puntos de datos separados por escasos regiones en los datos de "espacio". Fue inicialmente con los datos de la báscula y se quedan misma impresión en la tabulación cruzada de los datos por categorías. X e y ahora categórica, pero todavía se ven correlacionadas: chi-cuadrado de asociación es muy cercano a cero. Y los grupos que están ahí.

Pero recordemos que estamos tratando con categorías nominales que el orden en la tabla es arbitraria. Podemos reordenar todo filas y/o columnas, como nos gusta, sin afectar a la observada valor de chi-cuadrado. Hacer la reordenación de...

enter image description here

...a conocer que las agrupaciones simplemente desaparecio. Las cuatro celdas, a1, a3, c1 y c3, podría estar unidos en un solo grupo. Así que no, realmente no tiene ningún clusters en los datos categóricos.

Los casos de las celdas a1 y c3 (o igualmente de a3 y c1) son completa-diferente: ellos no comparten la misma attribures. Para inducir a los clusters en nuestros datos - a1 y c3 para formar los clusters - tenemos a vacío, para algunos, en gran medida, de confusión de las celdas a3 y c1, al quitar estos casos del conjunto de datos.

enter image description here

Ahora clusters no existen. Pero al mismo tiempo hemos perdido uncorrelatedness. La diagonal de la estructura mostrada en la tabla de señales de chi-stare estadística se consiguió a partir de cero.

Lástima. Vamos a tratar de preservar uncorrelatedness y más o menos clara de los clústeres en el mismo tiempo. Podemos decidir lo suficientemente vacía justo en la celda a3, por ejemplo, y luego considerar a1+c1 como un grupo que se opone a los clúster c3:

enter image description here

Esa operación no traer Chi-cuadrado de cualquier lejos de cero...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

...pero la situación con los grupos está confundido. Clúster a1+c1 contiene los casos que en parte idénticos, en parte a la mitad-diferente. Que un clúster es relativamente baja homogéneo en sí mismo no es un impedimento para una estructura de cluster en un conjunto de datos. Sin embargo, el problema con los nuestros, los datos categóricos es que la categoría a1+c1 es de ninguna manera mejor de cluster c1+c3, su simétrico analógica. Eso significa que la solución de clúster es inestable - dependerá de lo que en el caso de la orden en el conjunto de datos. Una solución inestable, incluso es relativamente clara "agrupado", es una mala solución, poco fiable.

La única manera de superar el problema y hacer una solución clara y estable será para desatar la celda c3 desde la celda c1 mediante el movimiento de sus datos a continuación en la celda b3 (o b2).

enter image description here

Así que tenemos claro clusters a1+c1 vs b3. Pero mira, aquí de nuevo el patrón diagonal muestra y de la chi-cuadrado de la tabla de límites altos por encima de cero.

Conclusión. Es imposible tener dos chi-cuadrado no asociadas las variables nominales y las buenas agrupaciones de los datos de los casos de forma simultánea. Claro y grupos estables implica la inducción de la variable de la asociación.

También es claro que si la asociación está presente - es decir, patrón diagonal existe o alcanzable por la reordenación - entonces clusters debe existir. Esto es debido a que la naturaleza de los datos categóricos ("todo o nada") no permite que la mitad de los tonos y en el límite de las condiciones, por lo tanto la imagen como la de abajo a la izquierda en el OP pregunta no se puede salir con la categórica, nominal de datos.

Me imagino que a medida que más y más variables nominales (en lugar de dos), que se bivariately de la chi-cuadrado no relacionados, nos acercamos a la posibilidad de tener grupos. Pero cero multivariante de la chi-cuadrado, espero que todavía será compatible con clústeres. Que aún debe ser demostrado (no por mí o no en este momento).


Por último, un comentario sobre @Bey respuesta que yo en parte apoyado. He comentado con mis acuerdo en que uno debe primero decidir sobre la distancia métrica y la asociación de medida antes de que él puede poner la pregunta "es la variable de la asociación independiente de los casos de clusters?". Esto es porque no universal de la asociación de medida existen, ni universal estadístico de definición de clústeres. Quisiera agregar, también debe decidir sobre la técnica de clustering. Varios métodos de agrupación en clústeres de manera diferente definir cuáles son los "clusters" son después. Así, toda afirmación puede ser verdadera.

Dicho esto, la debilidad de tal afirmación es que es demasiado amplia. Uno debe tratar de mostrar de forma concreta, si, y donde una elección en la distancia métrica / asociación de medida / cluster método abre la sala de conciliar uncorrelatedness con clusteredness, para datos nominales. Iba a tener en cuenta, en particular, que no todos los muchos proximidad de los coeficientes para los datos binarios sentido con los datos nominales, ya que para los datos nominales, "ambos casos carecen de este atributo" nunca puede ser la base de su similitud.

2voto

sergiol Puntos 129

Como estoy seguro que usted sabe, la correlación es una medida de la relación lineal entre dos variables, no se cómo cerrar los puntos, son el uno al otro. Esto explica la parte superior de cuatro cifras.

Por supuesto, también podría crear gráficos similares para discretos, con un valor real de datos así.

El problema con la más abstracta de las distribuciones, como por ejemplo, $X \in \{A,B,C,D\}$ es que, a diferencia de las variables tomando valores en $\mathbb{R}$, no podemos asumir que la imagen de una categoría de variable aleatoria forma un espacio métrico. De esta automáticamente al $X \subset \mathbb{R}$, pero no así cuando tenemos $X$ tomando valores en algunas conjunto arbitrario.

Sería necesario definir una métrica para la categoría de espacio antes de que realmente se puede hablar de la agrupación en clústeres en el sentido geométrico.

1voto

DJohnson Puntos 1347

@ttnphns punto sobre pares vs multivariante de la asociación es bien tomado. Relativa a que es el viejo dicho acerca de la importancia de demostrar la asociación con indicadores simples antes de saltar en un marco multivariante. En otras palabras, si simple pares de medidas de asociación no muestran ninguna relación, se vuelve cada vez más improbable que multivariante de las relaciones de mostrar nada. Digo "cada vez más raro" debido a la renuencia a utilizar la palabra "imposible". Además, yo soy agnóstico en cuanto a la métrica empleada, ya sea un monótona de las correlaciones de Spearman para los datos ordinales, Somer Dde Kendall Tau, polychoric de correlación, el Reshef del MIC, Szelkey la distancia de correlación, lo que sea. La elección de la métrica no es importante en esta discusión.

El original trabajo realizado en la búsqueda latente estructura categórica de la información se remonta a principios de los años 50 y Pablo Lazersfeld, la Columbia sociólogo. Esencialmente, él inventó una clase de variable latente de modelos que se ha visto el desarrollo de una amplia y modificación desde entonces. En primer lugar, con el 60 obra de James Coleman, la U de C economista político, en latente de los votantes de la elección propensiones, seguido por las contribuciones de finales de la década de Clifford Clogg, también un sociólogo, cuya MELISSA software fue el primero disponible públicamente latente clase freeware.

En la década de los 80, los modelos de clase latente se extendió desde las puramente categórica de información para finito de modelos de mezcla con el desarrollo de herramientas tales como Latente de Oro de Estadística de las Innovaciones. Además, el proyecto de Ley de Dillon, un marketing científico, desarrolló un programa de Gauss para el montaje latente discriminante finito de modelos de mezcla. La literatura sobre este enfoque a la colocación de las mezclas de categórica y continuo de información es bastante amplia. No es tan conocido fuera de los campos donde se ha aplicado más ampliamente, por ejemplo, la comercialización de la ciencia, donde estos modelos se utilizan para el consumidor segmentación y agrupación.

Sin embargo, estos finito modelo de mezcla de enfoques para latente de la agrupación y análisis de tabla de contingencia se consideran de la vieja escuela en el mundo de hoy masivo de datos. El estado-of-the-art en la búsqueda de asociación entre un gran conjunto de tablas de contingencia son las descomposiciones disponible a partir de la implementación de tensor de modelos, tales como los desarrollados por David Dunson y otros Bayesians en la universidad de Duke. Aquí está el resumen de uno de sus trabajos, así como un enlace:

Tabla de contingencia análisis de forma rutinaria se basa en el registro de modelos lineales, con latente el análisis de la estructura, proporcionando una alternativa común. Latente los modelos de estructura de conducir a un bajo rango del tensor de la factorización de la función de masa de probabilidad multivariante de datos categóricos, mientras que el registro de modelos lineales lograr la reducción de dimensionalidad a través de la dispersión. Poco se sabe acerca de la relación entre estos conceptos de la reducción de dimensionalidad en los dos paradigmas. Que se derivan de varios los resultados relacionados con el apoyo de un log-lineal de la modelo a la no negativo rango de probabilidad asociado tensor. Motivados por estos resultados, proponemos un nuevo derrumbó Tucker clase de tensor descomposiciones, que el puente existente PARAFAC y Tucker descomposiciones, proporcionando un marco más flexible para parsimonia la caracterización multivariante de datos categóricos. Tomando un Bayesiano enfoque a la inferencia, se ilustran las ventajas de la nueva descomposiciones en las simulaciones y una aplicación funcional de datos sobre discapacidad.

https://arxiv.org/pdf/1404.0396.pdf

0voto

nwinkler Puntos 125

Considerar la distancia de Hamming -- la distancia de Hamming entre dos cadenas de igual longitud es el número de posiciones en las que los símbolos correspondientes son diferentes. A partir de esta definición parece obvio que podemos producir datos para los que hemos grupos basados en la distancia de Hamming, pero no hay correlaciones entre las variables.

Un ejemplo es el siguiente usando Mathematica.

Crear algunos datos categóricos (3 símbolos de largas secuencias de uniforme muestreo aleatorio de 4 caracteres):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

El uso del mosaico de parcelas para la relación entre las variables (probabilidades condicionales para los pares de valores de las diferentes columnas):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

enter image description here

Podemos ver que no existe ninguna correlación.

Encontrar grupos:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Si reemplazamos cada personaje con un número entero que podemos ver en esta gráfica de cómo los grupos son formados con la distancia de Hamming:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

enter image description here

Además la agrupación

Hagamos un gráfico mediante la conexión de las palabras para que la distancia de Hamming es de 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

enter image description here

Ahora vamos a encontrar la comunidad de clusters:

CommunityGraphPlot[nngr]

enter image description here

Comparar el gráfico de clusters con la que se encontró con FindClusters (que se vio obligado a encontrar 3). Podemos ver "bac" es muy central, y "aad" puede pertenecer a la verde clúster, que corresponde al clúster 1 en 3D de la parcela.

Datos de gráfico

Aquí está el borde de la lista de nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: