9 votos

En busca de datos 2D artificiales demostrar propiedades de los algoritmos de clustering

Estoy buscando para conjuntos de 2 dimensiones de puntos de datos (cada punto de datos es un vector de dos valores (x,y)) después de diferentes distribuciones y formas. El código para generar este tipo de datos también sería útil. Quiero usar a la parcela / visualizar cómo algunos algoritmos de clustering realizar. Aquí están algunos ejemplos:

8voto

DavLink Puntos 101

R viene con un montón de conjuntos de datos, y parece que no sería un gran problema para reproducir la mayoría de los ejemplos que citó con pocas líneas de código. Usted también puede encontrar las mlbench paquete de útiles, en particular sintéticas conjuntos de datos de partida con mlbench.*. Algunos ejemplos se dan a continuación.

enter image description here

Encontrará otros ejemplos mirando el Clúster de la Vista de Tareas en CRAN. Por ejemplo, el fpc paquete tiene incorporado un generador de "cara" en forma de clúster de referencia de los conjuntos de datos (rFace).

enter image description here

Consideraciones similares se aplican a Python, donde encontrará interesantes pruebas de referencia y bases de datos para la agrupación con la scikit-learn.

La UCI Machine Learning Repository alberga una gran cantidad de conjuntos de datos , pero es mejor que la simulación de los datos usted mismo con el idioma de su elección.

7voto

Xenph Yan Puntos 20883

Estos son algunos conjuntos de datos diseñado exactamente para esta tarea:

La Suite de problema agrupamiento Fundamental de Ultsch

5voto

Amadiere Puntos 5606

ELKI viene con un par de conjuntos de datos (verificar también la unidad de pruebas, contienen muchos más que aquellos en el sitio web, junto con la configuración de los parámetros).

También incluye un generador de datos bastante flexible.

2voto

sammyo Puntos 245

No puedo creer que nadie ha mencionado los datos Iris de Fisher.

Creo que no he visto una técnica de agrupamiento que no utilizan los datos del iris como un ejemplo.

En r, solo tipo "iris" para acceder a los datos.

Este es un ejemplo de una trama de iris bonito (y típico): http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

1voto

mtinberg Puntos 1435

Aquí es un generador de clúster configurable. Se dirige sólo a cierta clase de conjuntos de datos, pero seguramente puede ser utilizado para las investigaciones de algoritmo de cluster.

Aquí está un ejemplo del tipo de grupos puede crear:

http://i.stack.imgur.com/vrCG5.png

Afiliación de grupo se guarda en un archivo de texto. El código es open source bajo licencia MIT.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X