7 votos

La minería de búsqueda de registros para mejorar las sugerencias de autocompletar?

Tengo registros de un formulario autocompletar, que me gustaría aprovechar para aumentar la inteligencia de los resultados que devuelve.

Tengo un proyecto que gira en torno a los usuarios la selección de la ópera de caracteres a partir de una base de datos de alrededor de 15.000 caracteres únicos. Mi dificultad es que cada personaje que aparece en la base de datos como un solo nombre, pero también puede ser conocida para el público a través de cualquier número de otros nombres coloquiales.

He tenido la suerte de recibir una modesta cantidad de tráfico, y actualmente tiene ~20,000 filas de troncos de cadenas que mis usuarios se han escrito y de la ópera de carácter terminaron la selección.

Si un usuario no encuentra el personaje que están buscando con su primera cadena, que a menudo tratan al personaje por otro nombre. Cuando tienen éxito, estos datos se correlaciona los caracteres de los nombres coloquiales con el personaje en sí. Tengo la esperanza de aprovechar estos datos para que mi formulario autocompletar para el partido contra estas coloquial nombres.

Por desgracia, junto con el útil de las correlaciones no son muchos (tal vez más) al azar correlaciones. A menudo, cuando un usuario intente(s) no devolver el resultado que están buscando, en lugar de tratar al personaje por otro nombre, simplemente se trate (y localizar) un carácter completamente diferente.

He leído una serie de ponencias sobre el tema de la utilización de los registros de búsquedas para mejorar el lenguaje natural de las consultas de búsqueda, pero ninguno de los métodos que parecen tener mucha aplicación en este caso estrecho.

Hay métodos conocidos que podrían ser útiles para esta aplicación?

Mi proyecto se puede consultar en http://fachme.com

3voto

maksim-s Puntos 6

es una cuestión de ordenar las correlaciones basadas en la significación estadística, y la generación de suficientes datos en el tiempo para definir ese significado. el ruido aleatorio en las correlaciones) se filtran a medida que más gente busca, y se correlacionan, términos y personajes.

auto-completar debería devolver la parte superior de n resultados como un usuario está entrando en su consulta. inicialmente, es posible que muestre 5 coloquial correlaciones y 5 aleatoria correlaciones (si n=10). estas correlaciones probablemente será ponderada de las mismas en el principio sólo puede haber una correlación por cada término en su base de datos (que puede mostrar en orden alfabético o de forma aleatoria a los usuarios). su correlaciones va a construir significado a través del tiempo a medida que los usuarios naturalmente seleccionar la más adecuada de las sugerencias de autocompletar. mientras esto sucede, el menos significativo (lea: random) correlaciones se hundirá en el fondo, lo que refuerza la importancia de las personas en la cima, ya que se vuelven relativamente más visible para los usuarios.

tenga en cuenta que no hay ningún acceso directo a la significación estadística. por su naturaleza, requiere de un gran conjunto de la muestra a existir en primer lugar.

2voto

Pankaj Kumar Puntos 150

Interesante proyecto. La técnica que viene a la mente mi mente es la asociación de minería de datos.

Esta técnica puede detectar automáticamente muchos patrones en los datos de este tipo. Se utiliza a menudo en el comercio minorista de investigación de mercado, donde la pregunta es "Si un comprador compró 10 productos, que ellos fueron adquiridos "juntos" y que acaba de pasar a estar en la misma canasta?" Por ejemplo, si todo el mundo está vendajes y anti-bióticos pomada juntos, entonces yo podría poner los productos uno al lado del otro en la tienda.

El inconveniente es que esta técnica no puede capturar la información temporal de los datos, ya que sólo se ve en la cesta de consultas de búsqueda realizadas por un usuario, no su fin.

Yo no sé mucho acerca de la minería de datos temporales, pero tal vez alguien que no puede sugerir una forma temporal de la asociación de minería de datos?

2voto

DEfusion Puntos 2793

Hay una medida de similitud que se puede utilizar para los nombres de los personajes? Además de eso, creo que usted va a necesitar algún tipo de información aquí: Básicamente, usted necesita para probar o refutar cada una de correlación (aquí: equivalencia) que usted está asumiendo a partir de los datos.

Imagine que un usuario entra en Un' para encontrar carácter de Unay, a continuación, B' para encontrar carácter B. Si se supone que A' = B', usted necesita para probar o refutar esto. Por qué no presentar el siguiente usuario que está buscando a B " el carácter de Una primera? Y, viceversa, presente un usuario que busca un' a la B, como resultado de la opción. Esto, además de algunas de aprendizaje de la máquina/técnicas de clustering me temo que no puedo decir mucho al respecto, debe ayudar a resolver el problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X