38 votos

Aplicación de métodos de aprendizaje automático en StackExchange sitios web

Tengo una Máquina de Aprendizaje del curso este semestre y el profesor nos pidió a encontrar un mundo real problema y resolverlo por uno de los métodos de aprendizaje automático que se introdujo en la clase, como:

Yo soy uno de los fans de stackoverflow y stackexchange y saber volcados de base de datos de estos sitios web son proporcionados a los ciudadanos porque son impresionantes! Espero que me podría encontrar una buena máquina el reto del aprendizaje acerca de estas bases de datos y resolverlo.

Mi idea

Una idea llegó a mi mente es la predicción de las etiquetas para las preguntas con base en las palabras, en la cuestión del cuerpo. Creo que la red Bayesiana es la herramienta adecuada para el aprendizaje de etiquetas para una pregunta, pero necesita más investigación. De todos modos, después de la fase de aprendizaje cuando el usuario termina de entrar en la cuestión algunas de las etiquetas debe ser sugerido a él.

Por favor, dime:

Quiero pedir a las estadísticas de la comunidad como a personas con experiencia sobre ML dos preguntas:

  1. ¿Crees sugerencia de etiqueta es, al menos, un problema que tiene alguna posibilidad de solucionar? ¿Tienes algún consejo al respecto? Estoy un poco preocupado porque stackexchange no implementa esta característica todavía.

  2. ¿Tienes alguna otra/mejor idea para el ML proyecto que se basa en stackexchange de la base de datos? Me resulta realmente difícil encontrar algo para aprender de stackexchange bases de datos.


La consideración acerca de los errores de base de datos: Me gustaría señalar que, aunque las bases de datos son enormes y tienen muchos casos, no son perfectos y se pode a error. La más obvia es la edad de los usuarios que no es fiable. Incluso etiquetas seleccionadas para la cuestión no está 100% correcto. De todos modos, se debe considerar el porcentaje de exactitud de los datos en la selección de un problema.

Consideración sobre el problema en sí: Mi proyecto no debe ser acerca de la data-mining o algo así. No sólo debe ser una aplicación de ML métodos en el mundo real.

28voto

giulio Puntos 166

, creo que la etiqueta de predicción es muy interesante y uno de los que tiene un buen tiro en el "éxito".

A continuación están algunas ideas pretende potencialmente ayudar en el intercambio de ideas y la exploración de este tema. Yo creo que hay muchas potencialmente interesantes las direcciones que este proyecto podría tomar. Me imagino que un intento serio en sólo uno o dos de los siguientes sería un más que adecuado del proyecto y es muy probable que venga con preguntas más interesantes que las que me he planteado.

Me voy a tomar una muy amplia visión de lo que se considera el aprendizaje de máquina. Sin duda, algunas de mis sugerencias sería mejor clasificado como análisis exploratorio de datos y más tradicionales de análisis estadístico. Pero, tal vez, ayudará de alguna manera a formular sus propias preguntas interesantes. Tenga en cuenta, trato de abordar las cuestiones que creo que sería interesante en términos de la mejora de la funcionalidad del sitio. Por supuesto, hay muchas otras preguntas interesantes, así que no puede ser que los relacionados con el sitio de la amistad.

  1. Básicos del análisis descriptivo del comportamiento de los usuarios: estoy suponiendo que hay una muy clara cíclicos semanales patrón para la participación de los usuarios en este sitio. Cuando el sitio de obtener más tráfico? ¿Qué hace el gráfico de la participación de los usuarios en el sitio, como, por ejemplo, estratificado por hora durante la semana? Te gustaría ajustar por posibles cambios en el total de la popularidad del sitio a través del tiempo. Esto lleva a la pregunta, ¿cómo ha sido la popularidad de su sitio cambiado desde el inicio? ¿Cómo funciona la participación de un usuario "normal" varía con el tiempo desde que se unió? Supongo que las rampas con bastante rapidez en el inicio, luego mesetas, y, probablemente, se dirige al sur, después de un par de semanas o de adhesión.
  2. Óptima presentación de preguntas y respuestas: Obtener una visión sobre la primera pregunta, parece conducir naturalmente a algunos de los más interesantes (en un ML sentido) preguntas. Decir que tengo una pregunta que necesita una respuesta. Si quiero maximizar mi probabilidad de obtener una respuesta, cuando debo presentar? Si estoy respondiendo a una pregunta y quiero que para maximizar el recuento de votos, cuando debo enviar mi respuesta? Tal vez las respuestas a estas dos son muy diferentes. ¿Cómo este varía por el tema de la pregunta (decir, por ejemplo, definido por las etiquetas asociadas)?
  3. Biclustering de usuarios y temas: Qué usuarios son los más similares en términos de sus intereses, de nuevo, tal vez como medido por las etiquetas? ¿Qué temas son los más similares, según la cual los usuarios participan? Usted puede venir para arriba con una buena visualización de estas relaciones? Reflejo de esto sería la de tratar de predecir qué usuario(s) es más probable para presentar una respuesta a una pregunta en particular. (Imaginar proporcionar dicha tecnología en SÍ, de modo que los usuarios pueden ser notificados de potencialmente interesantes preguntas, no se basan simplemente en las etiquetas.)
  4. La agrupación de ms responden por comportamiento: parece que hay un par de diferentes patrones de comportamiento con respecto a cómo ms responden a utilizar este sitio. Puede usted venir con características y un algoritmo de agrupamiento en clúster ms responden de acuerdo a su comportamiento. Son los clusters interpretable?
  5. Lo que sugiere nuevas etiquetas: Puedes venir con sugerencias para nuevas etiquetas basadas en la inferencia de los temas de las preguntas y respuestas en la actualidad en la base de datos. Por ejemplo, creo que la etiqueta [mezcla-modelo] recientemente se ha añadido porque alguien notó que estábamos haciendo un montón de preguntas relacionadas. Pero, parece que una búsqueda de información enfoque debe ser capaz de extraer dichos temas directamente y, potencialmente, sugiero a los moderadores.
  6. Semisupervised aprendizaje de las ubicaciones geográficas: (Este puede ser un poco delicado desde una perspectiva de privacidad.) Algunos usuarios de la lista donde están ubicados. Otros no lo hacen. El uso de patrones de uso y, potencialmente, vocabulario, etc, se puede poner un geográficos de la región de confianza en la ubicación de cada usuario? Intuitivamente, parecería que esto sería mucho más preciso en términos de la longitud de la latitud.
  7. Automatizado de abanderamiento de posibles duplicados y altamente preguntas relacionadas con: El sitio ya tiene una clase similar de la entidad con los Relacionados con la barra en el margen derecho. Encontrar casi duplicados exactos y sugiriendo que podría ser útil a los moderadores. Hacer esto a través de los sitios de la SE de la comunidad parece ser nuevo.
  8. El Churn de la predicción y la retención de usuarios: con las características de cada usuario la historia, se puede predecir la próxima vez que usted espera ver en ellos? Se puede predecir la probabilidad de que vuelva al sitio condicional en el tiempo que he estado ausente y características de su comportamiento pasado? Esto podría ser utilizado, por ejemplo, para intentar aviso cuando los usuarios están en riesgo de "batir" y participar en ellos (por ejemplo, a través de correo electrónico) en un esfuerzo para retener a ellos. Un enfoque típico disparar un correo electrónico después de algún periodo de inactividad. Pero, cada usuario es muy diferente y hay un montón de información sobre muchos de los usuarios, por lo que un enfoque más personalizado podría ser desarrollado.

9voto

pirho Puntos 1387

Estaba pensando acerca de la etiqueta de la predicción, demasiado, me gusta la idea. Tengo la sensación de que es posible, pero usted puede necesitar para superar muchos de los problemas antes de llegar a su conjunto de datos final. Por lo que especulan que la etiqueta de predicción puede necesitar un montón de tiempo. Además de las etiquetas incorrectas el límite de un máximo de 5 etiquetas pueden jugar un papel. También que algunas etiquetas son subcategorías de otros (por ejemplo, "comparaciones múltiples" puede ser visto como una subcategoría de "pruebas de significación").

Yo no comprobar si el voto veces se incluyen en la descarga de la base de datos, pero más simple y que sigue siendo interesante proyecto podría ser de predecir el "final" número de votos (tal vez después de 5 meses) en una pregunta dependiendo de la inicial de los votos, y el momento de la aceptación de una respuesta.

2voto

Nick Klauer Puntos 2837

Esta es una buena pregunta. Yo también he pensado que la disponible públicamente StackExchange datasets hacer buenos temas para el análisis. Estos son lo suficientemente inusual que también podría ser buen banco de pruebas para los nuevos métodos estadísticos. Tener una gran cantidad de datos estructurados es inusual, en cualquier caso.

el cardenal propuso un montón de cosas que en realidad sería útil para StackExchange. No voy a restringir a mí mismo a este.

Aquí es un candidato obvio para el análisis, aunque no tiene nada de uso obvio que viene a la mente. Es un efecto notable que la alta representante de los usuarios son más propensos a obtener upvotes, en igualdad de condiciones. Sin embargo, este efecto probablemente no trivial para el modelo. Ya que no podemos comparar la utilidad a través de los usuarios muy fácilmente, una solución obvia sería asumir un usuarios respuestas siempre fueron igual de útil (no es cierto en general, pero uno tiene que empezar en alguna parte) y, a continuación, agregue un inflacionario término para dar cuenta de su creciente reputación. Uno podría entonces (supongo) añadir en algunos de los términos que representan sus respuestas cada vez mejor con el aumento de la experiencia. Tal vez esto podría ser manejado por algún tipo de series de tiempo. No estoy seguro de cómo los datos de intervalo afectaría esto. Podría ser un ejercicio interesante.

Voy a añadir más ejemplos si/cuando pienso en ellos.

Es alguien consciente de estadística trabajos de investigación basados en la SE de datos? También, Isaac se menciona que los datos tienen errores. ¿Alguien sabe algo más sobre esto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X