4 votos

¿Es allí cualquier diferencia entre supervisión distante, autoformación, auto supervisado aprendizaje y débil supervisión?

Por lo que he leído:


Supervisión distante:

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

La auto-formación:

enter image description here


Auto-aprendizaje (Yates, Alejandro, et al. "Textrunner: abierto de extracción de información en la web." Actas de las Tecnologías del Lenguaje: La Conferencia Anual de la North American Capítulo de la Asociación de Lingüística Computacional: las Manifestaciones. Association for Computational Linguistics, 2007.):

El Alumno opera en dos pasos. En primer lugar, automáticamente las etiquetas de sus propios datos de entrenamiento como positivo o negativo. Segundo, se utiliza este la etiqueta de datos para entrenar un clasificador Naive Bayes.


Debilidad de la Supervisión (Hoffmann, Rafael, et al. "El conocimiento basado en la debilidad de la supervisión para la extracción de información de la superposición de las relaciones". Actas de la 49a Reunión Anual de la Association for Computational Linguistics: las Tecnologías del Lenguaje-Volumen 1. Association for Computational Linguistics, 2011.):

Un enfoque más prometedor, a menudo llamado "débil" o "distante" supervisión, crea sus propios datos de entrenamiento de forma heurística por la coincidencia de el contenido de una base de datos a texto correspondiente.


Todo suena a lo mismo para mí, con la excepción de que la auto-formación parece ser ligeramente diferente en el que el etiquetado de la heurística es el clasificador entrenado, y hay un lazo entre el etiquetado de fase y el clasificador de la fase de entrenamiento. Sin embargo, Yao, Limin, Sebastian Riedel, y Andrew McCallum. "Colectiva de la cruz-documento de relación de extracción sin etiquetado de datos." Actas de la Conferencia de 2010 en Métodos Empíricos en el Procesamiento del Lenguaje Natural. Association for Computational Linguistics, 2010. afirman que la supervisión distante == autoformación == debilidad de la supervisión.

También, hay otros sinónimos?

4voto

Sean B. Durkin Puntos 7723

Hay dos aspectos de los diferentes términos que se han dado: 1] el Proceso de la obtención de datos de entrenamiento 2] Algoritmo que entrena a $f$ o el clasificador

El algoritmo que los trenes de $f$, independientemente de cómo los datos de entrenamiento se obtiene es supervisado. La diferencia en la supervisión distante, auto-aprendizaje, auto-supervisado o debilidad de la supervisión, la mentira puramente, a continuación, en la forma en que la capacitación se obtienen los datos.

Tradicionalmente, en cualquiera de aprendizaje de la máquina de papel en el aprendizaje supervisado, se encontrará que el papel implícitamente asume que los datos de entrenamiento disponibles y por lo que vale la pena, se asume generalmente que las etiquetas son precisos, y que no hay ninguna ambigüedad en las etiquetas que se le dan a los casos en los datos de entrenamiento. Sin embargo, con distante/debilidad de la supervisión de los papeles, la gente se dio cuenta de que sus datos de entrenamiento ha imprecisa etiquetas y lo que quieren por lo general, destacan en su trabajo es el de obtener buenos resultados a pesar de la evidente desventaja del uso impreciso de las etiquetas (y pueden tener otras formas algorítmicas para superar el problema de imprecisa etiquetas, por tener más proceso de filtrado, etc. y generalmente los papeles gustaría destacar que estos procesos son importantes y útiles). Esto dio origen a los términos "débil" o "distante" para indicar que las etiquetas de los datos de entrenamiento son imprecisos. Tenga en cuenta que esto no necesariamente un impacto en el aspecto del aprendizaje del clasificador. El clasificador que estos chicos usan supone implícitamente que las etiquetas son precisos y el algoritmo de entrenamiento es casi nunca cambió.

La auto-formación en el otro lado es algo especial en ese sentido. Como ya se ha observado, que obtiene sus etiquetas de su propio clasificador y tiene un poco de un bucle de retroalimentación para la corrección. En general, el estudio de los clasificadores supervisados bajo un poco grande competencia de "inductivo" algoritmos, donde el clasificador aprendido es inductivo de inferencia hecha a partir de los datos de entrenamiento acerca de la totalidad de los datos. La gente ha estudiado otra forma, lo que llamamos como transductive de inferencia, donde un general de la inferencia inductiva no es la salida del algoritmo, pero el algoritmo colectivamente toma de datos de entrenamiento y prueba de datos como entrada y produce las etiquetas en los datos de prueba. Sin embargo, las personas pensamos ¿por qué no utilizar transductive inferencia dentro del aprendizaje inductivo para obtener un clasificador con grandes datos de entrenamiento. Esto es simplemente conocido como inducción con etiqueta de datos [1] y la auto-formación, bajo la.

Con suerte, no tengo más confundido, siéntase libre de comentar y pedir más aclaraciones si es necesario.

[1] Podría ser útil - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: