6 votos

¿Cómo maneja la regresión logística "con elegancia" las clases desequilibradas?

Frank Harrell en este interesante post del blog "la Clasificación frente Predicción" señala que el uso de un muestreo estratificado para manejar desequilibrada clases es una mala idea, ya que un clasificador entrenado en un artificialmente sesgada conjunto de datos, a continuación, hacer mal en el mundo real del conjunto de datos, que será distribuido de manera diferente a partir de los datos de entrenamiento.

Entonces él se establece que:

La regresión logística en la otra mano elegantemente controla esta situación, ya sea (1) tener como predictores las variables que hizo la prevalencia tan baja, o (2) calibrar la intersección (sólo) por otro conjunto de datos con mucha mayor prevalencia.

Estoy teniendo un harding digerir este, específicamente la idea de que la regresión logística se encarga de esto con elegancia:

  • ¿Qué quiere decir en (1): Si una enfermedad es muy raro cómo, podemos incluir que como una característica? O ataques maliciosos en una red son muy raros en comparación con legítimo inicios de sesión, ¿cómo que se incluye como una característica?

  • En (2): no volver a calibrar el intercepto en una regresión logística simplemente la cantidad a jugar con la clasificación de umbral de lo que puede lograrse con todo tipo de clasificación binaria de los métodos (y se consigue de forma implícita por empuje el conjunto de datos de entrenamiento) ?

  • Por otra parte, no es el sesgo introducido al clasificador un resultado deseable, dado que nuestro propósito es detectar los casos raros (en términos de la precisión/recuperar el equilibrio) ?

7voto

icelava Puntos 548
  • No, No podemos incluir la prevalencia de la característica. Después de todo, esto es exactamente lo que estamos tratando de modelo!

    Lo FH quiere decir aquí es que si hay características que contribuyen a la prevalencia de la de destino, estos se han apropiado de parámetros estimados en la regresión logística. Si una enfermedad es extremadamente rara, la intersección será muy pequeño (es decir, negativo con un gran valor absoluto). Si un predictor aumenta la prevalencia, entonces este predictor de la estimación del parámetro será positivo. (Predictores podría incluir, por ejemplo, un gen de la SNP, o el resultado de un análisis de sangre).

    El resultado final es que la regresión logística, si el modelo está correctamente especificado, le dará la probabilidad correcta para una nueva muestra de la clase de destino, incluso si el objetivo de la clase es, en general, muy raro. Esto es como debe ser. La parte estadística del ejercicio termina con una predicción probabilística. Qué decisiones deben ser tomadas con base en esta predicción probabilística es un asunto diferente, que debe tener costos de las decisiones en cuenta.

  • No, no hay ningún umbral involucrados en la regresión logística. (Ni en cualquier otro modelo probabilístico.) Por encima de un umbral (o varios !) puede ser usada más tarde, en el pesaje de la predicción probabilística contra los costos.

    Nota el contexto en el que la FH se analiza la re-estimación de la intersección: es uno de sobremuestreo para abordar raras resultados. La corrección puede ser utilizado en la regresión logística. Un primer ajuste de un modelo a una muestra de que sobremuestrea la rara resultado que nos interesa. Esto nos da un parámetro útil estimados para los predictores tenemos en el modelo, pero el intercepto coeficiente será sesgada de alta. Luego, en un segundo paso, se puede concretar el predictor estimaciones de los parámetros y volver a calcular el intercepto coeficiente sólo por el montaje del modelo para el total de la muestra.

  • FH y yo diría que no, no debemos objetivo para una precisión/recuperar el equilibrio. En su lugar, se debe apuntar para bien calibrado predicciones probabilísticas, que luego pueden ser utilizados en una decisión que, junto con el, y estoy repitiendo, las consecuencias de la mala clasificación y otros misdecisions. Y como una cuestión de hecho, esto es exactamente lo que la regresión logística. No le importa en absoluto acerca de la precisión o la destitución. Lo que le preocupa es la probabilidad. Que es otra manera de mirar a un modelo probabilístico. Y no, el sesgo no es un rasgo deseable en este contexto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: