42 votos

¿Cuál es la significación de los coeficientes de regresión logística?

Actualmente estoy leyendo un papel sobre de votación y el voto de preferencia en el 2000 y 2004 de la elección. En ella, hay un gráfico que muestra los coeficientes de regresión logística. A partir de los cursos de años atrás y un poco de lectura, entiendo regresión logística para ser una manera de describir la relación entre varias variables independientes y una variable respuesta binaria. Lo que me confunde es que, dada la siguiente tabla, debido a que el Sur tiene un coeficiente de regresión logística de .903, eso no significa que un 90,3% de los Sureños votar por los republicanos? Debido a la logística de la naturaleza de la métrica, que esta correlación directa no existe. En lugar de eso, supongo que solo se puede decir que el sur, con .903, los votos Republicanos más de las Montañas/llanuras, con la regresión de .506. Dado el último, de ser el caso, ¿cómo puedo saber qué es importante y qué no lo es y es posible extrapolar un porcentaje de votos republicanos dado este coeficiente de regresión logística. Table showing logistic regression coefficients

Como una nota del lado, por favor, edite mi post si nada se indica incorrectamente

35voto

dmk38 Puntos 1066

Que el autor ha forzado a alguien amable que usted tenga una pregunta como este es buen ejemplo de por qué la práctica, todavía de manera muy común, del confinamiento de los informes de resultados del modelo de regresión a una tabla como esta es tan inaceptable.

  1. Usted puede, como se ha señalado, tratamos de transformar el logit coeficiente en algunos significativos indicación del efecto estimado para el predictor en cuestión, sino que es engorroso y no transmitir información acerca de la precisión de la predicción, que suele ser bastante importante en un modelo de regresión logística (en la votación en particular).

  2. También, el uso de varios asteriscos para informe "niveles" de significado refuerza la idea de que los valores de p son algunos significativos índice del tamaño del efecto ("wow-que uno tiene 3 asteriscos!!"); para llorar en voz alta, s/ N, de 10.000 a 20.000, completamente trivial diferencias será "significativo" en p < .001, bla, bla.

  3. No hay absolutamente ninguna necesidad para mistificar de esta manera. El modelo de regresión logística es una ecuación que puede ser utilizado (a través de determinado cálculo o, mejor aún, de la simulación) para predecir la probabilidad de un resultado condicionado a los valores especificados para los predictores, sujeto a errores de medición. Así que el investigador informe cuál es el impacto de los factores predictivos de interés están en la probabilidad de que la variable de resultado de interés, y asociada a la CI, como se mide en unidades de la importancia práctica de lo que puede ser fácilmente comprendido. Para asegurar listo para agarrar, los resultados se muestran gráficamente. Aquí, por ejemplo, el investigador podría informar de que el ser rural frente al urbano votantes aumenta la probabilidad de votar por los Republicanos, todo lo demás igual, por X pct puntos (supongo que alrededor de las 17 en el año 2000; "dividir por 4" es razonable heurística) +/- x% en 0.95 nivel de confianza, si eso es algo que es útil conocer.

  4. La presentación de informes de pseudo R^2 es también un signo de que el modelador se dedica en estadística ritual en lugar de cualquier intento de iluminar. Hay decenas de maneras de calcular la "pseudo R^2"; uno podría quejarse de que el que se usa aquí no se especifica, pero ¿por qué molestarse? Todos están al lado de sentido. La única razón por la que cualquier persona utiliza pseudo R^2 es que ellos o el revisor que está torturando a ellos aprendieron (probablemente de 25 o más años atrás) que por MCO de la regresión lineal es el santo grial de estadísticas y piensa que la única cosa que uno siempre está tratando de averiguar es "la varianza explicada." Hay un montón de defendible formas de evaluar la adecuación de la general, el ajuste del modelo para el análisis de regresión logística, y el coeficiente de probabilidad transmite información significativa para la comparación de modelos que reflejan las hipótesis alternativas. Rey, G. Cómo No Mentir con Estadísticas. Am. J. Pol. Sci. 30, 666-687 (1986).

  5. Si usted lee un artículo en el que la presentación de información es más o menos confinada a una tabla como esta no te confundas, no te dejes intimidar, y definitivamente, no te dejes impresionar; en lugar de estar enojado y dijo el investigador que él o ella está haciendo un pésimo trabajo (especialmente si él o ella está contaminando su local de ambiente intelectual w/ misticismo y el temor-increíble cómo muchas completamente mediocre pensadores truco inteligente pensar a la gente que sabe algo sólo b/c que puede producir una tabla en la que este último no puede entender). Inteligente, & templado, exposiciones de estas ideas, véase King, G., Tomz, M. & Wittenberg., J. Hacer la Mayoría de los Análisis Estadísticos: Mejorar la Interpretación y la Presentación. Am. J. Pol. Sci. 44, 347-361 (2000); y Gelman, A., Pasarica, C. & Dodhia, R. Vamos a Practicar Lo que Predicamos: convertir las Tablas en forma de Gráficos. Am. Stat. 56, 121-130 (2002).

19voto

Niall C. Puntos 1234

La idea aquí es que en la regresión logística, no podemos predecir la probabilidad real de que, por ejemplo, un sureño votos Republicanos, pero una nueva versión de la misma, el "registro de probabilidades". En lugar de la probabilidad p$$, tenemos que hacer con $\log p/(1-p)$ y encontrar lineal de los coeficientes de regresión de las posibilidades de registro.

Así, por ejemplo, vamos a suponer que un urbano Northeasterner ha probabilidad de 0.3 de votar por un Republicano. (Este sería, por supuesto, parte de la regresión; yo no lo veo reportados en esta tabla, aunque supongo que en el documento original.) Ahora, $x = 1/(1+e^{-z})$ da $z = \log {x \a más de 1-x}$; es decir, $f^{-1}(x) = \log {x \a más de 1-x}$, "las probabilidades de registro" correspondiente a $x$. Estas "posibilidades de registro" se lo que se comporta de manera lineal; las probabilidades de registro correspondiente a $0.3$ $\log 0.3/0.7 \aprox -0.85$. Así que las probabilidades de registro para un urbano Sureño votar por los Republicanos son de este (lo que Wikipedia se llama a la intersección, $\beta_0$) más el coeficiente de regresión logística para el Sur, $0.903$ -- $-0.85 + 0.904 = 0.05$. Pero usted quiere una real probabilidad, por lo que debemos invertir la función $p \a \log p/(1-p)$. Que da a $f(0.05) \aprox 1/(1+e^{-0.05}) \aprox 0.51$. Las posibilidades reales han pasado de $0.43$ a $1$, $1.05$ a $1$; la relación $1.05/0.43$ es $e^{0.903}$, la exponencial del coeficiente de regresión logística.

Además, los efectos, por ejemplo, en la región de el país y urbano/interurbano/rural no interactúan. Así que las probabilidades de registro de un rural Midwesterner votar por los Republicanos, dicen, son $-0.85 + 0.37 + 0.68 = +0.20$ según este modelo, la probabilidad es de $f(0.20) = 1/(1+e^{-0.20}) = 0.55$.

6voto

Factor Mystic Puntos 12465

Los coeficientes de la regresión logística representan la tendencia de una determinada región o demográficos a votar por los Republicanos, en comparación con una categoría de referencia. Un positivo coefficent significa que la región es más propensos a votar por los Republicanos, y viceversa para un coeficiente negativo; un mayor valor absoluto significa una fuerte tendencia de un valor menor.

Las categorías de referencia son "Noreste" y "urbano votante", por lo que todos los coeficientes representan contrasta con este particular votante tipo.

En general, también existe ninguna restricción en cuanto a los coeficientes de regresión logística para estar en [0, 1], aunque en valor absoluto. Aviso de que el artículo de la Wikipedia tiene en sí misma un ejemplo de una regresión logística con los coeficientes de -5 y 2.

5voto

curiousguy Puntos 81

Permítanme subrayar la importancia de lo que rolando2 y dmk38 tanto, señaló: significado es comúnmente confundida, y hay un alto riesgo de que eso ocurra con la presentación tabular de los resultados.

Pablo Schrodt recientemente ofreció una buena descripción del problema:

Los investigadores encuentran que es casi imposible que se adhieran a la correcta interpretación de la significación de la prueba. El p-valor indica sólo la probabilidad de que se obtendría un resultado en la [generalmente] totalmente irreal condiciones de la hipótesis nula. Que no es lo que quieres saber-normalmente se desea conocer la magnitud del efecto de una variable independiente, a la vista de los datos. Eso es un Bayesiano pregunta, no una frecuentista pregunta. En lugar de eso vemos-constantemente-el p-valor se interpreta como si se le daba a la fuerza de la asociación: este es el omnipresente Culto Místico de las Estrellas y los P-Valores que impregna nuestras revistas.(fn) Esto no es lo que el valor-p dice, ni lo hará nunca.

En mi experiencia, este error es casi imposible de evitar: incluso muy cuidadoso de los analistas que son plenamente conscientes de que el problema a menudo el interruptor de modos a la hora de discutir verbalmente sus resultados, incluso si han evitado el problema en un escrito de la exposición. Y vamos ni siquiera especular sobre las miles de horas y litros de tinta que ha gastado la corrección de este curso de postgrado papeles.

(fn) de La nota de pie de página también se informa en otro tema, mencionó por dmk38: "[el omnipresente Culto Místico de las Estrellas y los Valores de P] sustituido a la anterior e igualmente penetrante-Culto de la más alta R2, demolición... por Rey (1986)."

5voto

pauly Puntos 932

También se preguntó "¿cómo puedo saber qué es importante y qué no lo es." (Supongo que te refieres estadísticamente significativa, ya que la práctica o de fondo el significado es otro asunto.) Los asteriscos en la tabla se refieren a la nota de pie de página: algunos efectos se observó como tener pequeños p-valores. Estos se obtienen mediante un test Wald de la importancia de cada coeficiente. Suponiendo muestreo aleatorio, p<.05 significa que, si no existiera tal efecto en la población más grande, la probabilidad de ver una conexión tan fuerte como el observado, o más fuerte, en una muestra de este tamaño sería de menos a más .05. Vas a ver muchos hilos en este sitio discutiendo las sutiles pero importantes relacionados con el punto de que p<.05 hace no quiere decir que no es una .05 probabilidad de que no hay conexión en la población más grande.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: