12 votos

Selección De Modelo: Regresión Logística

Supongamos que tenemos $n$ covariables $x_1, \dots, x_n$ y un resultado binario variable $y$. Algunas de estas variables son categóricas con múltiples niveles. Otros son continuas. Cómo elegir el "mejor" modelo? En otras palabras, ¿cómo elegir el que covariables a incluir en el modelo?

Le modelo de $y$ con cada una de las covariables de forma individual mediante regresión logística simple y elegir aquellos con una asociación significativa?

9voto

Brettski Puntos 5485

Hay muchas maneras de elegir qué variables van en un modelo de regresión, algunos decentes, algunas malas, y algunas terribles. Uno puede simplemente navegar por las publicaciones de la Lijadora de Groenlandia, muchos de los cuales preocupación de selección de variables.

Generalmente hablando, sin embargo, tengo algunas "reglas":

  • Algoritmos automatizados, como los que vienen en los paquetes de software, son probablemente una mala idea.
  • Utilizando el modelo de las técnicas de diagnóstico, como gung sugiere, son un buen medio para evaluar la variable de selección de opciones
  • También debe ser el uso de una combinación de experiencia en el tema, la literatura búsquedas de los usuarios, dirigidos acíclicos gráficos, etc. para informar a la variable de selección de opciones.

2voto

guest Puntos 1851

Cómo elegir el "mejor" modelo?

No hay suficiente información proporcionada para responder a esta pregunta; si usted desea conseguir en los efectos causales sobre y deberá implementar las regresiones que reflejan lo que se conoce acerca de la confusión. Si usted desea hacer la predicción, AIC sería un enfoque razonable.

Estos enfoques no son los mismos; el contexto determinará a cual de los (muchos) formas de elección de variables que van a ser más o menos adecuada.

2voto

Sean Hanley Puntos 2428

Este no es probablemente una buena cosa que hacer. Buscando en cada una de las covariables en primer lugar, y luego la construcción de un modelo con aquellos que son significativos es lógicamente equivalente a una búsqueda automática de procedimiento. Si bien este enfoque es intuitivo, las inferencias hechas a partir de este procedimiento no son válidos (p. ej., los verdaderos valores de p son diferentes de los reportados por software). El problema se magnifica el más grande es el tamaño del conjunto inicial de variables de control. Si usted hace esto de todos modos (y, por desgracia, muchas personas lo hacen), no puede tomar el modelo resultante en serio. En su lugar, usted debe ejecutarse en un completamente nuevo estudio, la recopilación de una muestra independiente y ajuste que el modelo anterior, para probarlo. Sin embargo, esto requiere una gran cantidad de recursos, y por otra parte, dado que el proceso está viciado y el modelo anterior es probable que un pobre, hay una fuerte posibilidad de que no se puede sostener, es decir, que es probable que los residuos de una gran cantidad de recursos.

Una mejor manera es evaluar los modelos de sustantivos de interés para usted. A continuación, utilice un criterio de información que penaliza el modelo de flexibilidad (como el AIC) para adjudicar entre los modelos. Para la regresión logística, la AIC es: $$ AIC = -2\times\ln(\text{probabilidad}) + 2k $$

donde $k$ es el número de covariables incluidas en el modelo. Usted desea que el modelo con el menor valor de AIC, todas las cosas en igualdad de condiciones. Sin embargo, no es siempre tan simple, que ser precavidos a la hora de varios modelos tienen valores similares para la AIC, a pesar de que puede ser más bajo.

Me incluir la fórmula completa de la AIC aquí, ya que las diferentes salidas de software diferentes tipos de información. Puede que tenga que calcular sólo la probabilidad, o usted puede conseguir el final de la AIC, o cualquier otra cosa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: