46 votos

¿Cómo hacer la selección del subconjunto de regresión logística?

Yo soy el ajuste de un binomio familia glm en R, y tengo toda una troupe de variables explicativas, y necesito encontrar el mejor (R-cuadrado como medida está muy bien). Corto de escribir una secuencia de comandos para recorrer al azar diferentes combinaciones de las variables explicativas y, a continuación, la grabación que realiza el mejor, yo realmente no sé qué hacer. Y el leaps función de paquete de saltos no parece hacer de regresión logística.

Cualquier ayuda o sugerencia será muy apreciada Leendert

28voto

Zizzencs Puntos 1358

Paso a paso y "todos los subconjuntos de" métodos son generalmente malas. Consulte Detención paso a paso: ¿por Qué paso a paso los Métodos son Malos y lo que usted Debe Utilizar por David Cassell y yo (nosotros hemos utilizado SAS, pero la lección se aplica) o Frank Harrell modelos de Regresión de Estrategias. Si usted necesita un método automático, recomiendo LAZO o LAR. Un LAZO paquete de regresión logística está disponible aquí, otro artículo interesante es en la iteración del LAZO para la logística

15voto

Mike Moore Puntos 641

Primero de todo $R^2$ no es un caso de bondad de ajuste de medida para la regresión logística, tomar un criterio de información $AIC$ o $BIC$, por ejemplo, como una buena alternativa.

La regresión logística se estima por el método de máxima verosimilitud, por lo leaps no se utiliza directamente aquí. Una extensión de leaps a glm() funciones es la bestglm paquete (como generalmente recomendación sigue, consulte con viñetas).

Usted puede estar interesado en el artículo de David W. Hosmer, Borko Jovanovic y Stanley Lemeshow Mejores Subconjuntos de Regresión Logística // Biometría Vol. 45, Nº 4, (Dic., 1989), pp 1265-1270 (generalmente accesibles a través de las redes universitarias).

6voto

Boris Tsirelson Puntos 191

Una idea sería utilizar un bosque aleatorio y luego utilizar las medidas de importancia variable, salidas para elegir las mejores 8 variables. Otra idea sería utilizar el paquete de "boruta" repetir este proceso unos cientos de veces para encontrar las 8 variables que son consistentemente más importantes para el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: