11 votos

Ridge y el LAZO dada una estructura de covarianza?

Después de leer el Capítulo 3, en el que Elementos de Aprendizaje Estadístico (Hastie, Tibshrani & Friedman), me preguntaba si era posible aplicar la famosa contracción de los métodos citados en el título de esta pregunta dada una estructura de covarianza, es decir, minimizar el (tal vez más general) cantidad $$(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1)$$

en lugar de la habitual $$(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)$$ Esto fue motivado principalmente por el hecho de que en mi particular de la aplicación, tenemos diferentes desviaciones de las $\vec{y}$ (y a veces incluso una estructura de covarianza que puede ser estimada) y me gustaría incluir en la regresión. Lo hice por regresión ridge: al menos con mi implementación en Python/C, veo que hay diferencias importantes en los caminos que los coeficientes de seguimiento, que también es notable cuando se compara la validación cruzada curvas en ambos casos.

Me estaba preparando para intentar aplicar el LAZO a través de Menos Ángulo de Regresión, pero para hacerlo tengo que demostrar primero que todas sus propiedades atractivas todavía son válidos cuando minimizando $(1)$ en lugar de $(2)$. Hasta ahora, no he visto ningún trabajo que en realidad hace todo esto, pero hace algún tiempo también leí una cita que decía algo como "aquellos que no saben que las estadísticas están condenados a volver a ella" (por Brad Efron, tal vez?), así que por eso estoy pidiendo aquí en primer lugar (dado que soy un recién llegado relativo a las estadísticas de la literatura): es este hecho ya en algún lugar de estos modelos? Es implementado en R de alguna manera? (incluyendo la solución y la implementación de la cresta por minimizar $(1)$ en lugar de $(2)$, que es lo que se implementa en la película.ridge código R)?

Gracias de antemano por sus respuestas!

13voto

Nathan Long Puntos 30303

Si sabemos que la descomposición de Cholesky $V^{-1} = L^TL$, dicen, a continuación, $$(y - X\beta)^T V^{-1} (y - X\beta) = (Ly - LX\beta)^T (Ly - LX\beta)$$ y podemos utilizar algoritmos estándar (con lo que la penalización de la función se prefiere) mediante la sustitución de la respuesta con el vector $Ly$ y los predictores con la matriz $LX$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X