314 votos

Cuál es la relación intuitiva entre el SVD y PCA

La descomposición de valor Singular (SVD) y análisis de componentes principales (PCA) son dos autovalor métodos utilizados para reducir la alta dimensión del conjunto de datos en un número menor de dimensiones, mientras que la retención de la información importante. Artículos en línea, decir que estos métodos están "relacionados", pero nunca especificar la forma exacta de la relación.

¿Cuál es la relación intuitiva entre el PCA y la enfermedad vesicular porcina? Como PCA utiliza la SVD en su cálculo, por lo que claramente hay algún "extra" del análisis realizado. ¿Qué PCA 'prestar atención' de manera diferente de la enfermedad vesicular porcina? ¿Qué tipos de relaciones se hacen cada método se utilizan más en sus cálculos? Es un método "ciega" a un determinado tipo de datos que el otro no?

255voto

Andrew Puntos 140

(Asumo que para los efectos de esta respuesta que los datos han sido procesados para tener cero significa.)

Puesto simplemente, el PCA punto de vista, es necesario calcular los autovalores y autovectores de la matriz de covarianza, que es producto de la $\mathbf X\mathbf X^\top$, where $\mathbf X$ es la matriz de datos. Dado que la matriz de covarianza es simétrica, la matriz es diagonalizable, y los vectores propios puede ser normalizada de tal manera que son ortonormales:

$\mathbf X\mathbf X^\top=\mathbf W\mathbf D\mathbf W^\top$

Por otro lado, la aplicación de SVD de la matriz de datos $\mathbf X$ como sigue:

$\mathbf X=\mathbf U\mathbf \Sigma\mathbf V^\top$

y el intento de construir la matriz de covarianza a partir de esta descomposición da

$\begin{align*} \mathbf X\mathbf X^\top&=(\mathbf U\mathbf \Sigma\mathbf V^\top)(\mathbf U\mathbf \Sigma\mathbf V^\la parte superior)^\top\\ \mathbf X\mathbf X^\top&=(\mathbf U\mathbf \Sigma\mathbf V^\top)(\mathbf V\mathbf \Sigma\mathbf U^\la parte superior) \end{align*}$

y desde $\mathbf V$ is an orthogonal matrix ($\mathbf V^\top \mathbf V=\mathbf I$),

$\mathbf X\mathbf X^\top=\mathbf U\mathbf \Sigma^2 \mathbf U^\top$

y la correspondencia es fácilmente visto (las raíces cuadradas de los valores propios de a $\mathbf X\mathbf X^\top$ are the singular values of $\mathbf X$, etc.)

De hecho, el uso de la enfermedad vesicular porcina para realizar PCA hace mucho mejor sentido numéricamente que la formación de la matriz de covarianza, para empezar, ya que la formación de $\mathbf X\mathbf X^\top$ can cause loss of precision. This is detailed in books on numerical linear algebra, but I'll leave you with an example of a matrix that can be stable SVD'd, but forming $\mathbf X\mathbf X^\top$ puede ser desastroso, el Läuchli de la matriz:

$\begin{pmatrix}1&1&1\ \epsilon&0&0\0&\epsilon&0\0&0&\epsilon\end{pmatrix}^\top$

donde $\epsilon$ es un número pequeño.

50voto

Jeff Puntos 6

Un tutorial sobre análisis de componentes principales por Jonathon Shlens es un buen tutorial en PCA y su relación al SVD. Específicamente, la sección VI: una más General solución usando SVD.

9voto

Stefan Savev Puntos 21

La cuestión se reduce a si que lo que restar los medios y dividir por la desviación estándar de la primera. La misma cuestión se plantea en el contexto de la regresión lineal y logística. Así que voy razón por analogía.

En muchos problemas de nuestras características son valores positivos, tales como los recuentos de palabras o intensidades de los píxeles. Normalmente un mayor recuento o una mayor intensidad de píxeles significa que una función es más útil para la clasificación/regresión. Si se restan los medios, a continuación, que están obligando a las características originales con valor de cero a tener un valor negativo, que es de alta magnitud. Esto implica que hacen que las características de los valores que no son importantes para el problema de clasificación (previamente cero valorado) tan influyentes como las características más importantes de los valores (los que tienen altas cantidades o intensidades de los píxeles).

El mismo razonamiento vale para la PCA. Si tus rasgos son menos sensibles (informativo) hacia la media de la distribución, entonces tiene sentido restar la media. Si las características son más sensibles hacia los valores altos, restando la media no tiene sentido.

SVD no restar los medios, pero a menudo, como primer paso, los proyectos de los datos de la media de todos los puntos de datos. En esta forma de la enfermedad vesicular porcina primera se ocupa de la estructura global.

3voto

Phil Goetz Puntos 1

Hay una manera de hacer un SVD de una matriz sparse que trata faltan funciones como falta (utilizando la búsqueda de gradiente). No sé ninguna manera de hacerlo PCA en una matriz escasa excepto por tratar faltan funciones como cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: