691 votos

El sentido del análisis de componentes principales, vectores propios y valores propios

En el día de hoy el reconocimiento de patrones de la clase mi profesor habló sobre la PCA, autovectores y autovalores.

Entendí las matemáticas. Si me preguntan a encontrar los autovalores etc. Voy a hacerlo correctamente como una máquina. Pero yo no entiendo . No me llega el propósito de la misma. No he tenido la sensación de que. Creo firmemente en la

usted realmente no entiende algo, a menos que se le puede explicar a tu abuela-Albert Einstein

Bueno, yo no puedo explicar estos conceptos a un laico o de la abuela.

  1. Por qué PCA, vectores propios y valores propios? ¿Cuál fue la necesidad de estos conceptos?
  2. ¿Cómo explicar a un profano?

79voto

patfla Puntos 1

Me gustaría responder en "los términos del laico" diciendo que el PCA se propone el ajuste de líneas rectas para los puntos de datos (todo el mundo sabe lo que es una línea recta). Nosotros llamamos a estas líneas rectas "componentes principales". Hay muchos componentes principales, ya que hay variables. La primera componente principal es la mejor línea recta que se puede ajustar a los datos. La segunda componente principal es la mejor línea recta que puede caber a los errores de la primera componente principal. El tercer componente principal es la mejor línea recta que puede caber a los errores de la primera y la segunda de componentes principales, etc., etc.

Si alguien te pregunta a qué te refieres por "mejor" o "errores", entonces este le dice que ellos no son un "laico", por lo que puede ir en un poco más de detalles técnicos, tales como la perpendicular errores, no sé dónde está el error en x o y de dirección, más de 2 o 3 dimensiones, etc. Si usted evite hacer referencia a MODELOS de regresión (que el "laico" probablemente no va a entender) la explicación es más fácil.

Los vectores propios y valores propios no son necesarios los conceptos en sí, sino que pasó a ser conceptos matemáticos que ya existían. Cuando se resuelve el problema matemático de la PCA, que termina siendo equivalente a encontrar los autovalores y autovectores de la matriz de covarianza.

8voto

Rytmis Puntos 15848

Hmm, aquí va de totalmente no-matemático tomar en PCA...

Imagínese que usted acaba de abrir una sidra de la tienda. Usted tiene 50 variedades de sidra y desea averiguar cómo les asignen en los estantes, para que la degustación de sidras se ponen en el mismo estante. Hay un montón de diferentes sabores y texturas a la sidra - dulzor, acidez, amargor, yeastiness, frutosidad, la claridad, la efervescencia, etc, etc. Entonces lo que hay que hacer para poner las botellas en categorías es responder a dos preguntas:

1) ¿Qué cualidades son las más importantes para la identificación de los grupos de sidras? por ejemplo, ¿la clasificación basada en la dulzura hacer más fácil el clúster de su sidras en similar para la degustación de los grupos de clasificación basado en la frutosidad?

2) Podemos reducir nuestra lista de variables mediante la combinación de algunos de ellos? por ejemplo, hay una variable que es una combinación de "yeastiness y la claridad y la efervescencia" y que hace una muy buena escala para la clasificación de variedades?

Esto es esencialmente lo que el PCA. Componentes principales son variables que útil explicar la variación en un conjunto de datos - en este caso, que de manera útil diferenciar entre los grupos. Cada componente principal es una de sus originales de las variables explicativas, o una combinación de algunos de sus originales de las variables explicativas.

5voto

jldugger Puntos 7490

Vamos a hacer (2) en primer lugar. PCA se ajusta a un elipsoide a los datos. Un elipsoide es una multidimensional de la generalización de la distorsión de formas esféricas como los cigarros, panqueques y huevos. Estos son todos perfectamente descrito por las direcciones y longitudes de sus principales (semi-)ejes, tales como el eje del cigarro o de huevo o el plano de la tortilla. No importa cómo el elipsoide está activada, los vectores propios de esos direcciones principales y los autovalores darle las longitudes. El más pequeño de los valores propios corresponden a la más fina de las direcciones tener la menor variación, para hacer caso omiso de ellas (que se derrumba plana) pierde relativamente poca información: que la PCA.

(1) Aparte de la simplificación (arriba), tenemos necesidades para la elocuente descripción, visualización y comprensión. Ser capaz de reducir dimensiones es una buena cosa: hace que sea más fácil para describir los datos y, si tenemos la suerte de reducir a tres o menos, nos permite dibujar una imagen. A veces incluso podemos encontrar maneras de utilidad para interpretar las combinaciones de los datos representados por las coordenadas en la imagen, que puede permitirse el lujo de penetración en el comportamiento conjunto de las variables.


La figura muestra algunas nubes de 0$ puntos cada uno, junto con elipsoides que contiene 50% de cada nube y ejes alineados con las direcciones principales. En la primera fila de las nubes tienen esencialmente un principal componente, compuesto de un 95% de la varianza: estos son los puros de formas. En la segunda fila de las nubes tiene básicamente dos componentes principales, uno cerca de dos veces el tamaño de los otros, que en conjunto constituyen el 95% del total de la varianza: estos son los panqueques formas. En la tercera fila los tres componentes principales son considerables: estos son los huevos de las formas.

Figures

Cualquier nubes de puntos 3D que es "coherente" en el sentido de no exhibir los clusters o zarcillos o valores atípicos se verá como uno de estos. Cualquier nubes de puntos 3D a todos--con tal de que no todos los puntos son coincidentes--puede ser descrito por una de estas figuras como un punto de partida inicial para la identificación de otros clústeres o de los patrones.

La intuición que se desarrollan a partir de la contemplación de estas configuraciones se pueden aplicar a las dimensiones superiores, incluso a pesar de que es difícil o imposible de visualizar esas dimensiones.

3voto

zowens Puntos 1417

Imaginar una gran cena familiar, donde todo el mundo empieza a preguntar acerca de la PCA. En primer lugar usted explicar a su bisabuela; entonces la abuela; luego a su madre, luego a su esposa; y, por último, a su hija (que es un matemático). Cada vez que la siguiente persona que está a menos de un laico. Aquí es cómo, la conversación podría ir.

La bisabuela: "he oído que usted está estudiando "Pee-Ver-Ay". Me pregunto lo que es...

Tú: Ah, es sólo un método de resumir algunos datos. Mira, tenemos algunas botellas de vino aquí de pie sobre la mesa. Podemos describir cada vino por su color, por lo fuerte que es, por la edad, y así sucesivamente. Podemos componer una lista completa de las diferentes características de cada vino en nuestra bodega. Pero muchos de ellos van a medir las propiedades relacionadas y así será redundante. Si es así, debemos ser capaces de resumir cada uno de los vinos con menos características! Esto es lo PCA.

Abuela: Esto es interesante! Así que este PCA cosa comprueba qué características son redundantes y se deshace de ellos?

Usted: Excelente pregunta, la de la abuela! En realidad, no, la PCA no es la selección de algunas de las características y descartando los demás. En su lugar, se construye algunas nuevas características que resultan un resumen de nuestra lista de vinos. De hecho, PCA encuentra las mejores características posibles, la que resumir la lista de vinos así como la única posible. Esta es la razón por la que es tan útil.

Madre: Hmmm, esto ciertamente suena bien, pero no estoy seguro de entender. ¿Qué realmente significa cuando dicen que estos nuevos PCA características de "resumir" la lista de vinos?

Tú: supongo que puedo dar dos respuestas diferentes a esta pregunta. La primera respuesta es que usted está buscando un poco de vino de propiedades (características) que son muy diferentes a través de los vinos. De hecho, imagine que usted viene para arriba con una propiedad que es el mismo para la mayoría de los vinos. Esto no sería muy útil, ¿no? Los vinos son muy diferentes, pero su nueva propiedad hace que todos ellos tienen el mismo aspecto! Este sin duda sería un mal resumen. En su lugar, PCA busca propiedades que muestran tanto la variación a través de los vinos como sea posible.

La segunda respuesta es que usted busque las propiedades que le permiten predecir, o "reconstruir", el original características del vino. De nuevo, imagine que usted viene para arriba con una propiedad que no tiene ninguna relación con las características originales; si sólo utiliza esta nueva propiedad, no hay manera de que usted podría reconstruir los originales! Esto, de nuevo, sería un mal resumen. Así PCA busca propiedades que permiten reconstruir las características originales tan bien como sea posible.

Sorprendentemente, resulta que estos dos objetivos son equivalentes y por lo PCA puede matar dos pájaros con una sola piedra.

Esposa: Pero querida, estos dos "objetivos" de la PCA sonido tan diferente! ¿Por qué tendría que ser equivalente?

Usted: Hmmm. Quizás debería hacer un pequeño dibujo (toma una servilleta y empieza a hacer garabatos). Nos deja elegir dos características del vino, tal vez vino de la oscuridad y el contenido de alcohol, no sé si están correlacionados, pero vamos a imaginar que son. Aquí es cómo un gráfico de dispersión de los diferentes vinos que podría parecerse a:

PCA exemplary data

Cada punto en este "vino de la nube", se muestra un vino en particular. Usted ve que las dos propiedades ($x$ and $y$ en esta figura) están correlacionados. Una nueva propiedad puede ser construido por el dibujo de una línea por el centro de este vino en la nube y la proyección de todos los puntos en esta línea. Ahora mira aquí, muy cuidadosamente, aquí está cómo estas proyecciones para diferentes líneas (puntos rojos son las proyecciones de los puntos azules):

PCA animation: variance and reconstruction error

Como he dicho antes, PCA va a encontrar la "mejor" línea de acuerdo a dos criterios diferentes de lo que es el "mejor". En primer lugar, la variación de los valores a lo largo de esta línea debe ser máxima. Preste atención a cómo el "spread" (nosotros lo llamamos "el desacuerdo") de los puntos rojos de los cambios, mientras que la línea rota; pueden ver cuando se alcanza el máximo? En segundo lugar, si podemos reconstruir el original de dos características (la posición de un punto azul) a partir de la nueva posición de un punto rojo), el error de reconstrucción será dada por la longitud de la conexión de la línea roja. Observar cómo la longitud de estas líneas rojas cambios mientras que la línea rota; se puede ver cuando la longitud total alcanza el mínimo?

Si usted fija la mirada en esta animación durante algún tiempo, usted notará que "la máxima varianza" y "el mínimo de error" se alcanzó en el mismo momento, es decir, cuando la línea de puntos al magenta garrapatas he marcado en ambos lados del vino en la nube. Esta línea se corresponde con el vino nuevo de la propiedad que será construida por la PCA.

Por el camino, PCA es sinónimo de "análisis de componentes principales" y esta nueva propiedad se denomina "primer componente principal". Y en lugar de decir "propiedad" o "características", solemos decir "característica" o "variable".

Hija: Muy bonito, papá! Esto me recuerda el teorema de Pitágoras, ¿no crees? Pero he oído que la PCA es de alguna manera relacionados con los vectores propios y valores propios; dónde están en esta foto?

Usted: Brillante observación. Matemáticamente, la propagación de los puntos rojos se mide como el promedio del cuadrado de la distancia desde el centro del vino de la nube a cada punto rojo; como ustedes saben, se llama la varianza. Por otro lado, la reconstrucción total de error se mide como el promedio del cuadrado de la longitud de las correspondientes líneas rojas. Pero como el ángulo entre la línea roja y la línea negra es siempre ^\circ$, la suma de estas dos cantidades es igual a la media del cuadrado de la distancia entre el centro del vino de la nube y de cada punto azul; este es precisamente el teorema de Pitágoras. Por supuesto, esta distancia media no depende de la orientación de la línea de negro, por lo que el mayor de la varianza de la parte inferior de error (porque su suma es constante). Esto es un poco la mano ondulado, pero este argumento puede ser hecho preciso.

Por el camino, se puede imaginar que la línea negra es una barra sólida, y cada línea roja es un resorte. La energía de la primavera es proporcional al cuadrado de la longitud (esto se conoce en física como la ley de Hooke), de modo que la varilla se oriente como para minimizar la suma de los cuadrados de las distancias. He hecho una simulación de cómo se verá como, en la presencia de algunos fricción viscosa:

PCA animation: pendulum

Con respecto a los vectores propios y valores propios. Usted debe saber lo que es una matriz de covarianza es; en mi ejemplo es un \times 2$ matrix that is given by $$\begin{pmatrix}1.07 &0.63\0.63 & 0.64\end{pmatrix}.$$ What this means is that the variance of the $x$ variable is .07$, the variance of the $y$ variable is $(0.81, 0.58)$.64$, and the covariance between them is %#%#%.63$. As it is a square symmetric matrix, it can be diagonalized by choosing a new orthogonal coordinate system, given by its eigenvectors; corresponding eigenvalues will then be located on the diagonal. In this new coordinate system, covariance matrix is diagonal and looks like that: $$\begin{pmatrix}1.52 &0\0 & 0.19\end{pmatrix},$$ meaning that the correlation between points is zero. It becomes clear that the variance of any projection will be given by a weighted average of the eigenvalues (I omit all the formulas and only provide intuition here). Consequently, the maximum variance (.52$) se logrará si simplemente tomamos la proyección sobre el primer eje de coordenadas. De ello se desprende que la dirección de la primera componente principal está dado por el primer vector propio de la matriz de covarianza.

Usted puede ver esto en la rotación de la figura así: hay una línea gris no ortogonal a la negra; juntos forman una rotación del cuadro de coordenadas. Intente aviso cuando los puntos azules se vuelven correlacionadas en este marco giratorio. La respuesta, de nuevo, es que no sucede precisamente cuando la línea negra de puntos en la magenta garrapatas. Ahora puedo decirte cómo me encontró: que marca la dirección del primer vector propio de la matriz de covarianza, que en este caso es igual a %#%#%.

1voto

Michael Haren Puntos 42641

Este manuscrito realmente me ayudó a grok PCA. Creo que todavía es demasiado complejo para explicar a tu abuela, pero no está mal. Usted debe saltar el primer par de bits en el cálculo de eigens, etc. Saltar hacia abajo el ejemplo en el capítulo 3 y mirar los gráficos.

Tengo algunos ejemplos en los que he trabajado a través de algunos de juguete ejemplos para que yo pudiera entender PCA vs MCO de la regresión lineal. Voy a tratar de cavar hasta y después de ellos también.

editar: En realidad no se pregunte acerca de la diferencia entre los mínimos Cuadrados Ordinarios (OLS) y PCA pero ya saqué mis apuntes, me hice un blog post sobre ello. La versión muy resumida es OLS de y ~ x que minimiza el error perpendicular al eje independiente como este (líneas amarillas son ejemplos de dos errores):

alt text

Si fueron a la regresión de x ~ y (como contraposición a y ~ x en el primer ejemplo) sería minimizar el error como este:

alt text

y PCA minimiza el error ortogonal al modelo de sí mismo, así:

alt text

Lo que es más importante, como otros han dicho, en una situación donde usted tiene un MONTÓN de variables independientes, PCA ayuda a averiguar cuáles importan la mayoría. Los ejemplos anteriores sólo ayudar a visualizar lo que el primer componente principal se ve como en un caso sencillo.

En mi blog tengo la R código para la creación de las anteriores gráficas y para el cálculo del primer componente principal. Podría ser vale la pena jugar con para construir su intuición alrededor de la PCA. Tiendo a ahora realmente propio de algo hasta que me la escritura de código que se reproduce.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: