10 votos

¿Cómo mejora la precisión de un modelo predictivo PCA?

<p>He visto en un <a href="http://www.kaggle.com/c/digit-recognizer" rel="nofollow">desafío de kaggle sobre reconocimiento de dígitos</a> alguien que usa <a href="https://en.wikipedia.org/wiki/Principal_component_analysis" rel="nofollow">PCA</a> antes de árbol de decisión u otras técnicas.</p> <p>Pensé que era sólo para la compresión de datos pero pretende mejorar su puntuación.</p> <p>¿Cómo PCA puede mejorar en este caso la puntuación? ¿Es porque hay menos desbordamiento?</p>

8voto

romada Puntos 21
<p>La PCA es un cambio de variables, utilizando las correlaciones explicada por direcciones ortogonales.</p> <p>Eliminación de direcciones con la correlación correspondiente no representativo es como eliminación de ruidos. Usted sólo deberá mantener datos significativos.</p> <p>Por cierto, gracias por el sitio.</p>

5voto

Édouard Lopez Puntos 863

Descargo de responsabilidad: yo soy generalmente mal las cosas.

Los árboles de decisión, por virtud de hacer recursiva de la separación de sus muestras, con divisiones se basan en una sola variable, sólo puede generar decisión límites paralelos a los ejes de su sistema de coordenadas. Así que por la rotación de los datos a las direcciones de máxima varianza/diagonalizing su matriz de covarianza de la mejor manera posible, podría ser más fácil poner la decisión límites entre la clase de las distribuciones de

Dicho esto, no estoy seguro de por qué te gustaría hacer PCA (sin descartar algunos de sus vectores propios) antes de usar un modelo de red neuronal o lo que sea, porque la rotación solo no hace ninguna diferencia - la red puede aproximar cualquier función a través del espacio de características.

0voto

jws121295 Puntos 36

Dadi Perlmutter, dijo una vez: "¿Cuál es la diferencia entre la teoría y la práctica? En teoría son los mismos, mientras que en la práctica son diferentes". Este es uno de esos casos.

Métodos como las Redes Neuronales a menudo el uso de gradiente de la pendiente derivada de los métodos. En teoría, si usted tenía un número infinito de iteraciones y los reintentos, el algoritmo va a converger hacia el mismo resultado independiente del sistema de coordenadas. Las Redes neuronales no como la "maldición de la dimensionalidad", y así el uso de PCA para reducir la dimensión de los datos puede mejorar la velocidad de convergencia y la calidad de los resultados. La transformación de los datos, por el centrado, la rotación y el escalado informado por el PCA puede mejorar el tiempo de convergencia y la calidad de los resultados.

En teoría, la PCA no hace ninguna diferencia, pero en la práctica se mejora la tasa de formación, simplifica la necesaria estructura neuronal para representar los datos, y los resultados en los sistemas que mejor caracterizan a la "estructura intermedia" de los datos en lugar de tener a cuenta para múltiples escalas - que es más preciso.

Mi conjetura es que hay razones análogas que se aplican a los bosques aleatorios de gradiente impulsado árboles o de otras criaturas similares. (Link)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X