20 votos

Kullback-Leibler divergencia SIN teoría de la información

Después de mucho arrastre de la Cruz Validado, yo todavía no tengo la sensación de estar más cerca de la comprensión de divergencia KL fuera de la esfera de la teoría de la información. Es bastante raro, como alguien con una experiencia en las Matemáticas para encontrar mucho más fácil entender la teoría de la información explicación.

Para describir mi comprensión de una teoría de la información antecedentes: Si tenemos una variable aleatoria con un número finito de resultados, existe un óptimo de codificación, que nos permite comunicar el resultado con alguien con, en promedio, el menor de mensaje (esto me parece más fácil de la imagen en términos de bits). La duración prevista del mensaje, será necesario comunicar el resultado está dado por $$ -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha})$$ si el óptimo se utiliza la codificación. Si usted fuera a utilizar un sub-óptimo de codificación, entonces KL divergencia nos dice que, en promedio, ¿cuánto más nuestro mensaje sería.

Me gusta esta explicación, ya que de forma bastante intuitiva ofertas con la asimetría de la divergencia KL. Si tenemos dos sistemas diferentes, es decir, los dos cargados de monedas de diferente carga, tendrán diferentes óptimo de las codificaciones. No estoy de alguna manera sienten instintivamente que el uso de la segunda del sistema de codificación para el primero es "igual de mal" a usar el primer sistema de codificación para el segundo. Sin pasar por el proceso de pensamiento de cómo me convencí a mí mismo, ahora estoy bastante contento de que $$\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})$$ gives you this "extra expected message length", when using $q$'s encoding for $p$.

Sin embargo, la mayoría de las definiciones de la divergencia KL, incluyendo Wikipedia, a continuación, hacer la declaración (manteniendo esto en términos discretos, de modo que se la puede comparar con la teoría de la información, la interpretación que funciona mucho mejor en términos discretos como bits son discretos) que si tenemos dos distribuciones de probabilidad discretas, entonces KL proporciona algunas métricas de "lo diferentes que son". Aún no he visto una sola explicación de cómo estos dos conceptos están relacionados, incluso. Me parece recordar que en su libro sobre la inferencia, Dave Mackay hace que los puntos acerca de cómo la compresión de datos y la inferencia son básicamente la misma cosa, y sospecho que mi pregunta es, realmente, relacionados con este.

Independientemente de si es o no lo es, el tipo de pregunta que tengo en mente es de alrededor de problemas de inferencia. (Mantener las cosas discretas), si tenemos dos muestras radiactivas, y sabemos que uno de ellos es de un material con radiactividad conocida (esto es dudosa física, pero vamos a suponer que el universo funciona así) y por lo tanto sabemos que el "verdadero" la distribución de la radiactivos clics que se debe medir debe ser de poisson con conocidos $\lambda $, es justo que para construir una distribución empírica para ambas muestras y comparar sus KL divergencias a la distribución conocida y dicen que el inferior es más probable que el material?

Alejarse de dudosa física, si conozco a dos muestras se extraen de la misma distribución, pero sé que no están seleccionados al azar, sería la comparación de sus KL divergencias a la conocida, la distribución global darme una idea de "cómo parcial" las muestras son, en relación a uno y lo otro, de todos modos?

Y por último, si la respuesta a la pregunta anterior es sí, entonces, ¿por qué? Es posible entender estas cosas desde un punto de vista estadístico solo sin hacer (posiblemente tenue) conexiones a la teoría de la información?

20voto

Lev Puntos 2212

Hay un enfoque puramente estadístico para Kullback-Leibler divergencia: tomar una muestra $X_1,\ldots,X_n$ iid de un desconocido la distribución de $p^\star$ y considerar el potencial de ajuste por una familia de distribuciones, $$\mathfrak{F}=\{p_\theta\,,\ \theta\in\Theta\}$$La correspondiente probabilidad se define como $$L(\theta|x_1,\ldots,x_n)=\prod_{i=1}^n p_\theta(x_i)$$ y su logaritmo es $$\ell(\theta|x_1,\ldots,x_n)=\sum_{i=1}^n \log p_\theta(x_i)$$ Por lo tanto, $$\frac{1}{n} \ell(\theta|x_1,\ldots,x_n) \longrightarrow \mathbb{E}[\log p_\theta(X)]=\int \log p_\theta(x)\,p^\estrella(x)\text{d}x$$ cual es la parte interesante de la Kullback-Leibler divergencia entre el $p_\theta$ y $p^\star$ $$\mathfrak{H}(p_\theta|p^\star)\stackrel{\text{def}}{=}\int \log \{p^\star(x)/p_\theta(x)\}\,p^\star(x)\text{d}x$$the other part$$\int \log \{p^\star(x)\}\,p^\star(x)\text{d}x$$being there to have the minimum [in $\theta$] of $\mathfrak{H}(p_\theta|p^\estrella)$ igual a cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: