18 votos

Teorema De Bayes Intuición

He estado tratando de desarrollar una intuición basada en la comprensión del teorema de Bayes en términos de la anterior, posterior, probabilidad y marginales de la probabilidad. Para que yo lo uso de la siguiente ecuación: $$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$ donde $A$ representa una hipótesis o creencia y $B$ representa los datos o pruebas.
He entendido el concepto de la posterior - es un unificador de la entidad que se combina la previa de la creencia y la probabilidad de un evento. Lo que no entiendo es lo que hace que la probabilidad de significar? Y por qué es la marginal de probabilidad en el denominador?
Después de revisar un par de recursos con los que me topé con esta cita:

La probabilidad es el peso de evento $B$ dado por la ocurrencia de $A$ ... $P(B|A)$ es el posterior de la probabilidad de un evento $B$ , dado que el evento $A$ se ha producido.

Arriba 2 declaraciones parecer idéntico a mí, sólo por escrito de diferentes maneras. ¿Alguien puede por favor explicar la diferencia entre los dos?

23voto

Sean Hanley Puntos 2428

Aunque hay cuatro componentes que se enumeran en Bayes ley, prefiero pensar en términos de tres componentes conceptuales:
$$ \underbrace{P(B|A)}_2 = \underbrace{\frac{P(A|B)}{P(a)}}_3 \underbrace{P(B)}_1 $$ 1. La previa es lo que usted cree acerca de $B$ antes de haber encontrado un nuevo y relevante de la información (es decir, $A$).
2. La posterior es lo que usted cree (o debería, si son racionales) acerca de $B$ después de haber encontrado un nuevo y relevante de la información.
3. El cociente de la probabilidad dividido por la probabilidad marginal de la nueva pieza de información de los índices de el informativo de la nueva información para sus creencias acerca de $B$.

17voto

GeoMatt22 Puntos 1290

Hay varias buenas respuestas ya, pero tal vez esto se puede agregar algo nuevo ...

Yo siempre pienso en la regla de Bayes en términos de la componente de probabilidades, que puede ser entendido geométricamente en términos de los eventos $A$ $B$ como se muestra a continuación.

Event Sets

Las probabilidades marginales $P(A)$ $P(B)$ están dados por las áreas de los círculos correspondientes. Todos los resultados posibles son representados por $P(A \cup B)=1$, que corresponde a la serie de eventos "$A$ o $B$". La probabilidad conjunta $P(A \cap B)$ corresponde al evento"$A$$B$".

En este marco, las probabilidades condicionales en el teorema de Bayes puede ser entendida como la relación de áreas. La probabilidad de $A$ $B$ es la fracción de $B$ ocupado por $A \cap B$, expresado como $$P(A\vert B)=\frac{P(A \cap B)}{P(B)}$$ Del mismo modo, la probabilidad de $B$ $A$ es la fracción de $A$ ocupado por $A \cap B$, es decir, $$P(B\vert A)=\frac{P(A \cap B)}{P(A)}$$

El teorema de Bayes, es realmente sólo un matemático consecuencia de las definiciones anteriores, que se pueden formular como $$P(B\vert A)P(A)=P(A \cap B)=P(A\vert B)P(B)$$ Me parece que este simétrica de la forma del teorema de Bayes a ser mucho más fácil de recordar. Es decir, la identidad se sostiene independientemente de cual $p(A)$ o $p(B)$ es con la etiqueta "antes de" o "posterior".

(Otra manera de entender la discusión anterior es dado en mi respuesta a esta pregunta, de una "contabilidad de hoja de cálculo" punto de vista.)

8voto

David Puntos 41

@gung tiene una gran respuesta. Me gustaría añadir un ejemplo para explicar la "iniciación" en un ejemplo del mundo real.

Para una mejor conexión con ejemplos del mundo real, me gustaría cambiar la notación, donde el uso de $H$ a representar la hipótesis de ($A$ en la ecuación), y el uso de $E$ a representar la evidencia. (el $B$ en su ecuación.)

Así que la fórmula es

$$P(H|E) = \frac{P(E|H)P(H)}{P(E)}$$

Nota la misma fórmula se puede escribir como

$$P(H|E) \propto {P(E|H)P(H)}$$

donde $\propto$ significa proporcional a y $P(E|H)$ es la probabilidad de e $P(H)$ es el previo. Esta ecuación significa que la posterior será más grande, si el lado derecho de la ecuación más grande. Y usted puede pensar acerca de $P(E)$ es una constante de normalización para que el número en la probabilidad (la razón por la que digo que es una constante es porque la evidencia $E$ ya está dado.).

Para un ejemplo del mundo real, supongamos que estamos haciendo algunos de detección de fraude en transacciones de tarjeta de crédito. A continuación, la hipótesis sería $H \in \{0,1\}$ donde representan la transacción es normal o fraudulentas. (Elegí el extremo desequilibrio caso para mostrar la intuición).

Desde el conocimiento de un dominio, sabemos que la mayoría de las transacciones sería normal, sólo muy pocos son fraude. Supongamos que un experto nos dijo que hay $1$ $1000$ sería un fraude. Así que podemos decir que la previa es $P(H=0)=0.001$, e $P(H=1)=0.999$.

El objetivo final es el cálculo de $P(H|E)$ lo que significa que queremos saber si una transacción es un fraude no no basadas en la evidencia. Si usted mira en el lado derecho de la ecuación, la descomponemos en probabilidad y antes.

Donde ya hemos explicado lo que es antes, aquí te explicamos lo que es la probabilidad. Supongamos que tenemos dos tipos de pruebas, $E\in\{0,1\}$ que representan, si estamos viendo normal o extraño ubicación geográfica de la transacción.

La probabilidad de $P(E=1|H=0)$ puede ser pequeña, lo que significa que dada una operación normal, es muy poco probable que la ubicación es extraño. Por otro lado, $P(E=1|H=1)$ puede ser grande.

Supongamos, se observó $E=1$ queremos ver si es un fraude o no, tenemos que considerar antes y probabilidad. Intuitivamente, desde antes, sabemos que hay muy pocos las transacciones de fraude, es probable que ser muy conservador para hacer un fraude de clasificación, a menos que la evidencia es muy fuerte. Por lo tanto, el producto entre dos tendrá en cuenta dos factores al mismo tiempo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X