16 votos

¿Por qué utilizar la teoría de valores extremos?

Vengo de Ingeniería Civil, en la que utilizamos la Teoría de valores Extremos, como la distribución GEV para predecir el valor de ciertos eventos, como La mayor velocidad del viento, yo.e el valor que el 98,5% de la velocidad del viento será menor.

Mi pregunta es que ¿por qué usar un valor extremo de la distribución? ¿No sería más fácil si sólo se utiliza la distribución global y obtener el valor para el 98.5% de probabilidad?

22voto

jws121295 Puntos 36

Descargo de responsabilidad: En los puntos en el siguiente, este GROSERAMENTE presume de que sus datos están distribuidos normalmente. Si en realidad nada ingeniería, a continuación, hablar con un fuerte estadísticas profesional y dejar que esa persona firmar en la línea de decir lo que el nivel será. Hable con cinco de ellos, o 25 de ellos. Esta respuesta es para un estudiante de ingeniería civil de la pregunta "por qué" y no para un profesional de ingeniería de la pregunta "¿cómo".

Creo que la pregunta detrás de la pregunta es "¿cuál es el valor extremo de la distribución?". Sí es algo de álgebra - símbolos. Entonces, ¿qué? a la derecha?

Vamos a pensar acerca de 1000 años de inundaciones. Ellos son grandes.

Cuando lo hacen, van a matar a un montón de gente. Muchos puentes se va hacia abajo.
Usted sabe lo que el puente no se va hacia abajo? Tengo que hacer. No ... todavía.

Pregunta: Que puente no va hacia abajo en un 1000 de inundación del año?
Respuesta: El puente diseñado para soportar.

Los datos que necesita para hacerlo a tu manera:
Digamos que tiene 200 años de agua diaria de datos. Es el 1000 de inundación del año en que hay? No de forma remota. Tiene una muestra de una cola de la distribución. Usted no tiene la población. Si supieras toda la historia de las inundaciones, a continuación, usted tendría la población total de datos. Vamos a pensar acerca de esto. ¿Cuántos años de datos usted necesita para tener, cómo muchas de las muestras, con el fin de tener al menos un valor cuya probabilidad es de 1 en 1000? En un mundo perfecto, sería necesario al menos 1000 muestras. El mundo real es complicado, por lo que necesita más. Usted comienza a conseguir 50/50 de probabilidades en alrededor de 4000 muestras. Usted comienza a conseguir la garantía de tener más de 1 a alrededor de 20.000 muestras. La muestra no significa "agua de un segundo frente en el próximo" sino una medida para cada fuente de variación - como el año-a-año de variación. Una medida más de un año, junto con otra medida más de otro año, son dos muestras. Si usted no tiene 4.000 años de datos de buena calidad, entonces usted probablemente no tiene un ejemplo de 1000 años de inundaciones en los datos. Lo bueno es que no es necesario que la cantidad de datos para obtener un buen resultado.

Aquí es cómo conseguir mejores resultados con menos datos:
Si usted mira en los máximos anuales, se pueden montar los "valores extremos de la distribución" a los 200 valores de año-max-niveles y usted tendrá la distribución que contiene los 1000 años de la inundación de nivel. Será el álgebra, no de la "cuán grande es él". Puede utilizar la ecuación para determinar qué tan grande es el 1000 de inundación del año será. Entonces, dado que el volumen de agua que usted puede construir su puente para resistir. No disparar por el valor exacto, disparar para los más grandes, de lo contrario se diseña para fallar en el año 1000 de la inundación. Si usted está en negrita, entonces usted puede utilizar el remuestreo de averiguar cómo mucho más exactamente en el año 1000 el valor que usted necesita para construir con el fin de tener a resistir.

Aquí es por qué el EV/GEV son relevantes analítica formas:
La generalizada de valores extremos de la distribución es acerca de cuánto max varía. La variación en el máximo se comporta realmente diferente que la variación en la media. La distribución normal, mediante el teorema del límite central, se describe una gran cantidad de "tendencias centrales".

Procedimiento:

  1. hacer los siguientes 1000 veces:
    yo. pick 1000 números de la distribución normal estándar
    ii. calcular el máximo de ese grupo de muestras y la guarde
  2. ahora graficar la distribución del resultado

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Esta NO es la "distribución normal estándar": enter image description here

El pico es de 3,2, pero el max va hacia 5.0. Tiene sesgo. No hay por debajo de 2.5. Si había datos reales (el estándar normal) y solo tienes que elegir la cola, entonces usted está uniformemente al azar a recoger algo a lo largo de esta curva. Si tienes suerte, entonces usted está hacia el centro y no en la inferior de la cola. La ingeniería es sobre la frente de la suerte - se trata de lograr de manera consistente los resultados deseados en cada momento. Los números aleatorios son muy importantes para dejarla al azar, especialmente para un ingeniero. La analítica de la función de la familia que mejor se ajusta a estos datos el valor extremo de la familia de distribuciones.

Ejemplo de ajuste:
Digamos que tenemos 200 valores aleatorios del año-máximo de la distribución normal estándar, y vamos a fingir que son nuestros 200 años de historia de un máximo de niveles de agua (lo que significa). Para obtener la distribución que hacer lo siguiente:

  1. Muestra de la "tienda" de la variable (para hacer corto/fácil de código)
  2. ajuste a una generalizada de valores extremos de la distribución
  3. encontrar la media de la distribución
  4. el uso de bootstrap para encontrar la IC 95% límite superior en la variación de la media, por lo que puede orientar nuestra ingeniería para que.

(código presupone la anterior se han de ejecutar en primer lugar)

load(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Esto le da a los resultados:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Estos pueden ser conectados en la generación de la función de la creación de 20.000 muestras

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Edificio para la siguiente 50/50 de probabilidades de fracasar en cualquier año:

media(y3)
3.23681

Aquí está el código para determinar lo que los 1000 años "inundación" de nivel es:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Edificio para este siguiente debe darle 50/50 de probabilidades de fracasar en el año 1000 de la inundación.

p1000
4.510931

Para determinar el 95% superior CI he utilizado el siguiente código:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

El resultado fue:

> mytarget
     95% 
4.812148

Esto significa, que en el fin de resistir a la gran mayoría de 1000 años de las inundaciones, dado que sus datos es perfectamente normal (no probable), debe construir para el ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

o el

> 1/(1-out)
   shape 
1077.829 

... 1078 de inundación del año.

Las líneas de fondo:

  • tiene una muestra de los datos, no de la población total. Que significa que su cuantiles son estimaciones, y podría estar fuera.
  • Distribuciones como la generalizada de valores extremos de la distribución se construido para el uso de las muestras para determinar el estado de las colas. Son mucho menos mal a la estimación de que el uso de los valores de la muestra, incluso si usted no tiene suficiente de muestras para el enfoque clásico.
  • Si son sólidos, el techo es alto, pero el resultado de que es - usted no fallar.

La mejor de las suertes

PS:

  • He escuchado que algunas de ingeniería civil diseños de destino el 98.5 percentil. Si hubiéramos calculado que el 98.5 percentil en lugar de la de max, entonces tendríamos una curva distinta con diferentes parámetros. Creo que es la intención de construir un 67 año de la tormenta. $$ 1/(1-0.985) \approx 67 $$ El enfoque de hay, de la omi, sería encontrar la distribución de 67 años de tormentas, a continuación, para determinar la variación alrededor de la media, y obtener el relleno, de manera que está diseñado para tener éxito en el 67 ° año de la tormenta, en lugar de fracasar en ella.
  • Dado el punto anterior, en promedio, cada 67 años, el civil que la gente debe tener para la reconstrucción. Así que en el costo total de ingeniería y construcción de todos los 67 años, teniendo en cuenta la vida útil de la estructura civil (no sé lo que es), en algún momento podría ser menos costoso ingeniero para una mayor inter-paso de la tormenta. Sostenible de la infraestructura civil es uno diseñado para durar al menos una esperanza de vida humana, sin falta, ¿verdad?

7voto

Factor Mystic Puntos 12465

Utilice teoría de valores extremos para extrapolar a partir de los datos observados. A menudo, los datos simplemente no es lo suficientemente grande como para proveer de usted con un razonable estimación de una probabilidad de la cola. Tomando @EngrStudent el ejemplo de un 1 en el año 1000 evento: que corresponde a encontrar el 99.9% de los cuantiles de una distribución. Pero si usted sólo tiene 200 años de datos, sólo se puede calcular los cuantiles empíricos estimaciones hasta el 99,5%.

Teoría de valores extremos permite estimar el 99.9% de los cuantiles, por hacer varias suposiciones acerca de la forma de su distribución en la cola: es suave, que se desintegra con un cierto patrón, y así sucesivamente.

Usted podría estar pensando que la diferencia entre el 99,5% y el 99.9% es menor de edad; es solo un 0,4%, después de todo. Pero esa es una diferencia en la probabilidad, y cuando estás en la cola, se puede traducir en una gran diferencia en los cuantiles. Aquí tenemos una ilustración de lo que parece para una distribución gamma, que no tiene una muy larga cola como son estas cosas. La línea azul corresponde a la 99,5% de los cuantiles, y la línea roja es el 99,9% de los cuantiles. Mientras que la diferencia entre estos es pequeña en el eje vertical, la separación en el eje horizontal es sustancial. La separación sólo se hace más grande para realmente larga cola de las distribuciones; la gamma es en realidad una manera bastante inocuo caso.

enter image description here

6voto

sergiol Puntos 129

Generalmente, la distribución de los datos subyacentes (por ejemplo, Gauss velocidades de viento) es para un solo punto de la muestra. El 98 percentil diré que para cualquier seleccionados al azar punto hay un 2% de probabilidad de que el valor sea mayor que el percentil 98.

Yo no soy un ingeniero civil, pero me imagino lo que te gustaría saberlo no es la probabilidad de que la velocidad del viento en un día cualquiera por encima de un cierto número, pero la distribución de la mayor racha de más de, digamos, en el curso del año. En ese caso, si el diario ráfaga de viento máximos son, digamos, exponencialmente distribuidos, entonces, lo que quiero es que la distribución de la máxima ráfaga de viento lo largo de los 365 días...esto es lo que el valor extremo de la distribución se pretende resolver.

1voto

Sahadeo Padhye Puntos 41

El uso de la cuantil hace que el cálculo más sencillo. Los ingenieros civiles pueden sustituir el valor (velocidad del viento, por ejemplo) en su primer principio de fórmulas y obtener el comportamiento del sistema para las condiciones extremas que se corresponden con el 98.5% de los cuantiles.

El uso de la totalidad de la distribución se podría parecer a dar más información, pero podría complicar los cálculos. Sin embargo, se podría permitir el uso de avanzadas de gestión de riesgos enfoques de manera óptima el balance de los costos relacionados con (i) la construcción y (ii) el riesgo de fracaso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: