看《实用极值统计方法》--史道济所得。

前言

什么是极值?从概率意义上讲,极值表示随机变量的极端变异性;从统计意义上讲,极值是指数据集中的最大值或最小值。

极值统计方法?在大多数应用中,观测数据所服从的分布是未知的。因此只能得到极值的渐进分布。极值统计方法是为观测到的基于某个样本的极值建立一个概念模型,但必须具备某些条件:①观测对象是随机变量;②其分布保持不变,或其变化可通过某些变换减少其影响;③观测到的极值是独立的。

正文:

1、设X_{1},X_{2},\cdot \cdot \cdot X_{n}是独立同分布的随机变量,分布函数为F(x)(称为底分布),对自然数n,令M_{n}=\max \left \{X_{1},X_{2},\cdot \cdot \cdot X_{n} \right \}m_{n}= \min \left \{ X_{1},X_{2},\cdot \cdot \cdot X_{n} \right \}分别表示n个随机变量的最大值和最小值。

P_{r}(M_{n}\leqslant x)=P_{r}(X_{1}\leqslant x,\cdot \cdot \cdot X_{n}\leqslant x)=F^{n}(x), x\in R

P_{r}(m_{n}\leqslant x)=1-P_{r}(x\leqslant m_{n})=1-[1-F(x)]^{n}, x\in R

理解:这里的最大值/最小值是变量,而不是定值,即在本独立分布中的n个随机变量中最大值/最小值的分布函数如上式所述。

但是,在通常情况下,F(x)是未知的,所以我们需要研究最大值/最小值的极限分布。

2、概念介绍:A=\left \{ x:0<F(x)<1) \right \}, x^{*}=\sup A,x_{*}=\inf A

称A为分布F的支撑,x^{*}x_{*}分别为分布F支撑的上端与下端。

理解:A是使F(x)取值(0,1)的x的集合,而上端是集合中x的最大取值,下端为集合中x的最小取值。

3、(Fisher-Tippett的极限类型定理)设X_{1},X_{2},\cdot \cdot \cdot X_{n}是独立同分布的随机变量序列,如果存在常数列\left \{ a_{n}>0 \right\}b_{n},使得

\lim_{n\rightarrow \infty }P_{r}(\frac{M_{n}-b_{n}}{a_{n}}\leqslant x)=H(x), x\in R   (规范化处理,a_{n}b_{n}为规范化常数)

成立,H(x)为非退化的分布函数,那么H(x)必然属于下列三种类型之一:

Ⅰ型分布:H_{1}(x)=exp(-e^{-x}), -\infty <x<+\infty    称为Gumbel分布,其密度函数为h_{1}(x)=e^{-x}H_{1}(x)

其分布函数如下图所示:

其密度函数如下图所示:

 

Ⅱ型分布:H_{2}(x;\alpha )=\begin{Bmatrix} 0, x\leqslant 0 \\ exp\left \{ -x^{-\alpha } \right \},x>0 \end{Bmatrix}        称为Frechet分布,\alpha =1时为标准Frechet分布,其密度函数为h_{2}(x;\alpha )=\alpha x^{-(1+\alpha )}H_{2}(x;\alpha)

其分布函数如下图所示:

其密度函数如下图所示:

Ⅲ型分布:H_{3}(x;\alpha )=\begin{Bmatrix} exp\left \{ -(-x)^{\alpha } \right \},x\leqslant 0\\ 0,x>0 \end{Bmatrix}    称为Weibull分布,\alpha =1时为标准Weibull分布,其密度函数为h_3(x;\alpha )=\alpha (-x)^{\alpha -1}H_3(x;\alpha)

其分布函数如下图所示:

其密度函数如下图所示:

 

此定理说明,当M_{n}经过线性变换,对应的规范化变量依分布收敛于某一非退化分布,那么不论F(x)是什么形式,这个极限分布必然属于上述三种类型之一。从数学角度来讲,这三个模型可以互相转化,因此在某些场合,为方便起见,可以任意假设某一类型。

理解:退化的分布函数是指分布中的参数取特殊情况,使分布式变得更加简单。

4、对于给定的分布函数F(x),如果存在序列\left \{ a_{n}>0 \right \}\left \{ b_{n} \right \},使得F^{n}(a_{n}x+b_{n})=F(x),则称分布函数F(x)是最大值稳定的。易证:对于极值Ⅰ型分布取值为:a_{n}=1,b_{b}=\ln n;对于极值Ⅱ型分布取值为:a_{n}=n^{1/\alpha },b_{n}=0;对于极值Ⅲ型分布取值为:a_{n}=n^{-1/\alpha },b_{n}=0

进一步结论:如果一个分布函数F(x)是最大值稳定分布,那么该分布是三种分布之一。

5、如果引进位置参数和尺度参数,那么三种类型的分布分别为:

H_{1}(x;\mu ,\delta )=\exp (-e^{-\frac{x-\mu}{\delta}})   ,  h_1(x;\mu,\delta)=h_1(\frac{x-\mu}{\delta})/\delta

H_2(x;\mu,\delta,\alpha )=\begin{Bmatrix} 0,x\leqslant \mu\\ \exp \{ -(\frac{x-\mu}{\delta})^{-\alpha} \},x>\mu \end{Bmatrix} , \alpha>0   ,   h_2(x;\mu,\delta,\alpha)=h_2(\frac{x-\mu}{\delta};\alpha)/\delta,x>\mu

H_3(x;\mu,\delta,\alpha)=\begin{Bmatrix} \exp \{ -(-\frac{x-\mu}{\delta})^{\alpha} \},x\leqslant \mu\\ 1,x>\mu \end{Bmatrix},\alpha>0,    h_3(x;\mu,\delta,\alpha)=h_3(\frac{x-\mu}{\delta};\alpha)/\delta,x\leqslant \mu

这三个分布分别代表三种不同的极值行为,但是可以用统一的形式

H(x;\mu,\delta,\varepsilon )=\exp \{ -(1+\varepsilon \frac{x-\mu}{\delta})^{-1/\varepsilon } \},1+\varepsilon (x-\mu)/\delta>0

表示,其中\mu,\varepsilon \in R,\delta>0,为广义极值分布简称GEV分布,\varepsilon为形状参数。

易证:

\varepsilon =0时,分布表示Ⅰ型分布;

\varepsilon >0时,\alpha =1/\varepsilon,分布表示Ⅱ型分布;

\varepsilon <0时,\alpha =-1/\varepsilon,分布表示Ⅲ型分布。Ⅱ、Ⅲ型分布的位置参数和尺度参数进行适当变换。

6、极值分布的数字特征

称函数

F(x)=\int_{0}^{+\infty }t^{x-1}e^{-t}d_{t},x>0

为Gamma函数。它具有如下性质:

(1)F(\alpha +1)=\alpha F(\alpha );(2)F(1/2)=\sqrt{\pi }

(3)F(n+1)=n!(其中n为正整数)(此处F的正确标志在CSDN中找不到,,,,)

若随机变量X的密度函数为f(x),定义它的k阶原点矩为

\alpha _{k}= E(x^k)=\int_{-\infty }^{+\infty }x^{k}f(x)d_{x},

当k=1时,\alpha _{1}=E(X)表示随机变量的数学期望。

k阶中心距为\delta _{k}=E(X-E(X))^{k},随机变量X的方差为

Var(X)=E(X-E(X))^{2}=\alpha _{2}-\alpha ^{2}

分别称\beta _{\xi }=E(\frac{X-E(X)}{(Var(X))^{1/2}})^{3}\beta _{k}=E(X-E(X))^{4}/Var(X)^{2}为偏度系数和峰度系数。

理解:偏度系数:指分布函数偏斜方向和程度的度量。

峰度系数:反映概率密度分布曲线在平均值处峰值高低的特征,形象来说就是峰部的尖度。

7、极限分布的分位数

h是定义在\mathbb{R}上的不减函数,称

h^{-1}(p)=inf\{ x \in \mathbb{R} ,h(x)\geq p \} 0<p<1

(按照惯例,空集的下确界是\infty)为函数h的广义反函数。(inf为下确界,指任意数集E的最大下界)

称分布函数F(x)的广义反函数

F^{-1}(p)=inf\{ x \in \mathbb{R},F(x)\geq p \} 0<p<1

为它的分位数函数,x_{p}=F^{-1}(p)称为Fp分位数。

一般分布函数在其支撑上都是单调连续的,其广义反函数即普通的反函数,即F(x_{p})=p

理解:此处p分位数即为该分布中超过x_{p}的值发生的概率小于p的最小x_{p}值(例如,2分位数)。

 

 

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐