t-分布（学生分布）, t-distribution 的定义及性质

kdaHugh

44963人浏览 · 2020-05-04 09:58:06

kdaHugh · 2020-05-04 09:58:06 发布

t-分布, t-distribution 的定义及性质

- 摘要
$t$ -分布的定义
- $t$ -分布与正态分布抽样的关系
- $t$ -分布的概率密度函数
$t$ -分布的性质
Python包中的 $t$ -分布
参考文献

摘要

本文将简要介绍 $t$ 分布（学生分布）的定义及性质。 $t$ 分布可以由正态分布抽样的样本均值与样本方差定义得到，也可以直接通过其概率密度函数定义得到。

$t$ -分布的定义

$t$ -分布与正态分布抽样的关系

假设我们有一个正态分布 $N(\mu, \sigma^2)$ ， $X_1, \, X_2, \cdots, \, X_n$ 是独立的来自 $N(\mu, \sigma^2)$ 的抽样随机变量。于是， $X_1, \, X_2, \cdots, \, X_n$ 的样本均值 ( $\bar{X}$ ) 与样本方差 ( $S^2$ ) 分别为：
$\bar{X} = \frac{\sum_{i = 1}^n X_i}{n}, S^2 =\dfrac{1}{n - 1} \sum_{i = 1}^n (X_i - \bar{X})^2$

我们在卡方分布那一篇文章 [1] 中介绍过， $\displaystyle (n - 1)S^2/\sigma^2$ 服从的是自由度为 $n - 1$ 的 $\chi^2$ 分布。

现在我们考虑 $\displaystyle \frac{\bar{X} - \mu}{S / \sqrt{n}}$ 。经过简单的代数处理，我们有 $\displaystyle \frac{\bar{X} - \mu}{S / \sqrt{n}} =\frac{(\bar{X} - \mu) / (\sigma / \sqrt{n})}{\sqrt{S^2 / \sigma^2}}$ 。

可以看到，分子 $\displaystyle (\bar{X} - \mu) / (\sigma / \sqrt{n})$ 服从标准正态分布，而 $\sqrt{S^2 / \sigma^2}$ 是 $\sqrt{\chi^2_{n - 1} / (n - 1)}$ 。我们定义 $\displaystyle \frac{\bar{X} - \mu}{S / \sqrt{n}}$ 服从的分布为自由度是 $n - 1$ 的 $t$ -分布。

换言之，

定义 : 如果我们有两个独立的随机变量 $\, V$ 。 $\sim N(0, 1)$ ， $\sim \chi^2_p$ 。即 $U$ 服从标准正态分布， $V$ 服从自由度为 $p$ 的卡方分布。那么 $\sqrt{V / p}$ 服从的分布是一个自由度为 $p$ 的 $t$ -分布。

$t$ -分布的概率密度函数

我们也可以直接从 $t$ -分布的概率密度函数（pdf）来定义 $t$ -分布。如果随机变量 $X$ 的 pdf 为
$f_{X} (t) = \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} (1 + t^2 / p)^{-\frac{p + 1}{2}}, -\infty < t < \infty ，\tag{1}$
我们称 $X$ 服从自由度为 $p$ 的 $t$ -分布。

那么如何去验证根据之前通过标准正态分布与卡方分布定义的 $t$ -分布的 pdf 就是 (1) 呢。在 Casella 书中用的是经典的构造二元变换的方法去证明的。有兴趣的读者可参加 Casella Definition 5.3.4 后面的证明 [2]。

$t$ -分布的性质

$t$ -分布的期望与方差

假设 $X_p$ 是服从自由度为 $p$ 的 $t$ -分布，那么我们有
$\mathbb{E} ( X_p ) = 0, p > 1;$ $\text{Var} (X_p) = \frac{p}{p - 2}, p > 2.$ 而当 $p = 1$ 时， $t$ -分布的期望不存在；当 $\leq 2$ 时, $t$ -分布的方差不存在。

$t$ -分布的期望与方差的证明略微复杂。

我们先来看期望。

当 $p = 1$ ， $t$ -分布的期望不存在。这是因为当 $p = 1$ 时， $t$ -分布的 pdf 为 $\displaystyle f(t) = \frac{1}{\pi} \frac{1}{1 + t^2}$ 。正好是 Cauchy 分布的 pdf。我们知道 Cauchy 分布的期望是没定义的（undefined）。故自由度为 1 的 $t$ -分布的期望也是没定义的。
当 $p > 1$ 时，
$\displaystyle \mathbb{E}(X_p) = \int_{-\infty}^{\infty} \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt, \, p > 1$ 。
我们要证明 $\displaystyle \mathbb{E}(X_p) = 0$ 。
注意这里我们不能用被积分函数 $\displaystyle \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} }$ 是奇函数来证明它的积分等于 0。这是因为积分上下限均为无穷大，要证明这个 improper 积分有定义，我们必须证明 $\displaystyle \int_0^{\infty} \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt$ 是有限的（当 $p > 1$ 时）。下面我们来看积分
$\displaystyle \int_0^{\infty} \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt.$

把常数提取出来，我们须要证明 $\displaystyle \int_0^{\infty} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt$ 是有限的。首先做变换 $\displaystyle u = \frac{t}{\sqrt{p}}$ ，我们有 $\displaystyle \int_0^{\infty} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt = p \int_0^{\infty} \frac{u}{ (1 + u^2)^{\frac{p + 1}{2}} } du$ 。然后再做变换 $y = (1 + u^2)^{-1}$ 。于是我们有 $\displaystyle p \int_0^{\infty} \frac{u}{ (1 + u^2)^{\frac{p + 1}{2}} } du = \frac{p}{2} \int_0^1 y^{\frac{p - 3}{2}} dy$ 。因为 $p > 1$ ，所以 $\displaystyle \int_0^1 y^{\frac{p - 3}{2}} dy = \frac{2}{p - 1}$ 。所以 $\displaystyle p \int_0^{\infty} \frac{u}{ (1 + u^2)^{\frac{p + 1}{2}} } du = \frac{p}{2} \int_0^1 y^{\frac{p - 3}{2}} dy = \frac{p}{p - 1}$ 。从而 $\displaystyle \int_0^{\infty} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt$ 是有限的。故我们可以得出 $\displaystyle \mathbb{E}(X_p) = \int_{-\infty}^{\infty} \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \frac{t}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt = 0$ ，当 $p > 1$ 的时候。

$\mathbb{E} ( X_p ) = 0, p > 1$ 。

下面再来看 $t$ -分布的方差。当 $p = 1$ 时，由于 $t$ -分布的期望没有定义，所以其方差也没有定义。当 $p = 2$ 时，我们要证明 $t$ -分布的方差还是没有定义。这就须要计算 $\mathbb{E} (X^2)$ 。当 $p = 2$ 时，
$\mathbb{E} (X^2) = \int_{-\infty}^{\infty} \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \frac{t^2}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt$
把常数项 $\displaystyle \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}}$ 提出积分号外，我们须要计算

$\displaystyle \int_{-\infty}^{\infty} \frac{t^2}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt$ 。类似上面我们计算期望的技巧，首先先做变换 $\displaystyle u = \frac{t}{\sqrt{p}}$ ，我们有 $\displaystyle \int_{-\infty}^{\infty} \frac{t^2}{ (1 + t^2 / p)^{\frac{p + 1}{2}} } dt = \displaystyle p \sqrt{p} \int_{-\infty}^{\infty} \frac{ u^2}{ (1 + u^2)^{\frac{p + 1}{2}} } du$ 。再做变换 $y = (1 + u^2)^{-1}$ ，我们有

$\displaystyle \int_{-\infty}^{\infty} \frac{ u^2}{ (1 + u^2)^{\frac{p + 1}{2}} } du =2 \int_{0}^{\infty} \frac{ u^2}{ (1 + u^2)^{\frac{p + 1}{2}} } du = \int_0^1 (1 - y)^{1 / 2} y^{\frac{p}{2} - 2} dy$ .

于是，当 $p = 2$ 时，积分就变成了 $\displaystyle \int_0^1 (1 - y)^{1 / 2} y^{-1} dy$ 。这个积分是无穷大的，所以 $\mathbb{E} (X^2) = \infty$ 。于是当 $p = 2$ 时， $X$ 的方差为无穷大。

而当 $p > 2$ 时， $\displaystyle \int_0^1 (1 - y)^{1 / 2} y^{\frac{p}{2} - 2} dy = \frac{\Gamma(\frac{3}{2}) \Gamma(\frac{p}{2} - 1)}{\Gamma(\frac{p + 1}{2})}$ 。把常数项加上，我们有

$\displaystyle \mathbb{E} (X^2) = \frac{\Gamma(\frac{p + 1}{2})}{\Gamma{(\frac{p}{2}})} \frac{1}{\sqrt{p \pi}} \times p \sqrt{p} \times \frac{\Gamma(\frac{3}{2}) \Gamma(\frac{p}{2} - 1)}{\Gamma(\frac{p + 1}{2})} = \frac{p}{p - 2}$
于是， $\displaystyle \text{Var} (X) = \frac{p}{p - 2}$ ，当 $p > 2$ 时。

$t$ -分布的平方

假设 $\sim t_q$ ，即 $X$ 服从自由度为 $q$ 的 $t$ -分布。那么 $X^2 \sim F_{1, \, q}$ ，即 $X^2$ 服从自由度为 $\, q)$ 的 $F$ -分布。

我们知道自由度为 $p$ 和 $q$ 的 $F$ -分布的 pdf 为
$f_F(x) = \frac{\Gamma(\frac{p + q}{2})}{\Gamma(\frac{p}{2}) \Gamma(\frac{q}{2})} \left( \frac{p}{q} \right)^{p / 2} \frac{x^{p / 2 - 1}}{[1 + (p / q) x]^{(p + q) / 2}}, 0 < x < \infty$

那么自由度为 1 和 $q$ 的 $F$ -分布的 pdf 就为：
$\begin{aligned} f_F(x) &= \frac{\Gamma(\frac{1 + q}{2})}{\Gamma(\frac{1}{2}) \Gamma(\frac{q}{2})} \left( \frac{1}{q} \right)^{1 / 2} \frac{x^{-1/2}}{[1 + (x / q)]^{(1 + q) / 2}} \\ &= \frac{\Gamma(\frac{1 + q}{2})}{\Gamma(\frac{q}{2})} \frac{1}{\sqrt{\pi q}} \frac{x^{-1/2}}{[1 + (x / q)]^{(1 + q) / 2}} \\ \end{aligned}$

我们须要证明 $X^2$ 服从的分布正好是自由度为 1 和 $q$ 的 $F$ -分布。

这里的证明方法和我们在《chi square-卡方分布的定义及性质》附录中证明正态分布平方的方法一样，先表示出 $X^2$ 的累积分布函数，然后求导。具体计算方法如下。

$\begin{aligned}F(k) &= P(Y \leq k) = P(-\sqrt{k} \leq x \leq \sqrt{k} ) \\ &= \int_0^{\sqrt{k}} \frac{\Gamma({\frac{q + 1}{2})}}{\Gamma({\frac{q}{2}})} \frac{1}{\sqrt{q \pi}} \left( 1 + \frac{t^2}{q} \right)^{-\frac{q + 1}{2}} dt - \int_0^{-\sqrt{k}} \frac{\Gamma({\frac{q + 1}{2})}}{\Gamma({\frac{q}{2}})} \frac{1}{\sqrt{q \pi}} \left( 1 + \frac{t^2}{q} \right)^{-\frac{q + 1}{2}} dt \\ \end{aligned}$

对 $k$ 求导，有
$\begin{aligned} \frac{dF(k)}{dk} &= \frac{\Gamma({\frac{q + 1}{2})}}{\Gamma({\frac{q}{2}})} \frac{1}{\sqrt{q \pi}} \left( 1 + \frac{k}{q} \right)^{-\frac{q + 1}{2}} \frac{1}{2} \frac{1}{\sqrt{k}} - \frac{\Gamma({\frac{q + 1}{2})}}{\Gamma({\frac{q}{2}})} \frac{1}{\sqrt{q \pi}} \left( 1 + \frac{k}{q} \right)^{-\frac{q + 1}{2}} (-\frac{1}{2}) \frac{1}{\sqrt{k}} \\ &= \frac{\Gamma({\frac{q + 1}{2})}}{\Gamma({\frac{q}{2}})} \frac{1}{\sqrt{q \pi}} \left( 1 + \frac{k}{q} \right)^{-\frac{q + 1}{2}} \frac{1}{\sqrt{k}} \end{aligned}$

这就是自由度为 1 和 $q$ 的 $F$ -分布的 pdf。 $\square$

当 $\rightarrow \infty$ 时 $t$ -分布的极限

当 $\rightarrow \infty$ 时，对于任意 $x$ ， $t$ -分布的 pdf $\displaystyle f(x \vert p) \rightarrow \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2}$ .

这里我们用 Gamma 分布的 Stirling 公式近似来证明。Stirling 公式是说 $\displaystyle \lim_{n \rightarrow \infty} \frac{e^n n!}{n^n \sqrt{n}} = \sqrt{2 \pi}$ 。而对于 Gamma 函数，我们有
$\Gamma(z) = \sqrt{\frac{2 \pi}{z}} \left( \frac{z}{e} \right)^z \left( 1 + \mathcal{O} \big( \frac{1}{z} \big) \right)$

代入 $t$ -分布的 pdf，我们有
$\begin{aligned} \lim_{p \rightarrow \infty} \frac{\Gamma(\frac{p + 1}{2})}{\Gamma(\frac{p}{2})} &= \frac{\sqrt{\frac{2 \pi}{\frac{p + 1}{2}}}}{ \sqrt{ \frac{ 2 \pi }{ \frac{p}{2} } } } \left( \frac{ (\frac{ p + 1 }{ 2e })^{\frac{ p + 1 }{ 2 }} }{ ( \frac{ p }{2e} )^{\frac{ p }{ 2 }} } \right) (1 + \mathcal{O} (\frac{1}{p} ) ) \\ & \rightarrow \sqrt{ \frac{p}{p + 1} } \sqrt{ \frac{p + 1}{2 e} }\left(1 + \frac{1}{p} \right)^{\frac{p}{2}} = \sqrt{p / 2} \end{aligned}$

我们知道 $\displaystyle (1 + t^2 / p)^{-\frac{p + 1}{2}} \rightarrow e^{-\frac{t^2}{2}}$ 。代入上面得到的 Gamma 函数的近似，我们有 $\displaystyle f(x \vert p) \rightarrow \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2}$ 。

事实上，因为我们知道 $t$ -分布的 pdf 积分为 1，所以 Gamma 函数部分只是一个 normalization factor。所以我们在得到 $\displaystyle (1 + t^2 / p)^{-\frac{p + 1}{2}} \rightarrow e^{-\frac{t^2}{2}}$ 之后，就可以说 $t$ -分布的 pdf 当 $\rightarrow \infty$ 的极限是标准正态分布的 pdf 。

Python包中的 $t$ -分布

我们可以用 Python 中的 scipy.stats.t 来计算常用的与 $t$ -分布相关的值。

from scipy.stats import t
t.pdf(x, df)  # 自由度为 df 的 t-分布的pdf 在 x 的值

t.ppf(q, df)  # 自由度为 df 的 t-分布的q 分位值。0 <= q <=1 

t.cdf(x, df) # 自由度为 df 的 t-分布的 cdf 在 x 的值

t.rvs(df, size=1) # 生成大小为 size 的随机变量

参考文献

[1] chi square-卡方分布的定义及性质

[2] George Casella, Roger L. Berger, Statistical inference, Chapter 5.3

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，