机器学习概率论与统计学--(5)概率论：离散分布

Zero

488人浏览 · 2026-03-25 14:35:57

Zero · 2026-03-25 14:35:57 发布

离散分布是概率论中描述“计数”或“分类”现象的数学工具。本讲我们将深入剖析四个最重要的离散分布家族：伯努利分布、二项分布、泊松分布以及类别分布与多项式分布。我们将从定义出发，推导概率质量函数（PMF），计算期望与方差，并通过丰富的实例展示它们在实际问题中的应用。

1. 伯努利分布

1.1 定义与背景

伯努利分布是最简单的离散分布，描述一次只有两种可能结果的随机试验（如成功/失败、是/否、1/0）。这种试验被称为伯努利试验。设成功的概率为 $p$ （ $\le p \le 1$ ），则随机变量 $\sim \text{Bernoulli}(p)$ 的取值只有 0 和 1，概率质量函数（PMF） 为：
$P(X=1)=p,\quad P(X=0)=1-p.$
也可以写为紧凑形式：
$p^x (1-p)^{1-x},\quad x\in\{0,1\}.$

1.2 期望与方差

期望： $1\cdot p + 0\cdot(1-p)=p$ 。
方差：先算 $E[X^2]=1^2\cdot p + 0^2\cdot(1-p)=p$ ，故

$\text{Var}(X)=E[X^2]-(E[X])^2 = p - p^2 = p(1-p).$

方差在 $p = 0.5$ 时最大（0.25），向两端递减，符合直觉：概率越极端，不确定性越小。

1.3 具体例子

例1（抛硬币）：抛一枚均匀硬币，正面朝上视为成功， $p = 0.5$ 。则随机变量 $X$ 的 PMF 为 $P (X = 1) = 0.5$ ， $P (X = 0) = 0.5$ 。

例2（产品质量检测）：某工厂生产的产品，次品率为 2%。随机抽取一件，定义 $X = 1$ 表示次品， $X = 0$ 表示合格品。则 $X\sim\text{Bernoulli}(0.02)$ ， $P (X = 1) = 0.02$ ， $P (X = 0) = 0.98$ 。

例3（用户点击广告）：一个广告的点击率为 0.1，随机观察一次用户是否点击，定义 $X = 1$ 为点击，则 $X\sim\text{Bernoulli}(0.1)$ 。

2. 二项分布

2.1 定义

二项分布是伯努利试验的“多次重复”：进行 $n$ 次独立的伯努利试验，每次成功概率为 $p$ ，令 $X$ 表示成功的总次数，则 $\sim \text{Binomial}(n,p)$ 。

2.2 概率质量函数推导

要计算恰好成功 $k$ 次的概率，分两步：

选择哪 $k$ 次成功：从 $n$ 次试验中选出 $k$ 次作为成功，有 $\binom{n}{k}$ 种方式。
概率乘积：每种指定顺序的概率为 $p^k (1-p)^{n-k}$ （因为各次独立）。
由于所有顺序的概率相同，故：

$\binom{n}{k} p^k (1-p)^{n-k},\quad k=0,1,\dots,n$

2.3 期望与方差推导

将 $X$ 表示为 $n$ 个独立伯努利变量之和： $X_1 + X_2 + \cdots + X_n$ ，其中 $X_i \stackrel{\text{i.i.d.}}{\sim} \text{Bernoulli}(p)$ 。利用期望的线性性质：
$\sum_{i=1}^n E[X_i] = np$
由于独立性，方差可加：
$\text{Var}(X) = \sum_{i=1}^n \text{Var}(X_i) = n p (1-p)$

2.4 参数 $n$ 和 $p$ 对分布形状的影响

固定 $p$ ，增大 $n$ ：分布更集中在 $n p$ 附近，形状更对称（由中心极限定理，近似正态）。
固定 $n$ ， $p$ 靠近 0 或 1 时，分布明显偏斜； $p = 0.5$ 时对称。

2.5 具体例子

例4（硬币试验）：抛一枚均匀硬币 10 次，求恰好出现 6 次正面的概率。
$\binom{10}{6} (0.5)^6 (0.5)^4 = 210 \times (0.5)^{10} \approx 0.205$

例5（产品抽检）：一批产品次品率为 5%，随机抽取 20 件，求恰好有 2 件次品的概率。
$\binom{20}{2} (0.05)^2 (0.95)^{18} \approx 0.1887$
也可以求至多 2 件次品的概率： $\sum_{k=0}^2 \binom{20}{k} 0.05^k 0.95^{20-k}$ 。

例6（民意调查）：某候选人支持率为 40%，随机调查 100 人，求支持人数在 35 到 45 之间的概率。可用二项分布计算，但实际中常利用正态近似。

例7（质量控制）：某生产过程不合格品率为 0.02，从当天产品中随机抽取 500 件，求不合格品数不超过 15 的概率。这也可用泊松近似（见后）。

3. 泊松分布

3.1 定义与背景

泊松分布用于描述单位时间（或空间、体积等）内稀有事件发生的次数。其参数 $\lambda > 0$ 表示平均发生次数，随机变量 $\sim \text{Poisson}(\lambda)$ 的 PMF 为：
$\frac{e^{-\lambda} \lambda^k}{k!},\quad k = 0,1,2,\dots$

3.2 期望与方差

期望：

$\sum_{k=0}^\infty k \frac{e^{-\lambda} \lambda^k}{k!} = \lambda e^{-\lambda} \sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!} = \lambda e^{-\lambda} \cdot e^{\lambda} = \lambda$

方差：利用 $\lambda^2$ 可导出 $\text{Var}(X) = \lambda$ 。即泊松分布的期望与方差相等，这是其重要特征。

3.3 与二项分布的关系（泊松定理）

当二项分布中 $n$ 很大、 $p$ 很小，且 $\lambda$ 保持适中时，二项分布近似泊松分布：
$\lim_{n\to\infty,\,p\to0,\,np=\lambda} \binom{n}{k} p^k (1-p)^{n-k} = \frac{e^{-\lambda} \lambda^k}{k!}$
这一性质使泊松分布成为稀有事件计数的理想模型。

推导概要：设 $\lambda/n$ ，则
$\binom{n}{k} p^k (1-p)^{n-k} = \frac{n(n-1)\cdots(n-k+1)}{k!} \cdot \frac{\lambda^k}{n^k} \cdot \left(1-\frac{\lambda}{n}\right)^{n-k}$
当 $n\to\infty$ 时，第一项趋近 1，第三项趋近 $e^{-\lambda}$ ，故极限为 $\frac{e^{-\lambda}\lambda^k}{k!}$ 。

3.4 具体例子

例8（网站访问量）：某网站平均每分钟有 3 次访问，求一分钟内恰好有 5 次访问的概率。
$\frac{e^{-3} 3^5}{5!} \approx 0.1008$

例9（交通事故）：某路口平均每月发生 2 起交通事故，求下个月发生 0 起的概率。
$e^{-2} \approx 0.1353$

例10（产品质量问题）：一批产品次品率极低（0.001），从 1000 件中随机抽取，求次品数不超过 2 的概率。精确二项计算复杂，用泊松近似 $\lambda = 1000 \times 0.001 = 1$ ：
$\le 2) \approx e^{-1} \left(1 + 1 + \frac{1}{2}\right) = 2.5 e^{-1} \approx 0.9197$
实际二项计算得约 0.9198，近似效果很好。

例11（放射性衰变）：某放射性物质每秒平均发射 4 个α粒子，求每秒恰好发射 6 个的概率。用 $\lambda=4$ 的泊松分布。

例12（客服电话）：某客服中心平均每小时接到 10 通电话，求半小时内接到 3 通的概率。半小时的 $\lambda = 5$ ，则
$\frac{e^{-5} 5^3}{6} \approx 0.1404$

4. 类别分布与多项式分布

当试验结果多于两种时，伯努利和二项分布需要推广到多类别情形。

4.1 类别分布

定义：一次试验有 $K$ 种可能结果，每种结果发生的概率为 $p_1, p_2, \dots, p_K$ ，满足 $\sum_{i=1}^K p_i = 1$ 。常用一个 $K$ 维指示向量 $\mathbf{X} = (X_1, \dots, X_K)$ 表示，其中 $X_i = 1$ 如果结果是第 $i$ 类，否则 0，且 $\sum_{i=1}^K X_i = 1$ 。其 PMF 为：
$P(X_1=x_1,\dots,X_K=x_K) = \prod_{i=1}^K p_i^{x_i},\quad x_i\in\{0,1\},\ \sum x_i=1$
类别分布有时记作 $\text{Categorical}(p_1,\dots,p_K)$ 。显然，当 $K = 2$ 时退化为伯努利分布。

符号解读

$\prod$ 是连乘符号，类似于 $\sum$ 表示求和， $\prod$ 表示求积。

下标 $i = 1$ ，上标 $K$ 表示对 $i$ 从 1 到 $K$ 遍历。

$p_i^{x_i}$ 表示第 $i$ 个变量 $p_i$ 的 $x_i$ 次幂。

例子：

掷骰子：结果有 6 类，每类概率 1/6， $K = 6$ 。
天气预测：晴、雨、阴三类，概率分别为 0.5, 0.3, 0.2。

4.2 多项式分布

定义：进行 $n$ 次独立的类别试验，每次试验结果有 $K$ 类，概率分别为 $p_1,\dots,p_K$ 。令 $X_i$ 表示第 $i$ 类出现的总次数，则向量 $(X_1,\dots,X_K)$ 服从多项式分布，记作 $\text{Multinomial}(n; p_1,\dots,p_K)$ 。其联合 PMF 为：
$P(X_1=n_1,\dots,X_K=n_K) = \frac{n!}{n_1!\,n_2!\,\cdots\,n_K!} \, p_1^{n_1} p_2^{n_2} \cdots p_K^{n_K}$
其中 $n_i \ge 0$ ， $\sum_{i=1}^K n_i = n$ 。多项式系数 $\frac{n!}{n_1!\cdots n_K!}$ 是计数所有可能的顺序排列。

推导：每一种特定顺序（即第1类出现 $n_1$ 次，第2类 $n_2$ 次，…）的概率为 $p_1^{n_1} p_2^{n_2} \cdots p_K^{n_K}$ ，而所有满足计数条件的顺序总数为多项式系数。

4.3 数字特征

边缘分布：每个 $X_i$ 服从二项分布 $\text{Binomial}(n, p_i)$ ，因此

$E[X_i] = n p_i,\quad \text{Var}(X_i) = n p_i (1-p_i)$

协方差：对 $\neq j$ ，由于在一次试验中两类不能同时出现，有

$\text{Cov}(X_i, X_j) = -n p_i p_j$

推导：将 $X_i = \sum_{t=1}^n I_{it}$ ， $X_j = \sum_{t=1}^n I_{jt}$ ，其中 $I_{it}$ 是第 $t$ 次试验是否为第 $i$ 类的指示变量。对于单次试验， $E[I_{it}I_{jt}] = 0$ （因为不能同时为1），故
$\text{Cov}(I_{it}, I_{jt}) = E[I_{it}I_{jt}] - E[I_{it}]E[I_{jt}] = -p_i p_j.$
求和即得。

4.4 具体例子

例13（掷骰子多次）：掷一枚均匀骰子 12 次，求点数1出现2次，点数2出现3次，其余各点出现次数之和为7的概率。此时 $n = 12$ ， $K = 6$ ， $p_i=1/6$ 。若指定次数： $n_1=2, n_2=3, n_3=1, n_4=2, n_5=2, n_6=2$ （和为12），则
$\frac{12!}{2!\,3!\,1!\,2!\,2!\,2!} \left(\frac{1}{6}\right)^{12}$

例14（投票预测）：某选区有三位候选人，支持率分别为 0.4, 0.35, 0.25。随机调查 100 位选民，求三人得票分别为 45, 35, 20 的概率（假设无弃权）：
$\frac{100!}{45!\,35!\,20!} (0.4)^{45}(0.35)^{35}(0.25)^{20}$

例15（词袋模型）：在一篇文档中，假设词汇有 1000 个，每个位置上的词服从类别分布（多项式分布 $n = 1$ ），整篇文档的 500 个词构成一个多项式分布。这是自然语言处理中的经典模型。

5. 总结与联系

分布	参数	试验次数	结果数	典型应用
伯努利	$p$	1	2	单次成功/失败
二项	$n, p$	$n$	2	固定次数成功计数
泊松	$\lambda$	不定（时间/空间）	无穷	稀有事件计数
类别	$p_1,\dots,p_K$	1	$K$	单次多类结果
多项式	$p_1,\dots,p_K$	$n$	$K$	多类计数