机器学习概率论与统计学--(5)概率论:离散分布
离散分布是概率论中描述“计数”或“分类”现象的数学工具。本讲我们将深入剖析四个最重要的离散分布家族:伯努利分布、二项分布、泊松分布以及类别分布与多项式分布。我们将从定义出发,推导概率质量函数(PMF),计算期望与方差,并通过丰富的实例展示它们在实际问题中的应用。
1. 伯努利分布
1.1 定义与背景
伯努利分布是最简单的离散分布,描述一次只有两种可能结果的随机试验(如成功/失败、是/否、1/0)。这种试验被称为伯努利试验。设成功的概率为 p p p( 0 ≤ p ≤ 1 0 \le p \le 1 0≤p≤1),则随机变量 X ∼ Bernoulli ( p ) X \sim \text{Bernoulli}(p) X∼Bernoulli(p) 的取值只有 0 和 1,概率质量函数(PMF) 为:
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p . P(X=1)=p,\quad P(X=0)=1-p. P(X=1)=p,P(X=0)=1−p.
也可以写为紧凑形式:
p ( x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } . p(x) = p^x (1-p)^{1-x},\quad x\in\{0,1\}. p(x)=px(1−p)1−x,x∈{0,1}.
1.2 期望与方差
- 期望: E [ X ] = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p E[X] = 1\cdot p + 0\cdot(1-p)=p E[X]=1⋅p+0⋅(1−p)=p。
- 方差:先算 E [ X 2 ] = 1 2 ⋅ p + 0 2 ⋅ ( 1 − p ) = p E[X^2]=1^2\cdot p + 0^2\cdot(1-p)=p E[X2]=12⋅p+02⋅(1−p)=p,故
Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = p − p 2 = p ( 1 − p ) . \text{Var}(X)=E[X^2]-(E[X])^2 = p - p^2 = p(1-p). Var(X)=E[X2]−(E[X])2=p−p2=p(1−p).
方差在 p = 0.5 p=0.5 p=0.5 时最大(0.25),向两端递减,符合直觉:概率越极端,不确定性越小。
1.3 具体例子
例1(抛硬币):抛一枚均匀硬币,正面朝上视为成功, p = 0.5 p=0.5 p=0.5。则随机变量 X X X 的 PMF 为 P ( X = 1 ) = 0.5 P(X=1)=0.5 P(X=1)=0.5, P ( X = 0 ) = 0.5 P(X=0)=0.5 P(X=0)=0.5。
例2(产品质量检测):某工厂生产的产品,次品率为 2%。随机抽取一件,定义 X = 1 X=1 X=1 表示次品, X = 0 X=0 X=0 表示合格品。则 X ∼ Bernoulli ( 0.02 ) X\sim\text{Bernoulli}(0.02) X∼Bernoulli(0.02), P ( X = 1 ) = 0.02 P(X=1)=0.02 P(X=1)=0.02, P ( X = 0 ) = 0.98 P(X=0)=0.98 P(X=0)=0.98。
例3(用户点击广告):一个广告的点击率为 0.1,随机观察一次用户是否点击,定义 X = 1 X=1 X=1 为点击,则 X ∼ Bernoulli ( 0.1 ) X\sim\text{Bernoulli}(0.1) X∼Bernoulli(0.1)。
2. 二项分布
2.1 定义
二项分布是伯努利试验的“多次重复”:进行 n n n 次独立的伯努利试验,每次成功概率为 p p p,令 X X X 表示成功的总次数,则 X ∼ Binomial ( n , p ) X \sim \text{Binomial}(n,p) X∼Binomial(n,p)。
2.2 概率质量函数推导
要计算恰好成功 k k k 次的概率,分两步:
- 选择哪 k k k 次成功:从 n n n 次试验中选出 k k k 次作为成功,有 ( n k ) \binom{n}{k} (kn) 种方式。
- 概率乘积:每种指定顺序的概率为 p k ( 1 − p ) n − k p^k (1-p)^{n-k} pk(1−p)n−k(因为各次独立)。
由于所有顺序的概率相同,故:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , … , n P(X=k) = \binom{n}{k} p^k (1-p)^{n-k},\quad k=0,1,\dots,n P(X=k)=(kn)pk(1−p)n−k,k=0,1,…,n
2.3 期望与方差推导
将 X X X 表示为 n n n 个独立伯努利变量之和: X = X 1 + X 2 + ⋯ + X n X = X_1 + X_2 + \cdots + X_n X=X1+X2+⋯+Xn,其中 X i ∼ i.i.d. Bernoulli ( p ) X_i \stackrel{\text{i.i.d.}}{\sim} \text{Bernoulli}(p) Xi∼i.i.d.Bernoulli(p)。利用期望的线性性质:
E [ X ] = ∑ i = 1 n E [ X i ] = n p E[X] = \sum_{i=1}^n E[X_i] = np E[X]=i=1∑nE[Xi]=np
由于独立性,方差可加:
Var ( X ) = ∑ i = 1 n Var ( X i ) = n p ( 1 − p ) \text{Var}(X) = \sum_{i=1}^n \text{Var}(X_i) = n p (1-p) Var(X)=i=1∑nVar(Xi)=np(1−p)
2.4 参数 n n n 和 p p p 对分布形状的影响
- 固定 p p p,增大 n n n:分布更集中在 n p np np 附近,形状更对称(由中心极限定理,近似正态)。
- 固定 n n n, p p p 靠近 0 或 1 时,分布明显偏斜; p = 0.5 p=0.5 p=0.5 时对称。
2.5 具体例子
例4(硬币试验):抛一枚均匀硬币 10 次,求恰好出现 6 次正面的概率。
P ( X = 6 ) = ( 10 6 ) ( 0.5 ) 6 ( 0.5 ) 4 = 210 × ( 0.5 ) 10 ≈ 0.205 P(X=6) = \binom{10}{6} (0.5)^6 (0.5)^4 = 210 \times (0.5)^{10} \approx 0.205 P(X=6)=(610)(0.5)6(0.5)4=210×(0.5)10≈0.205
例5(产品抽检):一批产品次品率为 5%,随机抽取 20 件,求恰好有 2 件次品的概率。
P ( X = 2 ) = ( 20 2 ) ( 0.05 ) 2 ( 0.95 ) 18 ≈ 0.1887 P(X=2) = \binom{20}{2} (0.05)^2 (0.95)^{18} \approx 0.1887 P(X=2)=(220)(0.05)2(0.95)18≈0.1887
也可以求至多 2 件次品的概率: ∑ k = 0 2 ( 20 k ) 0.05 k 0.95 20 − k \sum_{k=0}^2 \binom{20}{k} 0.05^k 0.95^{20-k} ∑k=02(k20)0.05k0.9520−k。
例6(民意调查):某候选人支持率为 40%,随机调查 100 人,求支持人数在 35 到 45 之间的概率。可用二项分布计算,但实际中常利用正态近似。
例7(质量控制):某生产过程不合格品率为 0.02,从当天产品中随机抽取 500 件,求不合格品数不超过 15 的概率。这也可用泊松近似(见后)。
3. 泊松分布
3.1 定义与背景
泊松分布用于描述单位时间(或空间、体积等)内稀有事件发生的次数。其参数 λ > 0 \lambda > 0 λ>0 表示平均发生次数,随机变量 X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) X∼Poisson(λ) 的 PMF 为:
P ( X = k ) = e − λ λ k k ! , k = 0 , 1 , 2 , … P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!},\quad k = 0,1,2,\dots P(X=k)=k!e−λλk,k=0,1,2,…
3.2 期望与方差
- 期望:
E [ X ] = ∑ k = 0 ∞ k e − λ λ k k ! = λ e − λ ∑ k = 1 ∞ λ k − 1 ( k − 1 ) ! = λ e − λ ⋅ e λ = λ E[X] = \sum_{k=0}^\infty k \frac{e^{-\lambda} \lambda^k}{k!} = \lambda e^{-\lambda} \sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!} = \lambda e^{-\lambda} \cdot e^{\lambda} = \lambda E[X]=k=0∑∞kk!e−λλk=λe−λk=1∑∞(k−1)!λk−1=λe−λ⋅eλ=λ
- 方差:利用 E [ X ( X − 1 ) ] = λ 2 E[X(X-1)] = \lambda^2 E[X(X−1)]=λ2 可导出 Var ( X ) = λ \text{Var}(X) = \lambda Var(X)=λ。即泊松分布的期望与方差相等,这是其重要特征。
3.3 与二项分布的关系(泊松定理)
当二项分布中 n n n 很大、 p p p 很小,且 n p = λ np = \lambda np=λ 保持适中时,二项分布近似泊松分布:
lim n → ∞ , p → 0 , n p = λ ( n k ) p k ( 1 − p ) n − k = e − λ λ k k ! \lim_{n\to\infty,\,p\to0,\,np=\lambda} \binom{n}{k} p^k (1-p)^{n-k} = \frac{e^{-\lambda} \lambda^k}{k!} n→∞,p→0,np=λlim(kn)pk(1−p)n−k=k!e−λλk
这一性质使泊松分布成为稀有事件计数的理想模型。
推导概要:设 p = λ / n p = \lambda/n p=λ/n,则
( n k ) p k ( 1 − p ) n − k = n ( n − 1 ) ⋯ ( n − k + 1 ) k ! ⋅ λ k n k ⋅ ( 1 − λ n ) n − k \binom{n}{k} p^k (1-p)^{n-k} = \frac{n(n-1)\cdots(n-k+1)}{k!} \cdot \frac{\lambda^k}{n^k} \cdot \left(1-\frac{\lambda}{n}\right)^{n-k} (kn)pk(1−p)n−k=k!n(n−1)⋯(n−k+1)⋅nkλk⋅(1−nλ)n−k
当 n → ∞ n\to\infty n→∞ 时,第一项趋近 1,第三项趋近 e − λ e^{-\lambda} e−λ,故极限为 e − λ λ k k ! \frac{e^{-\lambda}\lambda^k}{k!} k!e−λλk。
3.4 具体例子
例8(网站访问量):某网站平均每分钟有 3 次访问,求一分钟内恰好有 5 次访问的概率。
P ( X = 5 ) = e − 3 3 5 5 ! ≈ 0.1008 P(X=5) = \frac{e^{-3} 3^5}{5!} \approx 0.1008 P(X=5)=5!e−335≈0.1008
例9(交通事故):某路口平均每月发生 2 起交通事故,求下个月发生 0 起的概率。
P ( X = 0 ) = e − 2 ≈ 0.1353 P(X=0) = e^{-2} \approx 0.1353 P(X=0)=e−2≈0.1353
例10(产品质量问题):一批产品次品率极低(0.001),从 1000 件中随机抽取,求次品数不超过 2 的概率。精确二项计算复杂,用泊松近似 λ = 1000 × 0.001 = 1 \lambda = 1000 \times 0.001 = 1 λ=1000×0.001=1:
P ( X ≤ 2 ) ≈ e − 1 ( 1 + 1 + 1 2 ) = 2.5 e − 1 ≈ 0.9197 P(X \le 2) \approx e^{-1} \left(1 + 1 + \frac{1}{2}\right) = 2.5 e^{-1} \approx 0.9197 P(X≤2)≈e−1(1+1+21)=2.5e−1≈0.9197
实际二项计算得约 0.9198,近似效果很好。
例11(放射性衰变):某放射性物质每秒平均发射 4 个α粒子,求每秒恰好发射 6 个的概率。用 λ = 4 \lambda=4 λ=4 的泊松分布。
例12(客服电话):某客服中心平均每小时接到 10 通电话,求半小时内接到 3 通的概率。半小时的 λ = 5 \lambda = 5 λ=5,则
P ( X = 3 ) = e − 5 5 3 6 ≈ 0.1404 P(X=3) = \frac{e^{-5} 5^3}{6} \approx 0.1404 P(X=3)=6e−553≈0.1404
4. 类别分布与多项式分布
当试验结果多于两种时,伯努利和二项分布需要推广到多类别情形。
4.1 类别分布
定义:一次试验有 K K K 种可能结果,每种结果发生的概率为 p 1 , p 2 , … , p K p_1, p_2, \dots, p_K p1,p2,…,pK,满足 ∑ i = 1 K p i = 1 \sum_{i=1}^K p_i = 1 ∑i=1Kpi=1。常用一个 K K K 维指示向量 X = ( X 1 , … , X K ) \mathbf{X} = (X_1, \dots, X_K) X=(X1,…,XK) 表示,其中 X i = 1 X_i = 1 Xi=1 如果结果是第 i i i 类,否则 0,且 ∑ i = 1 K X i = 1 \sum_{i=1}^K X_i = 1 ∑i=1KXi=1。其 PMF 为:
P ( X 1 = x 1 , … , X K = x K ) = ∏ i = 1 K p i x i , x i ∈ { 0 , 1 } , ∑ x i = 1 P(X_1=x_1,\dots,X_K=x_K) = \prod_{i=1}^K p_i^{x_i},\quad x_i\in\{0,1\},\ \sum x_i=1 P(X1=x1,…,XK=xK)=i=1∏Kpixi,xi∈{0,1}, ∑xi=1
类别分布有时记作 Categorical ( p 1 , … , p K ) \text{Categorical}(p_1,\dots,p_K) Categorical(p1,…,pK)。显然,当 K = 2 K=2 K=2 时退化为伯努利分布。
符号解读
- ∏ \prod ∏ 是连乘符号,类似于 ∑ \sum ∑ 表示求和, ∏ \prod ∏ 表示求积。
- 下标 i = 1 i=1 i=1,上标 K K K 表示对 i i i 从 1 到 K K K 遍历。
- p i x i p_i^{x_i} pixi 表示第 i i i 个变量 p i p_i pi 的 x i x_i xi 次幂。
例子:
- 掷骰子:结果有 6 类,每类概率 1/6, K = 6 K=6 K=6。
- 天气预测:晴、雨、阴三类,概率分别为 0.5, 0.3, 0.2。
4.2 多项式分布
定义:进行 n n n 次独立的类别试验,每次试验结果有 K K K 类,概率分别为 p 1 , … , p K p_1,\dots,p_K p1,…,pK。令 X i X_i Xi 表示第 i i i 类出现的总次数,则向量 ( X 1 , … , X K ) (X_1,\dots,X_K) (X1,…,XK) 服从多项式分布,记作 Multinomial ( n ; p 1 , … , p K ) \text{Multinomial}(n; p_1,\dots,p_K) Multinomial(n;p1,…,pK)。其联合 PMF 为:
P ( X 1 = n 1 , … , X K = n K ) = n ! n 1 ! n 2 ! ⋯ n K ! p 1 n 1 p 2 n 2 ⋯ p K n K P(X_1=n_1,\dots,X_K=n_K) = \frac{n!}{n_1!\,n_2!\,\cdots\,n_K!} \, p_1^{n_1} p_2^{n_2} \cdots p_K^{n_K} P(X1=n1,…,XK=nK)=n1!n2!⋯nK!n!p1n1p2n2⋯pKnK
其中 n i ≥ 0 n_i \ge 0 ni≥0, ∑ i = 1 K n i = n \sum_{i=1}^K n_i = n ∑i=1Kni=n。多项式系数 n ! n 1 ! ⋯ n K ! \frac{n!}{n_1!\cdots n_K!} n1!⋯nK!n! 是计数所有可能的顺序排列。
推导:每一种特定顺序(即第1类出现 n 1 n_1 n1 次,第2类 n 2 n_2 n2 次,…)的概率为 p 1 n 1 p 2 n 2 ⋯ p K n K p_1^{n_1} p_2^{n_2} \cdots p_K^{n_K} p1n1p2n2⋯pKnK,而所有满足计数条件的顺序总数为多项式系数。
4.3 数字特征
- 边缘分布:每个 X i X_i Xi 服从二项分布 Binomial ( n , p i ) \text{Binomial}(n, p_i) Binomial(n,pi),因此
E [ X i ] = n p i , Var ( X i ) = n p i ( 1 − p i ) E[X_i] = n p_i,\quad \text{Var}(X_i) = n p_i (1-p_i) E[Xi]=npi,Var(Xi)=npi(1−pi)
- 协方差:对 i ≠ j i \neq j i=j,由于在一次试验中两类不能同时出现,有
Cov ( X i , X j ) = − n p i p j \text{Cov}(X_i, X_j) = -n p_i p_j Cov(Xi,Xj)=−npipj
推导:将 X i = ∑ t = 1 n I i t X_i = \sum_{t=1}^n I_{it} Xi=∑t=1nIit, X j = ∑ t = 1 n I j t X_j = \sum_{t=1}^n I_{jt} Xj=∑t=1nIjt,其中 I i t I_{it} Iit 是第 t t t 次试验是否为第 i i i 类的指示变量。对于单次试验, E [ I i t I j t ] = 0 E[I_{it}I_{jt}] = 0 E[IitIjt]=0(因为不能同时为1),故
Cov ( I i t , I j t ) = E [ I i t I j t ] − E [ I i t ] E [ I j t ] = − p i p j . \text{Cov}(I_{it}, I_{jt}) = E[I_{it}I_{jt}] - E[I_{it}]E[I_{jt}] = -p_i p_j. Cov(Iit,Ijt)=E[IitIjt]−E[Iit]E[Ijt]=−pipj.
求和即得。
4.4 具体例子
例13(掷骰子多次):掷一枚均匀骰子 12 次,求点数1出现2次,点数2出现3次,其余各点出现次数之和为7的概率。此时 n = 12 n=12 n=12, K = 6 K=6 K=6, p i = 1 / 6 p_i=1/6 pi=1/6。若指定次数: n 1 = 2 , n 2 = 3 , n 3 = 1 , n 4 = 2 , n 5 = 2 , n 6 = 2 n_1=2, n_2=3, n_3=1, n_4=2, n_5=2, n_6=2 n1=2,n2=3,n3=1,n4=2,n5=2,n6=2(和为12),则
P = 12 ! 2 ! 3 ! 1 ! 2 ! 2 ! 2 ! ( 1 6 ) 12 P = \frac{12!}{2!\,3!\,1!\,2!\,2!\,2!} \left(\frac{1}{6}\right)^{12} P=2!3!1!2!2!2!12!(61)12
例14(投票预测):某选区有三位候选人,支持率分别为 0.4, 0.35, 0.25。随机调查 100 位选民,求三人得票分别为 45, 35, 20 的概率(假设无弃权):
P = 100 ! 45 ! 35 ! 20 ! ( 0.4 ) 45 ( 0.35 ) 35 ( 0.25 ) 20 P = \frac{100!}{45!\,35!\,20!} (0.4)^{45}(0.35)^{35}(0.25)^{20} P=45!35!20!100!(0.4)45(0.35)35(0.25)20
例15(词袋模型):在一篇文档中,假设词汇有 1000 个,每个位置上的词服从类别分布(多项式分布 n = 1 n=1 n=1),整篇文档的 500 个词构成一个多项式分布。这是自然语言处理中的经典模型。
5. 总结与联系
| 分布 | 参数 | 试验次数 | 结果数 | 典型应用 |
|---|---|---|---|---|
| 伯努利 | p p p | 1 | 2 | 单次成功/失败 |
| 二项 | n , p n, p n,p | n n n | 2 | 固定次数成功计数 |
| 泊松 | λ \lambda λ | 不定(时间/空间) | 无穷 | 稀有事件计数 |
| 类别 | p 1 , … , p K p_1,\dots,p_K p1,…,pK | 1 | K K K | 单次多类结果 |
| 多项式 | n , p 1 , … , p K n, p_1,\dots,p_K n,p1,…,pK | n n n | K K K | 多类计数 |
这些离散分布相互关联:
- 伯努利是二项分布的特例( n = 1 n=1 n=1),也是类别分布的特例( K = 2 K=2 K=2)。
- 二项分布是多项式分布的特例( K = 2 K=2 K=2)。
- 泊松分布是二项分布的极限( n n n 大, p p p 小)。
- 类别分布是多项式分布的特例( n = 1 n=1 n=1)。
掌握这些分布及其数字特征,能够帮助我们在实际中合理建模,并为后续学习统计推断、机器学习算法(如朴素贝叶斯、隐马尔可夫模型等)奠定坚实基础。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)