离散分布是概率论中描述“计数”或“分类”现象的数学工具。本讲我们将深入剖析四个最重要的离散分布家族:伯努利分布二项分布泊松分布以及类别分布与多项式分布。我们将从定义出发,推导概率质量函数(PMF),计算期望与方差,并通过丰富的实例展示它们在实际问题中的应用。


1. 伯努利分布

1.1 定义与背景

伯努利分布是最简单的离散分布,描述一次只有两种可能结果的随机试验(如成功/失败、是/否、1/0)。这种试验被称为伯努利试验。设成功的概率为 p p p 0 ≤ p ≤ 1 0 \le p \le 1 0p1),则随机变量 X ∼ Bernoulli ( p ) X \sim \text{Bernoulli}(p) XBernoulli(p) 的取值只有 0 和 1,概率质量函数(PMF) 为:
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p . P(X=1)=p,\quad P(X=0)=1-p. P(X=1)=p,P(X=0)=1p.
也可以写为紧凑形式:
p ( x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } . p(x) = p^x (1-p)^{1-x},\quad x\in\{0,1\}. p(x)=px(1p)1x,x{0,1}.

1.2 期望与方差

  • 期望 E [ X ] = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p E[X] = 1\cdot p + 0\cdot(1-p)=p E[X]=1p+0(1p)=p
  • 方差:先算 E [ X 2 ] = 1 2 ⋅ p + 0 2 ⋅ ( 1 − p ) = p E[X^2]=1^2\cdot p + 0^2\cdot(1-p)=p E[X2]=12p+02(1p)=p,故

Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = p − p 2 = p ( 1 − p ) . \text{Var}(X)=E[X^2]-(E[X])^2 = p - p^2 = p(1-p). Var(X)=E[X2](E[X])2=pp2=p(1p).

方差在 p = 0.5 p=0.5 p=0.5 时最大(0.25),向两端递减,符合直觉:概率越极端,不确定性越小。

1.3 具体例子

例1(抛硬币):抛一枚均匀硬币,正面朝上视为成功, p = 0.5 p=0.5 p=0.5。则随机变量 X X X 的 PMF 为 P ( X = 1 ) = 0.5 P(X=1)=0.5 P(X=1)=0.5 P ( X = 0 ) = 0.5 P(X=0)=0.5 P(X=0)=0.5

例2(产品质量检测):某工厂生产的产品,次品率为 2%。随机抽取一件,定义 X = 1 X=1 X=1 表示次品, X = 0 X=0 X=0 表示合格品。则 X ∼ Bernoulli ( 0.02 ) X\sim\text{Bernoulli}(0.02) XBernoulli(0.02) P ( X = 1 ) = 0.02 P(X=1)=0.02 P(X=1)=0.02 P ( X = 0 ) = 0.98 P(X=0)=0.98 P(X=0)=0.98

例3(用户点击广告):一个广告的点击率为 0.1,随机观察一次用户是否点击,定义 X = 1 X=1 X=1 为点击,则 X ∼ Bernoulli ( 0.1 ) X\sim\text{Bernoulli}(0.1) XBernoulli(0.1)


2. 二项分布

2.1 定义

二项分布是伯努利试验的“多次重复”:进行 n n n 次独立的伯努利试验,每次成功概率为 p p p,令 X X X 表示成功的总次数,则 X ∼ Binomial ( n , p ) X \sim \text{Binomial}(n,p) XBinomial(n,p)

2.2 概率质量函数推导

要计算恰好成功 k k k 次的概率,分两步:

  1. 选择哪 k k k 次成功:从 n n n 次试验中选出 k k k 次作为成功,有 ( n k ) \binom{n}{k} (kn) 种方式。
  2. 概率乘积:每种指定顺序的概率为 p k ( 1 − p ) n − k p^k (1-p)^{n-k} pk(1p)nk(因为各次独立)。
    由于所有顺序的概率相同,故:

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , … , n P(X=k) = \binom{n}{k} p^k (1-p)^{n-k},\quad k=0,1,\dots,n P(X=k)=(kn)pk(1p)nk,k=0,1,,n

2.3 期望与方差推导

X X X 表示为 n n n 个独立伯努利变量之和: X = X 1 + X 2 + ⋯ + X n X = X_1 + X_2 + \cdots + X_n X=X1+X2++Xn,其中 X i ∼ i.i.d. Bernoulli ( p ) X_i \stackrel{\text{i.i.d.}}{\sim} \text{Bernoulli}(p) Xii.i.d.Bernoulli(p)。利用期望的线性性质:
E [ X ] = ∑ i = 1 n E [ X i ] = n p E[X] = \sum_{i=1}^n E[X_i] = np E[X]=i=1nE[Xi]=np
由于独立性,方差可加:
Var ( X ) = ∑ i = 1 n Var ( X i ) = n p ( 1 − p ) \text{Var}(X) = \sum_{i=1}^n \text{Var}(X_i) = n p (1-p) Var(X)=i=1nVar(Xi)=np(1p)

2.4 参数 n n n p p p 对分布形状的影响

  • 固定 p p p,增大 n n n:分布更集中在 n p np np 附近,形状更对称(由中心极限定理,近似正态)。
  • 固定 n n n p p p 靠近 0 或 1 时,分布明显偏斜; p = 0.5 p=0.5 p=0.5 时对称。

2.5 具体例子

例4(硬币试验):抛一枚均匀硬币 10 次,求恰好出现 6 次正面的概率。
P ( X = 6 ) = ( 10 6 ) ( 0.5 ) 6 ( 0.5 ) 4 = 210 × ( 0.5 ) 10 ≈ 0.205 P(X=6) = \binom{10}{6} (0.5)^6 (0.5)^4 = 210 \times (0.5)^{10} \approx 0.205 P(X=6)=(610)(0.5)6(0.5)4=210×(0.5)100.205

例5(产品抽检):一批产品次品率为 5%,随机抽取 20 件,求恰好有 2 件次品的概率。
P ( X = 2 ) = ( 20 2 ) ( 0.05 ) 2 ( 0.95 ) 18 ≈ 0.1887 P(X=2) = \binom{20}{2} (0.05)^2 (0.95)^{18} \approx 0.1887 P(X=2)=(220)(0.05)2(0.95)180.1887
也可以求至多 2 件次品的概率: ∑ k = 0 2 ( 20 k ) 0.05 k 0.95 20 − k \sum_{k=0}^2 \binom{20}{k} 0.05^k 0.95^{20-k} k=02(k20)0.05k0.9520k

例6(民意调查):某候选人支持率为 40%,随机调查 100 人,求支持人数在 35 到 45 之间的概率。可用二项分布计算,但实际中常利用正态近似。

例7(质量控制):某生产过程不合格品率为 0.02,从当天产品中随机抽取 500 件,求不合格品数不超过 15 的概率。这也可用泊松近似(见后)。


3. 泊松分布

3.1 定义与背景

泊松分布用于描述单位时间(或空间、体积等)内稀有事件发生的次数。其参数 λ > 0 \lambda > 0 λ>0 表示平均发生次数,随机变量 X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) XPoisson(λ) 的 PMF 为:
P ( X = k ) = e − λ λ k k ! , k = 0 , 1 , 2 , … P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!},\quad k = 0,1,2,\dots P(X=k)=k!eλλk,k=0,1,2,

3.2 期望与方差

  • 期望

E [ X ] = ∑ k = 0 ∞ k e − λ λ k k ! = λ e − λ ∑ k = 1 ∞ λ k − 1 ( k − 1 ) ! = λ e − λ ⋅ e λ = λ E[X] = \sum_{k=0}^\infty k \frac{e^{-\lambda} \lambda^k}{k!} = \lambda e^{-\lambda} \sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!} = \lambda e^{-\lambda} \cdot e^{\lambda} = \lambda E[X]=k=0kk!eλλk=λeλk=1(k1)!λk1=λeλeλ=λ

  • 方差:利用 E [ X ( X − 1 ) ] = λ 2 E[X(X-1)] = \lambda^2 E[X(X1)]=λ2 可导出 Var ( X ) = λ \text{Var}(X) = \lambda Var(X)=λ。即泊松分布的期望与方差相等,这是其重要特征。

3.3 与二项分布的关系(泊松定理)

当二项分布中 n n n 很大、 p p p 很小,且 n p = λ np = \lambda np=λ 保持适中时,二项分布近似泊松分布:
lim ⁡ n → ∞ ,   p → 0 ,   n p = λ ( n k ) p k ( 1 − p ) n − k = e − λ λ k k ! \lim_{n\to\infty,\,p\to0,\,np=\lambda} \binom{n}{k} p^k (1-p)^{n-k} = \frac{e^{-\lambda} \lambda^k}{k!} n,p0,np=λlim(kn)pk(1p)nk=k!eλλk
这一性质使泊松分布成为稀有事件计数的理想模型。

推导概要:设 p = λ / n p = \lambda/n p=λ/n,则
( n k ) p k ( 1 − p ) n − k = n ( n − 1 ) ⋯ ( n − k + 1 ) k ! ⋅ λ k n k ⋅ ( 1 − λ n ) n − k \binom{n}{k} p^k (1-p)^{n-k} = \frac{n(n-1)\cdots(n-k+1)}{k!} \cdot \frac{\lambda^k}{n^k} \cdot \left(1-\frac{\lambda}{n}\right)^{n-k} (kn)pk(1p)nk=k!n(n1)(nk+1)nkλk(1nλ)nk
n → ∞ n\to\infty n 时,第一项趋近 1,第三项趋近 e − λ e^{-\lambda} eλ,故极限为 e − λ λ k k ! \frac{e^{-\lambda}\lambda^k}{k!} k!eλλk

3.4 具体例子

例8(网站访问量):某网站平均每分钟有 3 次访问,求一分钟内恰好有 5 次访问的概率。
P ( X = 5 ) = e − 3 3 5 5 ! ≈ 0.1008 P(X=5) = \frac{e^{-3} 3^5}{5!} \approx 0.1008 P(X=5)=5!e3350.1008

例9(交通事故):某路口平均每月发生 2 起交通事故,求下个月发生 0 起的概率。
P ( X = 0 ) = e − 2 ≈ 0.1353 P(X=0) = e^{-2} \approx 0.1353 P(X=0)=e20.1353

例10(产品质量问题):一批产品次品率极低(0.001),从 1000 件中随机抽取,求次品数不超过 2 的概率。精确二项计算复杂,用泊松近似 λ = 1000 × 0.001 = 1 \lambda = 1000 \times 0.001 = 1 λ=1000×0.001=1
P ( X ≤ 2 ) ≈ e − 1 ( 1 + 1 + 1 2 ) = 2.5 e − 1 ≈ 0.9197 P(X \le 2) \approx e^{-1} \left(1 + 1 + \frac{1}{2}\right) = 2.5 e^{-1} \approx 0.9197 P(X2)e1(1+1+21)=2.5e10.9197
实际二项计算得约 0.9198,近似效果很好。

例11(放射性衰变):某放射性物质每秒平均发射 4 个α粒子,求每秒恰好发射 6 个的概率。用 λ = 4 \lambda=4 λ=4 的泊松分布。

例12(客服电话):某客服中心平均每小时接到 10 通电话,求半小时内接到 3 通的概率。半小时的 λ = 5 \lambda = 5 λ=5,则
P ( X = 3 ) = e − 5 5 3 6 ≈ 0.1404 P(X=3) = \frac{e^{-5} 5^3}{6} \approx 0.1404 P(X=3)=6e5530.1404


4. 类别分布与多项式分布

当试验结果多于两种时,伯努利和二项分布需要推广到多类别情形。

4.1 类别分布

定义:一次试验有 K K K 种可能结果,每种结果发生的概率为 p 1 , p 2 , … , p K p_1, p_2, \dots, p_K p1,p2,,pK,满足 ∑ i = 1 K p i = 1 \sum_{i=1}^K p_i = 1 i=1Kpi=1。常用一个 K K K 维指示向量 X = ( X 1 , … , X K ) \mathbf{X} = (X_1, \dots, X_K) X=(X1,,XK) 表示,其中 X i = 1 X_i = 1 Xi=1 如果结果是第 i i i 类,否则 0,且 ∑ i = 1 K X i = 1 \sum_{i=1}^K X_i = 1 i=1KXi=1。其 PMF 为:
P ( X 1 = x 1 , … , X K = x K ) = ∏ i = 1 K p i x i , x i ∈ { 0 , 1 } ,   ∑ x i = 1 P(X_1=x_1,\dots,X_K=x_K) = \prod_{i=1}^K p_i^{x_i},\quad x_i\in\{0,1\},\ \sum x_i=1 P(X1=x1,,XK=xK)=i=1Kpixi,xi{0,1}, xi=1
类别分布有时记作 Categorical ( p 1 , … , p K ) \text{Categorical}(p_1,\dots,p_K) Categorical(p1,,pK)。显然,当 K = 2 K=2 K=2 时退化为伯努利分布。

符号解读

  • ∏ \prod 是连乘符号,类似于 ∑ \sum 表示求和, ∏ \prod 表示求积。
  • 下标 i = 1 i=1 i=1,上标 K K K 表示对 i i i 从 1 到 K K K 遍历。
  • p i x i p_i^{x_i} pixi 表示第 i i i 个变量 p i p_i pi x i x_i xi 次幂。

例子

  • 掷骰子:结果有 6 类,每类概率 1/6, K = 6 K=6 K=6
  • 天气预测:晴、雨、阴三类,概率分别为 0.5, 0.3, 0.2。

4.2 多项式分布

定义:进行 n n n 次独立的类别试验,每次试验结果有 K K K 类,概率分别为 p 1 , … , p K p_1,\dots,p_K p1,,pK。令 X i X_i Xi 表示第 i i i 类出现的总次数,则向量 ( X 1 , … , X K ) (X_1,\dots,X_K) (X1,,XK) 服从多项式分布,记作 Multinomial ( n ; p 1 , … , p K ) \text{Multinomial}(n; p_1,\dots,p_K) Multinomial(n;p1,,pK)。其联合 PMF 为:
P ( X 1 = n 1 , … , X K = n K ) = n ! n 1 !   n 2 !   ⋯   n K !   p 1 n 1 p 2 n 2 ⋯ p K n K P(X_1=n_1,\dots,X_K=n_K) = \frac{n!}{n_1!\,n_2!\,\cdots\,n_K!} \, p_1^{n_1} p_2^{n_2} \cdots p_K^{n_K} P(X1=n1,,XK=nK)=n1!n2!nK!n!p1n1p2n2pKnK
其中 n i ≥ 0 n_i \ge 0 ni0 ∑ i = 1 K n i = n \sum_{i=1}^K n_i = n i=1Kni=n。多项式系数 n ! n 1 ! ⋯ n K ! \frac{n!}{n_1!\cdots n_K!} n1!nK!n! 是计数所有可能的顺序排列。

推导:每一种特定顺序(即第1类出现 n 1 n_1 n1 次,第2类 n 2 n_2 n2 次,…)的概率为 p 1 n 1 p 2 n 2 ⋯ p K n K p_1^{n_1} p_2^{n_2} \cdots p_K^{n_K} p1n1p2n2pKnK,而所有满足计数条件的顺序总数为多项式系数。

4.3 数字特征

  • 边缘分布:每个 X i X_i Xi 服从二项分布 Binomial ( n , p i ) \text{Binomial}(n, p_i) Binomial(n,pi),因此

E [ X i ] = n p i , Var ( X i ) = n p i ( 1 − p i ) E[X_i] = n p_i,\quad \text{Var}(X_i) = n p_i (1-p_i) E[Xi]=npi,Var(Xi)=npi(1pi)

  • 协方差:对 i ≠ j i \neq j i=j,由于在一次试验中两类不能同时出现,有

Cov ( X i , X j ) = − n p i p j \text{Cov}(X_i, X_j) = -n p_i p_j Cov(Xi,Xj)=npipj

推导:将 X i = ∑ t = 1 n I i t X_i = \sum_{t=1}^n I_{it} Xi=t=1nIit X j = ∑ t = 1 n I j t X_j = \sum_{t=1}^n I_{jt} Xj=t=1nIjt,其中 I i t I_{it} Iit 是第 t t t 次试验是否为第 i i i 类的指示变量。对于单次试验, E [ I i t I j t ] = 0 E[I_{it}I_{jt}] = 0 E[IitIjt]=0(因为不能同时为1),故
Cov ( I i t , I j t ) = E [ I i t I j t ] − E [ I i t ] E [ I j t ] = − p i p j . \text{Cov}(I_{it}, I_{jt}) = E[I_{it}I_{jt}] - E[I_{it}]E[I_{jt}] = -p_i p_j. Cov(Iit,Ijt)=E[IitIjt]E[Iit]E[Ijt]=pipj.
求和即得。

4.4 具体例子

例13(掷骰子多次):掷一枚均匀骰子 12 次,求点数1出现2次,点数2出现3次,其余各点出现次数之和为7的概率。此时 n = 12 n=12 n=12 K = 6 K=6 K=6 p i = 1 / 6 p_i=1/6 pi=1/6。若指定次数: n 1 = 2 , n 2 = 3 , n 3 = 1 , n 4 = 2 , n 5 = 2 , n 6 = 2 n_1=2, n_2=3, n_3=1, n_4=2, n_5=2, n_6=2 n1=2,n2=3,n3=1,n4=2,n5=2,n6=2(和为12),则
P = 12 ! 2 !   3 !   1 !   2 !   2 !   2 ! ( 1 6 ) 12 P = \frac{12!}{2!\,3!\,1!\,2!\,2!\,2!} \left(\frac{1}{6}\right)^{12} P=2!3!1!2!2!2!12!(61)12

例14(投票预测):某选区有三位候选人,支持率分别为 0.4, 0.35, 0.25。随机调查 100 位选民,求三人得票分别为 45, 35, 20 的概率(假设无弃权):
P = 100 ! 45 !   35 !   20 ! ( 0.4 ) 45 ( 0.35 ) 35 ( 0.25 ) 20 P = \frac{100!}{45!\,35!\,20!} (0.4)^{45}(0.35)^{35}(0.25)^{20} P=45!35!20!100!(0.4)45(0.35)35(0.25)20

例15(词袋模型):在一篇文档中,假设词汇有 1000 个,每个位置上的词服从类别分布(多项式分布 n = 1 n=1 n=1),整篇文档的 500 个词构成一个多项式分布。这是自然语言处理中的经典模型。


5. 总结与联系

分布 参数 试验次数 结果数 典型应用
伯努利 p p p 1 2 单次成功/失败
二项 n , p n, p n,p n n n 2 固定次数成功计数
泊松 λ \lambda λ 不定(时间/空间) 无穷 稀有事件计数
类别 p 1 , … , p K p_1,\dots,p_K p1,,pK 1 K K K 单次多类结果
多项式 n , p 1 , … , p K n, p_1,\dots,p_K n,p1,,pK n n n K K K 多类计数

这些离散分布相互关联:

  • 伯努利是二项分布的特例( n = 1 n=1 n=1),也是类别分布的特例( K = 2 K=2 K=2)。
  • 二项分布是多项式分布的特例( K = 2 K=2 K=2)。
  • 泊松分布是二项分布的极限( n n n 大, p p p 小)。
  • 类别分布是多项式分布的特例( n = 1 n=1 n=1)。

掌握这些分布及其数字特征,能够帮助我们在实际中合理建模,并为后续学习统计推断、机器学习算法(如朴素贝叶斯、隐马尔可夫模型等)奠定坚实基础。

上一章 机器学习概率论与统计学–(4)概率论:概率质量函数与概率密度函数

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐