第3章 概率与统计:随机变量及其分布——从事件到量化描述

一、为什么要引入随机变量

前两章我们用集合、事件、概率描述随机现象,逻辑严谨,但有一个明显局限:

  • 事件多是文字描述(正面、反面、点数为偶、下雨、不下雨);
  • 不方便计算、比较、建模、做工程

我们需要把“随机结果”变成,用数学工具统一处理。
这就是随机变量的意义:
把随机事件数量化,让概率论真正变成可计算的数学体系。


二、随机变量的定义

Ω\OmegaΩ 为样本空间,若对每一个结果 ω∈Ω\omega\in\OmegaωΩ,都唯一对应一个实数 X(ω)X(\omega)X(ω),则称
X=X(ω) X=X(\omega) X=X(ω)
随机变量

通俗理解:

  • 随机试验的结果是“不确定的东西”;
  • 随机变量就是给它贴一个数字标签
  • 之后我们只研究这个数字的规律,不再管原来的具体事件。

常用大写字母 X,Y,Z,…X,Y,Z,\dotsX,Y,Z, 表示随机变量,小写字母 x,y,z,…x,y,z,\dotsx,y,z, 表示它取的具体值。


三、离散型随机变量与分布律

1. 定义

若随机变量 XXX所有可能取值为有限个或可列无限个(可以一个一个数完),称为离散型随机变量

例如:

  • 抛硬币:正面=1,反面=0;
  • 掷骰子点数:1,2,3,4,5,6;
  • 某时间段内接到的电话数:0,1,2,…

2. 分布律(概率分布)

XXX 的可能取值为 x1,x2,…x_1,x_2,\dotsx1,x2,,且
P(X=xk)=pk,k=1,2,… P(X=x_k)=p_k,\quad k=1,2,\dots P(X=xk)=pk,k=1,2,
满足:

  1. pk≥0p_k\ge 0pk0
  2. ∑kpk=1\sum\limits_k p_k=1kpk=1

{pk}\{p_k\}{pk}XXX分布律
它完整描述了离散型随机变量的全部概率规律


四、常见离散型分布

1. 0–1分布(两点分布)

只取两个值:0 或 1。
P(X=1)=p,P(X=0)=1−p,0<p<1 P(X=1)=p,\quad P(X=0)=1-p,\quad 0<p<1 P(X=1)=p,P(X=0)=1p,0<p<1
适用:一次试验只有两种结果(成功/失败、合格/不合格、是/否)。

2. 二项分布 X∼B(n,p)X\sim B(n,p)XB(n,p)

nnn 次独立重复试验,每次成功概率 ppp,成功总次数为 XXX
P(X=k)=(nk)pk(1−p)n−k,k=0,1,…,n P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\quad k=0,1,\dots,n P(X=k)=(kn)pk(1p)nk,k=0,1,,n

3. 泊松分布 X∼P(λ)X\sim P(\lambda)XP(λ)

描述单位时间/空间内稀有事件发生次数
P(X=k)=λke−λk!,k=0,1,2,… P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!},\quad k=0,1,2,\dots P(X=k)=k!λkeλ,k=0,1,2,
λ>0\lambda>0λ>0 为均值。


五、连续型随机变量与概率密度

1. 定义

若随机变量 XXX 的取值充满某个区间,不可一一列举,且存在非负函数 f(x)f(x)f(x),使得对任意区间 (a,b](a,b](a,b]
P(a<X≤b)=∫abf(x) dx P(a<X\le b)=\int_a^b f(x)\,dx P(a<Xb)=abf(x)dx
XXX连续型随机变量f(x)f(x)f(x)概率密度函数,简称密度

2. 密度的性质

  1. f(x)≥0f(x)\ge 0f(x)0
  2. ∫−∞+∞f(x) dx=1\int_{-\infty}^{+\infty}f(x)\,dx=1+f(x)dx=1

直观理解:

  • 密度 f(x)f(x)f(x) 不直接是概率;
  • 面积才是概率:区间上曲线下面积 = 随机变量落在该区间的概率。

重要结论:
连续型随机变量取单点值的概率为 0
P(X=x0)=0 P(X=x_0)=0 P(X=x0)=0
因此连续型中:
P(a≤X≤b)=P(a<X<b)=P(a≤X<b) P(a\le X\le b)=P(a<X<b)=P(a\le X<b) P(aXb)=P(a<X<b)=P(aX<b)


六、常见连续型分布

1. 均匀分布 X∼U(a,b)X\sim U(a,b)XU(a,b)

在区间 [a,b][a,b][a,b] 上“等可能”:
f(x)={1b−a,a≤x≤b0,其他 f(x)= \begin{cases} \displaystyle\frac{1}{b-a},&a\le x\le b\\ 0,&\text{其他} \end{cases} f(x)= ba1,0,axb其他

2. 指数分布 X∼E(λ)X\sim E(\lambda)XE(λ)

描述寿命、等待时间、间隔时间
f(x)={λe−λx,x≥00,x<0 f(x)= \begin{cases} \lambda e^{-\lambda x},&x\ge 0\\ 0,&x<0 \end{cases} f(x)={λeλx,0,x0x<0
λ>0\lambda>0λ>0

3. 正态分布 X∼N(μ,σ2)X\sim N(\mu,\sigma^2)XN(μ,σ2)

自然界、测量误差、大量随机因素叠加最常见分布:
f(x)=12πσe−(x−μ)22σ2,x∈R f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad x\in\mathbb{R} f(x)=2π σ1e2σ2(xμ)2,xR

  • μ\muμ:位置参数(中心)
  • σ\sigmaσ:尺度参数(分散程度)

标准正态分布:μ=0,σ=1\mu=0,\sigma=1μ=0,σ=1,记为 N(0,1)N(0,1)N(0,1)


七、分布函数(统一描述:离散+连续)

1. 定义

对任意随机变量 XXX,定义
F(x)=P(X≤x),x∈R F(x)=P(X\le x),\quad x\in\mathbb{R} F(x)=P(Xx),xR
XXX分布函数

2. 统一意义

  • 离散型:
    F(x)=∑xk≤xpk F(x)=\sum_{x_k\le x}p_k F(x)=xkxpk
  • 连续型:
    F(x)=∫−∞xf(t) dt F(x)=\int_{-\infty}^x f(t)\,dt F(x)=xf(t)dt
    且在 f(x)f(x)f(x) 连续点:
    F′(x)=f(x) F'(x)=f(x) F(x)=f(x)

3. 性质

  1. F(x)F(x)F(x) 单调不减;
  2. 0≤F(x)≤10\le F(x)\le 10F(x)1
  3. 右连续;
  4. F(−∞)=0, F(+∞)=1F(-\infty)=0,\ F(+\infty)=1F()=0, F(+)=1

分布函数是唯一能统一描述所有随机变量的工具。


八、本章总结

本章完成了概率论的关键一步:事件→数量→函数

  1. 随机变量:把随机结果数字化
  2. 离散型用分布律,连续型用密度
  3. 分布函数统一离散与连续;
  4. 0–1、二项、泊松、均匀、指数、正态是全领域最常用的基础模型

从本章开始,概率论真正进入可计算、可建模、可工程化阶段。


下一章我直接写:

第4章 概率与统计:多维随机变量——联合、边缘与条件关系

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐