前言
感谢B站up主高数叔!每次上课之前打个铃,很有仪式感。
第一章 随机事件与概率
随机事件关系及其运算
名称 |
符号 |
理解 |
集合定义 |
A 包含 B |
A⊃B |
事件 B 发生必有事件 A 发生 |
B 是 A 的子集 |
A 与 B 相等 |
A=B |
事件 A 发生必有事件 A 发生 且事件 B 发生必有事件 A 发生 |
A 与 B 包含的样本点相同 |
A 与 B 的和 |
A∪B |
事件 A∪B 发生 ⇔ 事件 A 发生或事件 B 发生 |
A 与 B 的并集 |
A 与 B 的积 |
A∩BAB |
事件 A∩B 发生 ⇔ 事件 A 发生且事件 B 发生 |
A 与 B 的交集 |
A 与 B 的差 |
A−BA−ABAB |
事件 A−AB 发生 ⇔ 事件 A 发生且事件 B 不发生 |
A 与 B 的差集 |
A 与 B 互斥 |
AB=∅ |
事件 A 与事件 B 不会同时发生 |
A 与 B 没有共同的样本点 |
A 的对立事件 |
A |
每次试验事件 A 与 A 有且仅有一个发生 |
A∪A=S,AA=∅ |
事件运算满足交换律、结合律、分配律和德摩根律。
德摩根律
A∪B=A∩B,A∩B=A∪B
A∪B∪C=A∩B∩C,A∩B∩C=A∪B∪C
简记为:长杠变短杠,开口变方向。
概率定义与性质
有限可加性:设 A1,A2,...,An 是两两互不相容的事件,则有
P(i=1⋃nAi)=i=1∑nP(Ai)
减法公式: P(A−B)=P(AB)=P(A)−P(AB) 。特别地,若 A⊂B, 则有 P(A)≤P(B) ,且 P(B−A)=P(B)−P(A)
加法公式:
P(A∪B)=P(A)+P(B)−P(AB)
P(A∪B∪C)=P(A)+P(B)+P(C)−P(AB)−P(BC)−P(AC)+P(ABC)
P(i=1⋃nAi)=k=1∑n(−1)k−11≤i1<i2<⋯<ik≤n∑P(Ai1Ai2⋯Aik) (即 OI 中的容斥原理)
古典概型与几何概型
古典概型:有限样本点,等可能性
P(A)=基本事件总数 nA 中基本事件个数 x
几何概型:从均匀的有界几何图形(线段、平面、空间等)中随机抽取一点落在特定大小的子图形中的概率,
P(A)=Ω 的长度(或面积、体积)A 的长度(或面积、体积)
条件概率与乘法公式
条件概率:已知 A 发生情况下 B 发生的概率
P(B∣A)=P(A)P(AB), P(A)>0
性质:
- 0≤P(B∣A)≤1
- P(S∣A)=1
- P(A∣B)=1−P(A∣B)
- P(A+B∣C)=P(A∣C)+P(B∣C)−P(AB∣C)
乘法公式:本质就是条件概率公式的变形
P(AB)=P(B∣A)P(A)
全概率公式和贝叶斯公式
完备事件组:一组事件能将样本空间铺满,且他们两两之间没有交集,就是完备事件组。又称为样本空间的划分。
全概率公式:对于完备事件组 B1,B2,...,Bn 有
P(A)=i=1∑nP(ABi)=i=1∑nP(A∣Bi)P(Bi)
理解:前一个等式是利用 B 将 A 进行完备划分,后一个等式是对中间项使用了乘法公式。
贝叶斯公式:
P(Bi∣A)=P(A)P(BiA)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
理解:前一个等式是条件概率公式,后一个等式是分子用乘法公式(也可以理解为针对另一事件的条件概率公式逆运用),分母是全概率公式。
事件的独立性
A 和 B 相互独立⇔P(AB)=P(A)P(B)⇔P(B)=P(B∣A)⇔P(B∣A)=P(B∣A)⇔P(A∣B)=P(A∣B)
事件 A 和 B 相互独立,则 A 和 B , A 和 B , A 和 B 也相互独立。
如果两个事件的概率都不为零,那么他们独立则不互斥,互斥则不独立。
三个事件相互独立,必须同时满足
P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)P(ABC)=P(A)P(B)P(C)
如果只满足前三个,叫做两两相互独立,但不是三个事件相互独立。
第二章 随机变量及其概率分布
离散型随机变量
基本概念
随机变量:随机变量 X 是定义在随机试验样本空间 S={e} 上的单实值函数,记为 X=X(e) 。实际上是一个函数,将事件映射为数值,使之可以用数学手段处理。
离散型随机变量:随机变量的全部可能取值是有限个或可列无限个。可列无限个是指能与自然数一一对应上。
对于离散型随机变量 X 的所有可能取值 xk(k=1,2,...n) , X 取到各个可能取值的概率为 P(X=xk)=pk,(k=1,2,3,...) 成为随机变量 X 的概率分布(或分布律)。
性质:
- pk≥0,(k=1,2,...)
- k=1∑+∞pk=1
随机变量的分布函数:可以视为随机变量概率的前缀和, F(x)=P(X≤x),−∞<x<+∞ 。用于作差查询区间概率。
特点:
- 单调不减
- F(a<X≤b)=F(b)−F(a)
- 0≤F(x)≤1, F(−∞)=0, F(+∞)=1
- 离散型随机变量的分布函数右连续,左不连续,存在跳跃间断点
三个重要的离散型随机变量
0-1分布: P(X=1)=p, P(X=0)=1−p ,其实是 n=1 条件下的二项分布的特殊情况
二项分布: P(X=k)=Cnkpkqn−k,(k=0,1,2,...) ,简记为 B(n,p)
泊松分布: P(X=k)=k!λke−λ,(k=0,1,2,...) ,简记为 P(λ) 或 π(λ) 。其中 λ>0 是一个常数,表示单位时间(空间)内随机事件发生的平均次数。
泊松定理
设 λ>0 是一个常数, n 是任意正整数,设 npn=λ ,则对于任一固定的非负整数 k ,有
n→∞limCnkpnk(1−pn)n−k=k!λke−λ
当 n 很大, p 很小的时候,二项分布就变成了泊松分布,且 λ=np 。
P(X=k)=Cnkpkqn−k≈k!(np)ke−np
优点:不需要再求出 n 和 p 具体是多少,只需要知道一个乘积就可以知道其分布情况。
连续型随机变量
基本概念
若存在非负可积函数 f(x) ,使得对任意实数 x 都有
F(x)=∫−∞xf(t)dt
则称 f(x) 为连续型随机变量 X 的概率密度。
简言之,概率密度函数是分布函数的导数,分布函数是概率密度函数的积分(从负无穷积到 x )。
特点:
- f(x)≥0
- ∫−∞+∞f(x)dx=1
- P(x1<X≤x2)=F(x2)−F(x1)=∫x1x2f(x)dx ,端点取不取等都一样
- 若 f(x) 在点 x 处连续,则有 F′(x)=f(x)
三个重要的连续型随机变量
|
均匀分布 |
指数分布 |
正态分布 |
记法 |
X∼U[a,b] |
X∼E(λ) 或 X∼Exp(λ) |
X∼N(μ,σ2) |
概率密度 |
f(x)=⎩⎪⎨⎪⎧b−a1,0,a≤x≤b其他 |
f(x)={λe−λx,0,x>0其他 |
φ(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞ |
分布函数 |
F(x)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧0,b−ax−a,1,x≤aa<x<bx≥b |
F(x)={1−e−λx,0,x>0其他 |
F(x)=2πσ1∫−∞xe−2σ2(t−μ)2dt,−∞<t<+∞ |
特点 |
相当于几何概型 |
无记忆性 P(X>s+t∣X>s)=P(X>t) |
关于 x=μ 对称,在 x=μ 取最大值,在 μ±σ 处是拐点 |
标准正态分布
X∼N(0,1),μ=0,σ=1
f(x)=2π1e−2x2
性质:
- 关于 x=0 对称, f(−x)=f(x)
- 【重要】分布函数 Φ(−x)=1−Φ(x)
- 【非常重要】正态分布标准化:若 X∼N(μ,σ2) 则 Z=σX−μ∼N(0,1) 。此时 F(x)=P(X≤x)=P(σX−μ≤σx−μ)=P(Z≤σx−μ)=Φ(σx−μ)
- P(x1<X<x2)=P(σx1−μ<σX−μ≤σx2−μ)=Φ(σx2−μ)−Φ(σx1−μ)
- P(X≥x)=1−P(X<x)=1−Φ(σx−μ)
- Φ(a)−Φ(−a)=2Φ(a)−1
随机变量函数的分布
Q:什么叫“随机变量函数”?
A:简单来说就是随机变量套随机变量。更具体地,即一个随机变量 Y 关于另一个随机变量 X 的变化而变化,将这种关系抽象为一种函数关系,例如 Y=2X+8 。
这里的 X 和 Y 不是具体的实数,而是随机变量,其具有的属性也不是一个数值,而包含了定义域(样本空间)、分布律(或概率密度)、分布函数等多个属性。
由于随机变量本身就是一种函数,那么随机变量套随机变量其实是一种复合函数,相关的求导运算需要满足复合函数的运算律。
Q:什么叫“随机变量函数的分布”?
A:其实就是在上述的那种函数关系中,我们更加关注的是,如何从其中一个随机变量的定义域/概率密度/分布函数/分布律出发,得出另一个随机变量的定义域/概率密度/分布函数/分布律。
离散型随机变量函数的分布
X的分布律↕X的分布函数代数运算Y的分布律↕Y的分布函数
这四个量可以知一求三。
连续型随机变量函数的分布
分布函数法:知道一个概率密度,要求另一个概率密度,不能直接求,必须借助两个分布函数作为中间量。
X的概率密度↕X的分布函数反表示Y的概率密度↕Y的分布函数
这四个量也可以知一求三。