概率论知识点

大致梳理重要的，需要掌握背诵的知识。

下载PDF点这里

$ps$ ：根据《概率论与数理统计教程（第三版）》汇总的知识总结，根据教材的不同可以自行删减复习知识内容。每一部分的知识点虽然较为完整，但不敢肯定包含所有知识点，详细可参照之前文章进行对比复习。

如果文章内容有错误的地方，欢迎留言或发送信息至邮箱

第一章随机事件与概率

1.1 随机事件及其运算

1.事件间关系及运算：

1）包含：∅ ⊂ $A$ ⊂ Ω $\quad A=B \Leftrightarrow A \subset B$ 且 $B \subset A$

2）差: $A-B=A-A B$

$A-B=A \cap \bar{B}$ $A$ 发生并且 $B$ 不发生

$A B=A-A \bar{B}$ $AB$ 都发生 = $A$ 发生减去 $A$ 发生 $B$ 不发生

3）对立: $\bar{A}=\Omega-A \quad \bar{\bar{A}}=A$

特别地：$\bar{\Omega}=\varnothing \quad \bar{\varnothing}=\Omega$

4）互斥：$A \cap B=\varnothing$

对立事件 $\rightarrow$ 互不相容事件（反之不成立）

5）对偶律（德摩根公式）

$\overline{A \cup B}=\bar{A} \bar{B}, \overline{A B}=\bar{A} \cup \bar{B}$

$A$ 或 $B$ 发生的对立 = $A$ 和 $B$ 都不发生，$A$ 和 $B$ 都发生的对立 = $A$ 不发生或 $B$ 不发生（“都”变“或”，“发生”变“不发生”）

推广： \[ \overline{\bigcup_{i=1}^n A_i}=\bigcap_{i=1}^n \bar{A}_i, \quad \overline{\bigcup_{i=1}^{\infty} A_i}=\bigcap_{i=1}^{\infty} \bar{A}_i, \]

\[ \overline{\bigcap_{i=1}^n A_i}=\bigcup_{i=1}^n \overline{A_i}, \quad \overline{\bigcap_{i=1}^{\infty} A_i}=\bigcup_{i=1}^{\infty} \bar{A}_i . \]

也可以记忆成 $\cup$ 和 $\cap$ 互相转换，而对立从所有变成个体。

1.2 概率的定义及其确定方法

1.概率的公理化定义：

1）非负性公理若 $A \in \mathscr{F}$, 则 $P(A) \geqslant 0$;

2）正则性公理 $P(\Omega)=1$;

3）可列可加性公理若 $A_1, A_2, \cdots, A_n, \cdots$ 互不相容, 则： \[ P\left(\bigcup_{i=1}^{\infty} A_i\right)=\sum_{i=1}^{\infty} P\left(A_i\right), \] 则称 $P(A)$ 为事件 $A$ 的概率,称三元素 $(\Omega, \mathscr{F}, P)$ 为概率空间。

2.排列与组合公式：

1）排列： \[ P_n^r=\underbrace{n \times(n-1) \times \cdots \times(n-r+1)}_{r个}=\frac{n!}{(n-r)!} \quad r \leqslant n \] 若 $r=n$, 则称为全排列, 记为 $\mathrm{P}_n$ 。显然, 全排列 $\mathrm{P}_n=n!$ 。

2）组合： \[ C_n^r=\binom{n}{r}=\frac{p_n^r}{r!}=\frac{n(n-1) \cdots(n-r+1)}{r!}=\frac{n!}{r!(n-r)!} \quad r \leqslant n \]

\[ \binom{n}{r}=\binom{n}{n-r} \quad P_n^r=r!C_n^r \]

3.古典概型：参考复习习题中的抽样模型。

4.几何概率：$P(G)=\dfrac{G \text { 的测度 }}{\Omega \text { 的测度 }} = \dfrac{S_G}{S_{\Omega}} \text {. }$

1.3 概率的性质

1.$P(\varnothing)=0\quad P(\Omega)=1$

2.有限可加性：若有限个事件 $A_1, A_2, \cdots, A_n$ 互不相容, 则有 \[ P\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^n P\left(A_i\right) . \] 3.对任一事件 $A$, 有：$P(\bar{A})=1-P(A)$

4.可减性：对任意两个事件 $A, B$, 有 \[ P(A-B)=P(A)-P(A B) . \] 5.加法公式：对任意两个事件 $A, B$, 有 \[ P(A \cup B)=P(A)+P(B)-P(A B) \] 对任意 $n$ 个事件 $A_1, A_2, \cdots, A_n$, 有 \[ \begin{aligned} P\left(\bigcup_{i=1}^n A_i\right)= \sum_{i=1}^n P\left(A_i\right)-\sum_{1 \leqslant i<j \leqslant n} P\left(A_i A_j\right)+ \sum_{1 \leqslant i<j<k \leqslant n} P\left(A_i A_j A_k\right)+\cdots+(-1)^{n-1} P\left(A_1 A_2 \cdots A_n\right) . \end{aligned} \]

1.4 条件概率

1.条件概率： \[ P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{P(B \mid A) P(A)}{P(B)} \quad P(B)>0 \] 性质：$P(\bar{A} \mid B)=1-P(A \mid B)$

$P\left(\left(A_1 \cup A_2) \mid B\right)=P\left(A_1 \mid B\right)+P\left(A_2 \mid B\right)-P\left(A_1 A_2 \mid B\right)\right.$

注意：$P(A \mid B)+P(A \mid \bar{B}) \neq 1$

2.乘法公式（$n$ 个事件发生有明显的先后顺序） \[ \left\{\begin{array}{l} \text { 若 } P(B)>0, \text { 则: } P(A B)=P(B) P(A \mid B) \\ \text { 若 } P(A)>0, \text { 则: } P(A B)=P(A) P(A \mid B) \end{array}\right. \]

$\text { 若 } P\left(A_1 A_2 \cdots A_{n-1}\right)>0 \text {, }{则: }$ \[ P\left(A_1 A_2 \cdots A_n\right)=P\left(A_1\right) P\left(A_2 \mid A_1\right) P\left(A_3 \mid A_1 A_2\right) \cdots P\left(A_n \mid A_1 A_2 \cdots A_{n-1}\right) \]

3.全概率公式：

设 $B_1, B_2, \cdots, B_n$ 为样本空间 $\Omega$ 的一个分割，即 $B_1, B_2, \cdots, B_n$ 互不相容, 且 $\bigcup\limits_{i=1}^n B_i = \Omega$, 如果$P\left(B_i\right)>0, i=1,2, \cdots, n$, 则对任一事件 $A$ 有 \[ P(A)=\sum_{i=1}^n P\left(B_i\right) P\left(A \mid B_i\right) . \] 全概率公式的最简形式: 若 $0<P(B)<1$ ，则 $P(A)=P(B) P(A \mid B)+P(\bar{B}) P(A \mid \bar{B})$.

4.贝叶斯公式：

设 $B_1, B_2, \cdots, B_n$ 是样本空间 $\Omega$ 的一个分割, 即 $B_1$, $B_2, \cdots, B_n$ 互不相容, 且 $\bigcup\limits_{i=1}^n B_i = \Omega$, 如果 $P(A)>0, P\left(B_i\right)>0,$ $i=1,2, \cdots, n$, 则 \[ P\left(B_i \mid A\right)=\frac{P\left(B_i\right) P\left(A \mid B_i\right)}{\sum\limits_{j=1}^n P\left(B_j\right) P\left(A \mid B_j\right)}, \quad i=1,2, \cdots, n \] 特别地 \[ P(B \mid A)=\frac{P(A B)}{P(A)}=\frac{P(B) P(A \mid B)}{P(B) P(A \mid B)+P(\bar{B}) P(A \mid \bar{B})} \] 顺便提一下： \[ P\left(A_i \mid B\right)=\frac{P\left(A_i\right) P\left(B \mid A_i\right)}{P(B)} \stackrel{\text { converting }}{\Rightarrow} \quad \text { 后验概率 }=\frac{\text { 先验概率 } \times \text { 似然 }}{\text { 证据因子 }} \]

1.5 独立性

1.定义: 设 $A, B$ 为任意两个随机事件, 如果满足 $P(A B)=P(A) P(B)$ 则称事件 $A, B$ 相互独立。

推论1：若 $P(A)>0, A, B$ 独立 $\Longleftrightarrow P(B)=P(B \mid A)$

推论2：若事件 $A$ 与 $B$ 独立，则 $A$ 与 $\bar{B}$ 独立， $\bar{A}$ 与 $B$ 独立， $\bar{A}$ 与 $\bar{B}$ 独立。

注意：事件 $A$ 与事件 $B$ 独立不能用韦恩图表示；互斥 $\Rightarrow$ 不独立（反之不一定成立）。

2.多个事件的相互独立性：

1）定义：设有 $n$ 个事件 $A_1, A_2, \cdots, A_n$, 对任意的 $1 \leqslant i<j<k<\cdots \leqslant n$, 如果以下等式均成立 \[ \left\{\begin{array}{l} P\left(A_i A_j\right)=P\left(A_i\right) P\left(A_j\right), \\ P\left(A_i A_j A_k\right)=P\left(A_i\right) P\left(A_j\right) P\left(A_k\right), \\ \quad \cdots \cdots \cdots \cdots \\ P\left(A_1 A_2 \cdots A_n\right)=P\left(A_1\right) P\left(A_2\right) \cdots P\left(A_n\right), \end{array}\right. \] 则称此 $n$ 个事件 $A_1, A_2, \cdots, A_n$ 相互独立。

相互独立 $\Rightarrow$ 两两独立（反之不一定成立）

2）几个结论：

$n$ 个事件独立的充要条件是任意取出其中的 $k$ 个事件都是相互独立的;
若 $A_1 A_2 \cdots A_n$ 独立，则将他们任意分成 $l$ 组，每一组中的事件经过任何运算产生一个新的事件，这样的 $l$ 个新的事件依然相互独立；
小概率原理：

若 $n$ 个事件 $A_1, A_2, \ldots, A_n$ 相互独立，其发生的概率分别为 $p_1, p_2, \ldots, p_n$ ，则

①事件 $A_1, A_2, \ldots, A_n$ 中至少有一个事件发生的概率为 \[ P\left(\bigcup_{i=1}^n A_i\right)=1-P\left(\bigcap_{i=1}^n \bar{A}_i\right)=1-\prod_{i=1}^n\left(1-p_i\right) \] ②事件 $A_1, A_2, \ldots, A_n$ 中至少有一个事件不发生的概率为 \[ P\left(\bigcup_{i=1}^n \bar{A}_i\right)=1-P\left(\bigcap_{i=1}^n A_i\right)=1-\prod_{i=1}^n p_i \]

3.试验的独立性

设有两个试验 $E_1$ 和 $E_2$, 假如试验 $E_1$ 的任一结果 (事件) 与试验 $E_2$ 的任一结果 (事件) 都是相互独立的事件, 则称这两个试验相互独立。

类似地可以定义 $n$ 个试验 $E_1, E_2, \cdots, E_n$ 的相互独立性: 如果 $E_1$ 的任一结果、 $E_2$ 的任一结果、 $\cdots \cdots 、 E_n$ 的任一结果都是相互独立的事件, 则称试验 $E_1$, $E_2, \cdots, E_n$ 相互独立. 如果这 $n$ 个独立试验还是相同的, 则称其为 $n$ 重独立重夏试验.

如果在 $n$ 重独立重复试验中, 每次试验的可能结果为两个: $A$ 或 $\bar{A}$, 则称这种试验为 $n$ 重伯努利 (Bernoulli) 试验.

第二章随机变量及其分布

2.1 随机变量及其分布

1.随机变量

定义在样本空间 $\Omega$ 上的实值函数 $X=X(\omega)$ 称为随机变量, 常用大写字母 $X, Y, Z$ 等表示随机变量, 其取值用小写字母 $x, y, z$ 等表示。

这个定义表明: 随机变量 $X$ 是样本点 $\omega$ 的一个函数, 这个函数可以是不同样本点对应不同的实数, 也允许多个样本点对应同一个实数. 这个函数的自变量 (样本点) 可以是数,也可以不是数,但因变量一定是实数。

随机变量分为离散型随机变量和连续型随机变量。

2.随机变量的分布函数

1）定义：设 $X$ 是一个随机变量, 对任意实数 $x$, 称$F(x)=P(X \leqslant x)$为随机变量 $X$ 的分布函数. 且称 $X$ 服从 $F(x)$, 记为 $X \sim F(x)$。

2）性质：单调性（单调非减）、有界性、右连续性。

3.离散随机变量的概率分布列

1）定义：设 $X$ 是一个离散随机变量, 如果 $X$ 的所有可能取值是 $x_1, x_2, \cdots, x_n, \cdots$, 则称 $X$ 取 $x_i$ 的概率 \[ p_i=p\left(x_i\right)=P\left(X=x_i\right), i=1,2, \cdots, n, \cdots \] 为 $X$ 的概率分布列或简称为分布列，记为 $X \sim \{p_i\}$ 。

2）性质：非负性、正则性。

3）离散随机变量 $X$ 的分布函数 $F(x)=\sum_\limits{x_i \leqslant x} p\left(x_i\right)$ ，$F(x)$ 是分段阶梯函数。

4.连续随机变量的概率密度函数

1）定义：设随机变量 $X$ 的分布函数为 $F(x)$, 如果存在实数轴上的一个非负可积函数 $p(x)$,使得对任意实数 $x$ 有 \[ F(x)=\int_{-\infty}^x p(t) \mathrm{d} t, \] 则称 $p(x)$ 为 $X$ 的概率密度函数，简称为密度函数或密度。同时称 $X$ 为连续随机变量，称 $F(x)$ 为连续分布函数。

2）性质：非负性、正则性。

3）对于连续随机变量 $X$ 有 \[ P(a \leqslant X \leqslant b)=P(a<X \leqslant b)=P(a \leqslant X<b)=P(a<X<b) . \] 4）一个连续分布的密度函数并不唯一，因为只在若干点上改变密度函数 $p(x)$ 的值并不影响其积分值。

2.2 随机变量的数学期望

1.数学期望的定义

1）设离散随机变量 $X$ 的分布列为 \[ p\left(x_i\right)=P\left(X=x_i\right), i=1,2, \cdots, n, \cdots . \] 如果 \[ \sum_{i=1}^{\infty}\left|x_i\right| p\left(x_i\right)<\infty, \] 则称 \[ E(X)=\sum_{i=1}^{\infty} x_i p\left(x_i\right) \] 为随机变量 $X$ 的数学期望，简称期望或均值。

值得注意的是级数绝对收敛的条件。

2）设连续随机变量 $X$ 的密度函数为 $p(x)$ ，如果 \[ \int_{-\infty}^{\infty}|x| p(x) \mathrm{d} x<\infty, \] 则称 \[ E(X)=\int_{-\infty}^{\infty} x p(x) \mathrm{d} x \] 为随机变量 $X$ 的数学期望，简称期望或均值。

同样要注意收敛的条件。

2.数学期望的性质

1）若 $c$ 是常数，则 $E(c)=c$.

2）对任意常数 $a$ 有 $E(aX)=aE(X)$.

3）线性性质：对任意的两个函数 $g_1(x)$ 和 $g_2(x)$ 有 $E\left[g_1(X) \pm g_2(X)\right]=E\left[g_1(X)\right] \pm E\left[g_2(X)\right]$.

特别地，$E(aX+b)=aE(X)+b$.

4）若 $a\leq X \leq b$，则 $a\leq E(x) \leq b$.

3.随机变量函数的数学期望

若随机变量 $X$ 的分布用分布列 $p(x_i)$ 或用密度函数 $p(x)$ 表示，则 $X$ 的某一函数 $g(X)$ 的数学期望为 \[ E[g(X)] = \begin{cases} \displaystyle \sum\limits_{i} g(x_i) p(x_i), & \text{在离散场合}, \\ \displaystyle\int_{-\infty}^{\infty} g(x) p(x) \, dx, & \text{在连续场合}.\end{cases} \] 这里涉及的数学期望都假定存在。

2.3 随机变量的方差与标准差

1.方差与标准差的定义

1）方差：若随机变量 $X^2$ 的数学期望 $E(X^2)$ 存在，则称偏差平方 $(X-E(X))^2$ 的数学期望 $E(X-E(X))^2$ 为随机变量 $X$ 的方差，记为
\[ Var(X)=E(X-E(X))^2 = \begin{cases}\displaystyle \sum_\limits i\left(x_i-E(X)\right)^2 p\left(x_i\right), \text { 在离散场合, } \\ \displaystyle\int_{-\infty}^{\infty}(x-E(X))^2 p(x) \mathrm{d} x, \text { 在连续场合. }\end{cases} \] 2）标准差：称方差的正平方根 $\sqrt{Var(X)}$ 为随机变量 $X$ 的标准差，记为 $\sigma(X)$ 或 $\sigma_X$.

3）随机变量 $X$ 的方差存在则期望一定存在，而期望存在方差不一定存在。

2.方差的性质

假设随机变量的方差存在：

1）方差的计算公式： $Var(X)=E(X^2)-[E(X)]^2$.

2）常数的方差为 $0$ ，即 $Var(c)=0$ ，其中 $c$ 是常数.

3）若 $a,b$ 是常数，则 $Var(aX+b) = a^2Var(X)$.

注意：方差不具备线性性质，即 $Var(X+Y)\neq Var(X) + Var(Y)$

3.切比雪夫不等式

设随机变量 $X$ 的数学期望和方差都存在，则对任意常数 $\varepsilon>0$ ，有 \[ P(|X-E(X)| \geqslant \varepsilon) \leqslant \frac{\operatorname{Var}(X)}{\varepsilon^2}, \] 或 \[ P(|X-E(X)|<\varepsilon) \geqslant 1-\frac{\operatorname{Var}(X)}{\varepsilon^2} \text {. } \] 切比雪夫不等式给出了大偏差发生概率的上界。

2.4 常用离散分布

1.二项分布

1）$0-1$ 分布（二点分布）

随机变量 $X$ 的取值为 $\{0,1\}$ ,其分布列为 $P(X=x)=p^x(1-p)^{1-x},\quad x=0,1$ .

或记为 \[ \begin{array}{c|cc} X & 0 & 1 \\ \hline P & 1-p & p \end{array} \] 若随机变量 $X\sim b(1,p)$ ，则 \[ E(X)=p \quad Var(X)=p(1-p) \] 2）二项分布的定义

记 $X$ 为 $n$ 重伯努利试验中成功（记为事件 $A$ ）的次数，则 $X$ 的可能取值为 $0,1,\cdots,n$ .记 $p$ 为每次试验中 $A$ 发生的概率，即 $P(A)=p$ ，则 $X$ 的分布列为 \[ P(X=k)=\binom{n}{k} p^k(1-p)^{n-k}, k=0,1, \cdots, n \text {. } \] 记为 $X b(n,p) $ ，二项概率 $P(X=k)=\displaystyle\binom{n}{k} p^k(1-p)^{n-k}$ 恰好是 $n$ 次二项式 $(p+(1-p))^n$ 的展开式的第 $k+1$ 项。

3）二项分布的数学期望和方差

设随机变量 $X\sim b(n,p)$ ，则 \[ E(X)=np \quad Var(X)=np(1-p) \] 4）二项分布的随机变量可以分解成 $n$ 个的独立同分布的二点分布的随机变量之和，所以数学期望和方差系数差了一个 $n$。

2.泊松分布

1）泊松分布的定义：泊松分布的概率分布列是 \[ P(X=k)=\frac{\lambda^k}{k!} \mathrm{e}^{-\lambda}, k=0,1,2, \cdots, \] 其中参数 $\lambda>0$ ，记为 $X\sim P(\lambda)$.

2）泊松分布的数学期望和方差

设随机变量 $X\sim P(\lambda)$，则 \[ E(X)=Var(X)=\lambda \] 3）泊松定理（二项分布的泊松近似）

在 $n$ 重伯努利试验中，记事件 $A$ 在一次试验中发生的概率为 $p_n$ （与试验次数 $n$ 有关），如果当 $n \rightarrow \infty$ 时, 有 $n p_n \rightarrow \lambda$, 则 \[ \lim _{n \rightarrow \infty}\binom{n}{k} p_n^k\left(1-p_n\right)^{n-k}=\frac{\lambda^k}{k!} \mathrm{e}^{-\lambda} . \] 在计算二项分布 $b(n,p)$ 时，当 $n$ 很大，$p$ 很小，而乘积 $\lambda=np$ 大小适中时，就可以用泊松分布作近似分布，即 \[ \binom{n}{k} p^k\left(1-p\right)^{n-k} \approx \frac{(n p)^k}{k!} \mathrm{e}^{-n p}, k=0,1,2, \cdots . \]

3.超几何分布

1）超几何分布的定义

设有 $N$ 件产品，其中有 $M$ 件不合格品。若从中不放回地随机抽取 $n$ 件，则其中含有地不合格品的件数 $X$ 服从超几何分布，记为 $X\sim h(n,N,M)$ 。超几何分布的概率分布列为 \[ P(X=k)=\frac{\displaystyle\binom{M}{k}\binom{N-M}{n-k}}{\displaystyle\binom{N}{n}}, k=0,1, \cdots, r . \] 其中 $r=\min\{M,n\}$ ，且 $M\leq N,n\leq N$ ，$n,N,M$ 均为正整数。

2）超几何分布的数学期望和方差 (方差不用背)

设随机变量 $X\sim h(n,N,M)$ ，则 \[ E(X)=n\frac{M}{N}\quad Var(X)=\frac{n M(N-M)(N-n)}{N^2(N-1)} . \] 3）超几何分布的二项近似：当 $n \ll N$ 时, 即抽取个数 $n$ 远小于产品总数 $N$ 时, 每次抽取后, 总体中的不合格品率 $p=M / N$ 改变甚微, 所以不放回抽样可近似地看成放回抽样, 这时超几何分布可用二项分布近似。

4.几何分布

1）几何分布的定义

在伯努利实验中，记每次试验中事件 $A$ 发生的概率为 $p$ ，如果 $X$ 为事件 $A$ 首次出现时试验次数，则 $X$ 的可能取值为 $1,2,\cdots$ ，称 $X$ 服从几何分布，记为 $X \sim Ge(p)$，其分布列为 \[ P(X=k)=(1-p)^{k-1}p,k=1,2,\cdots. \] 2）几何分布的数学期望和方差：

设随机变量 $X$ 服从几何分布 $Ge(p)$ ，则 \[ E(X)=\frac{1}{p}\quad Var(X)=\frac{1-p}{p^2} \] 3）几何分布的无记忆性：

设随机变量 $X \sim Ge(p)$, 对任意正整数 $m, n$ 有 \[ P(X>m+n \mid X>m)=P(X>n) \]

5.负二项分布（几何分布的延伸）

1）负二项分布的定义

在伯努利试验序列中，记每次试验中事件 $A$ 发生的概率为 $p$ ，如果 $X$ 为事件 $A$ 第 $r$ 次出现时的试验次数，则 $X$ 的可能取值为 $r, r+1,\cdots,r+m,\cdots$ 。称 $X$ 服从负二项分布或帕斯卡分布，其分布列为 \[ P(X=k)=\binom{k-1}{r-1} p^r(1-p)^{k-r}, k=r, r+1, \cdots . \] 记为 $X\sim Nb(r,p)$. 当 $r=1$ 时，即为几何分布。

$ps:$ 解释一下前面的系数，最后一次一定是第 $k$ 次试验时事件 $A$ 发生了第 $r$ 次，所以只需要在剩下的 $k-1$ 次试验中选取 $r-1$ 次试验表示事件 $A$ 发生即可。

2）负二项分布的数学期望和方差：

设随机变量 $X$ 服从负二项分布 $Nb(r,p)$ ，则 \[ E(X)=\frac{r}{p}\quad Var(X)=\frac{r(1-p)}{p^2} \] 和几何分布很像，差一个 $r$ ，这是因为负二项分布的随机变量可以分解成 $r$ 个独立同分布的几何分布的随机变量之和。

3）负二项分布也有无记忆性。

2.5 常用连续分布

1.均匀分布

1）均匀分布的定义

若随机变量 $X$ 的密度函数为 \[ p(x)=\left\{\begin{array}{cl} \dfrac{1}{b-a}, & a<x<b \\ 0, & \text { 其他 } \end{array}\right. \] 则称 $X$ 服从区间 $(a,b)$ 上的均匀分布，记作 $X \sim U(a,b)$，其分布函数为 \[ F(x)=\left\{\begin{array}{cc} 0, & x<a, \\ \dfrac{x-a}{b-a}, & a \leqslant x<b, \\ 1, & x \geqslant b. \end{array}\right. \] 2）均匀分布的数学期望与方差：

设随机变量 $X\sim U(a,b)$ ，则 \[ E(X)=\frac{a+b}{2}\quad Var(X)=\frac{(b-a)^2}{12} \]

2.指数分布

1）指数分布的定义

若随机变量 $X$ 的密度函数为 \[ p(x)= \begin{cases}\lambda \mathrm{e}^{-\lambda x}, & x \geqslant 0, \\ 0, & x<0,\end{cases} \] 则称 $X$ 服从指数分布，记作 $X\sim Exp(\lambda)$ ，其中参数 $\lambda>0$ .指数分布的分布函数为 \[ F(x)= \begin{cases}1-\mathrm{e}^{-\lambda x}, & x \geqslant 0, \\ 0, & x<0 .\end{cases} \] 2）指数分布的数学期望与方差：

设随机变量 $X \sim Exp(\lambda)$ ，则 \[ E(X)=\frac{1}{\lambda} \quad Var(X)=\frac{1}{\lambda^2} \] 3）指数分布的无记忆性：如果随机变量 $X\sim Exp(\lambda)$，则对任意 $s>0,t>0$ 有 \[ P(X>s+t \mid X>s)=P(X>t) . \] $ps:$ 指数分布是唯一具有无记忆性的连续型随机变量。

3.正态分布

1）正态分布的定义

若随机变量 $X$ 的密度函数为 \[ p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}}, \quad-\infty<x<\infty, \] 则称 $X$ 服从正态分布，记作 $X\sim N(\mu,\sigma^2)$ .其中参数 $-\infty<\mu<\infty,\sigma>0$. 正态分布的分布函数为 \[ F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^x \mathrm{e}^{-\frac{(t-\mu)^2}{2 \sigma^2}} \mathrm{~d} t . \] 特别地，若 $\mu=0$ 和 $\sigma=1$, 称 $N(0,1)$ 为标准正态分布。

通常记标准正态变量为 $U$, 记标准正态分布的密度函数为 $\varphi(u)$, 分布函数为 $\Phi(u)$, 即 $$ \[\begin{aligned} &\varphi(u) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{u^2}{2}}, \quad-\infty<u<\infty,\\ &\Phi(u) = \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^u \mathrm{e}^{-\frac{t^2}{2}} \mathrm{~d} t, \quad-\infty<u<\infty . \end{aligned}\]

2）正态分布密度函数 $p(x)$ 图像的性质：

关于 $x=\mu$ 对称，即 $p(\mu-x)=p(\mu+x)$ .
$x=\mu$ 时， $p(x)$ 取最大值 $\dfrac{1}{\sqrt{2\pi}\sigma}$ .
$x = \mu \pm \sigma$ 是 $y=p(x)$ 的拐点横坐标.

3）标准正态分布函数 $\Phi(x)$ 的性质：

$\Phi(-u)=1-\Phi(u)$.
$P(a<U<b)=\Phi(b)-\Phi(a)$.
$P(|U|<c)=2 \Phi(c)-1 \quad(c \geqslant 0)$.
$\Phi(0)=\dfrac{1}{2}$ .

4）正态变量的标准化

一般正态变量都可以通过一个线性变换（标准化）化成标准正态变量．因此与正态变量有关的一切事件的概率都可通过查标准正态分布函数表获得。

定理1：若随机变量 $X\sim N(\mu,\sigma^2)$ ，则 $U=\dfrac{X-\mu}{\sigma}\sim N(0,1)$ .

定理2（正态分布事件概率计算）：若随机变量 $X\sim N(\mu,\sigma^2)$ ，则 \[ P(X \leqslant c)=\Phi\left(\frac{c-\mu}{\sigma}\right) . \]

\[ P(a<X \leqslant b)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right) . \]

\[ P(X>c)=1-\Phi(\frac{c-\mu}{\sigma}). \]

5）正态分布的数学期望与方差：

设随机变量 $X \sim N\left(\mu, \sigma^2\right)$，则 \[ E(X)=\mu \quad Var(X)=\sigma^2 \] 6）正态分布的 $3\sigma$ 原则：

设随机变量 $X \sim N\left(\mu, \sigma^2\right)$, 则 \[ P(\mu-k \sigma<X<\mu+k \sigma)=P\left(\left|\frac{X-\mu}{\sigma}\right|<k\right)=\Phi(k)-\Phi(-k)=2 \Phi(k)-1 \] 当 $k=1,2,3$ 时，有 \[ P(\mu-\sigma<X<\mu+\sigma)=2 \Phi(1)-1=0.6826, \]

\[ P(\mu-2 \sigma<X<\mu+2 \sigma)=2 \Phi(2)-1=0.9545, \]

\[ P(\mu-3 \sigma<X<\mu+3 \sigma)=2 \Phi(3)-1=0.9973 . \]

随机变量 $X \sim N\left(\mu, \sigma^2\right)$ 的取值落在 $[\mu-3\sigma,\mu+3\sigma]$ 之外的概率不超过千分之三，即 $X$ 的取值几乎都落在$[\mu-3\sigma,\mu+3\sigma]$ 之内，这就是人们常说的 $3\sigma$ 原则。

4.伽马分布（了解）

1）伽马分布的定义

若随机变量 $X$ 的密度函数为 \[ p(x)=\left\{\begin{array}{cc} \dfrac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, & x \geqslant 0 \\ 0 & , x<0 \end{array} \quad \alpha>0, \lambda>0\right. \] 称 $X$ 服从伽马分布，记为 $X\sim Ga(\alpha,\lambda)$ .

2）伽马分布的数学期望与方差

设随机变量 $X\sim Ga(\alpha,\lambda)$，则 \[ E(X)=\frac{\alpha}{\lambda} \quad Var(X)=\frac{\alpha}{\lambda^2} \] 3）两个特例

$\alpha=1$ 时的伽马分布就是指数分布, 即 \[ Ga(1, \lambda) = Exp(\lambda) . \] 称 $\alpha=n / 2, \lambda=1 / 2$ 时的伽马分布是自由度为 $n$ 的 $\chi^2$ (卡方) 分布，即 \[ G a\left(\frac{n}{2}, \frac{1}{2}\right)=\chi^2(n). \] 4）伽马分布与指数分布的关系：若第一参数为 $k$ ，则伽马变量可以表示成 $k$ 个独立同分布的指数变量之和，即

若 $X \sim Ga(k, \lambda)$. 则 $X=X_1+X_2+\cdots+X_k \quad X_i \sim Exp(\lambda)$ .

5.贝塔分布（了解）

1）贝塔函数

称以下函数 \[ \mathrm{B}(a, b)=\int_0^1 x^{a-1}(1-x)^{b-1} \mathrm{~d} x \] 为贝塔函数，其中参数 $a>0,b>0$ .

贝塔函数具有的性质：$B(a,b) = B(b,a)$.

2）贝塔分布的定义

若随机变量 $X$ 的密度函数为 \[ p(x)= \begin{cases}\dfrac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} x^{a-1}(1-x)^{b-1}, & 0<x<1, \\ 0, & \text { 其他, }\end{cases} \] 则称 $X$ 服从贝塔分布, 记作 $X \sim B e(a, b)$, 其中 $a>0, b>0$ 都是形状参数。

特别地，$Be(1,1) =U(0,1)$

3）贝塔分布的数学期望与方差

设随机变量 $X\sim Be(a,b)$ ，则 \[ E(x)=\frac{a}{a+b} \quad Var(X)=\frac{a b}{(a+b)^2(a+b+1)} \]

2.6 随机变量函数的分布

1.离散随机变量的函数分布

设离散随机变量 $X$ 的分布列为 $P\left\{X=x_i\right\}=p_i, i=1,2, \cdots$, 已知 $y=g(x)$为连续函数, 则 $Y=g(X)$ 的分布列为 $P\left\{Y=g\left(x_i\right)\right\}=p_i, i=1,2, \cdots$ .然后再合并 $g(x_i)$ 值相等的概率即可。

2.连续随机变量的函数分布

1）当 $Y=g(X)$ 仍然为离散随机变量

这种情况下只用将 $Y$ 的可能取值一一列出，再将 $Y$ 取各种可能值的概率求出即可。

2）当 $Y=g(X)$ 为连续随机变量

求 $Y$ 的密度函数 $p_Y(y)$ 的两种方法：

①分布函数法：求 $Y$ 的分布函数 $F_Y(y)$ ，$F_Y(y)=P_Y(Y\leqslant y)=P(g(X)\leqslant y)=P_X(X\in A)$ ，对变量 $y$ 求导从而得到 $P_Y(y)$ .

②公式法：设 $X$ 是连续随机变量，其密度函数为 $p_X(x)$ . $Y=g(X)$ 是另一个连续随机变量. 若 $y=g(x)$ 严格单调，其反函数 $h(y)$ 有连续导函数，则 $Y=g(X)$ 的密度函数为 \[ p_Y(y)= \begin{cases}p_X[h(y)]\left|h^{\prime}(y)\right|, & a<y<b, \\\\ 0, & \text { 其他. }\end{cases} \] 其中 $a=\min \{g(-\infty), g(\infty)\}, b=\max \{g(-\infty), g(\infty)\}$.

由公式法得到的一些结论：

定理1：设随机变量 $X$ 服从正态分布 $N\left(\mu, \sigma^2\right)$, 则当 $a \neq 0$ 时, 有 $Y=a X+b \sim N(a\mu+b,a^2\sigma^2)$ . 即：正态变量经过线性变换后仍为正态变量。
定理2：若随机变量 $X$ 的分布函数 $F_X(x)$ 为严格单调增的连续函数, 其反函数$F_X^{-1}(y)$ 存在, 则 $Y=F_X(x)$ 服从 $(0,1)$ 上的均匀分布 $U(0,1)$.

附：一定要背诵的常用概率分布数学期望和方差

\[ \begin{array}{|c|c|c|c|} \hline \text { 分布 } & \text { 分布律或概率密度 } & \text { 数学期望 } & \text { 方差 } \\ \hline \text { 0-1 分布 } & \begin{array}{l} P\{x=k\}=p^k(1-p)^{1-k} \\ (k=0,1) \end{array} & p & p(1-p) \\ \hline \text { 二项分布 } B(n,p) & P\{x=k\}=\displaystyle \displaystyle\binom{n}{k} p^k(1-p)^{1-k} & n p & n p(1-p) \\ \hline \text { 泊松分布 } P(\lambda) & P\{x=k\}=\dfrac{\lambda^k }{k!}e^{-\lambda} & \lambda & \lambda \\ \hline \text { 均匀分布 } U(a, b) & p(x)=\dfrac{1}{b-a} (a<x<b) & \dfrac{a+b}{2} & \dfrac{(b-a)^2}{12} \\ \hline \text { 正态分布 } N\left(\mu, \sigma^2\right) & p(x)=\dfrac{1}{\sqrt{2 \pi} \sigma} e^{\frac{(x-\mu)^2}{2 \sigma^2}} & \mu & \sigma^2 \\ \hline \text { 指数分布 } Exp(\theta) & p(x)=\left\{\begin{array}{rr} \theta e^{-\theta x}, & x\geqslant0 \\ 0, & \text { 其他 } \end{array}\right. & \dfrac{1}{\theta} & \dfrac{1}{\theta^2} \\ \hline \end{array} \]

第三章多维随机变量及其分布

3.1 多维随机变量及其联合分布

1.多维随机变量的定义：如果 $X_1(\omega),X_2(\omega),\cdots,X_n(\omega)$ 是定义在同一个样本空间 $\Omega={\omega}$ 上的 $n$ 个随机变量，则称 \[ X(\omega)=(X_1(\omega),X_2(\omega),\cdots,X_n(\omega)) \] 为 $n$ 维（或 $n$ 元）随机变量或随机向量。

2.联合分布函数

1）定义：对任意 $n$ 个实数 $x_1,x_2,\cdots,x_n$ ，$n$ 个事件 $\{X_1\leqslant x_1\} , \{X_2\leqslant x_2\} ,\cdots, \{X_n\leqslant x_n\}$ 同时发生的概率 \[ F\left(x_1, x_2, \cdots, x_n\right)=P\left(X_1 \leqslant x_1, X_2 \leqslant x_2, \cdots, X_n \leqslant x_n\right) \] 为 $n$ 维随机变量 $(X_1,X_2,\cdots,X_n)$ 的联合分布函数。

2）任一二维联合分布函数 $F(x,y)$ 具备的性质：

单调性
有界性
右连续性
非负性：对任意的 $a<b,c<d$ 有 $P(a<X \leqslant b, c<Y \leqslant d)=F(b, d)-F(a, d)-F(b, c)+F(a, c) \geqslant 0 .$

3.联合分布列（对于离散随机变量）

1）定义：如果二维随机变量 $(X,Y)$ 只取有限个或可列个数对 $(x_i,y_j)$ ，则称 $(X,Y)$ 为二维离散随机变量，称 \[ p_{i j}=P\left(X=x_i, Y=y_j\right), \quad i, j=1,2, \cdots \] 为 $(X,Y)$ 的联合分布列。也可以用如下表格的形式记录：

X	Y
X	y₁	y₂	...	y_j	...
x₁	p₁₁	p₁₂	...	p_1j	...
x₂	p₂₁	p₂₂	...	p_2j	...
...	...	...	...	...	...
x_i	p_i1	p_i2	...	p_ij	...
...	...	...	...	...	...

\[ p_{i \cdot}=\sum_j p_{i j}\quad p_{\cdot j}=\sum_i p_{i j} \]

2）性质：非负性、正则性。

4.联合密度函数（对于连续随机变量）

1）定义：如果存在二元非负函数 $p(x, y)$, 便得二维随机变量 $(X, Y)$ 的分布函数 $F(x,y)$ 可以表示为 \[ F(x, y)=\int_{-\infty}^{x} \int_{-\infty}^y p(u, v) \mathrm{d} v \mathrm{~d} u, \] 则称 $(X, Y)$ 为二维连续随机变量, 称 $p(u, v)$ 为 $(X, Y)$ 的联合密度函数.

在 $F(x,y)$ 偏导数存在的点上有 \[ p(x, y)=\frac{\partial^2}{\partial x \partial y} F(x, y). \] 若 $G$ 为平面上的一个区域，则事件 $\{(X,Y)\in G\}$ 的概率可以表示为在 $G$ 上对 $p(x,y)$ 的二重积分 \[ P((X, Y) \in G)=\iint_G p(x, y) \mathrm{d} x \mathrm{d} y . \] 2）性质：非负性、正则性。

3）在计算积分时要注意点、线的面积为 $0$.

5.常见多维分布

1）多维均匀分布

设 $D$ 为 $\mathbb{R}^n$ 中一个有界区域，其度量 (平面的为面积, 空间的为体积等) 为 $S_D$ ，如果多维随机变量 $(X_1,X_2,\cdots,X_n)$ 的联合密度函数为 \[ p\left(x_1, x_2, \cdots, x_n\right)= \begin{cases}\dfrac{1}{S_D}, & \left(x_1, x_2, \cdots, x_n\right) \in D, \\\\ 0, & \text { 其他, }\end{cases} \] 则称 $\left(X_1, X_2, \cdots, X_n\right)$ 服从 $D$ 上的多维均匀分布, 记为 $\left(X_1, X_2, \cdots, X_n\right) \sim U(D)$.

2）二元正态分布

如果二维随机变量 $(X,Y)$ 的联合密度函数为 \[ p(x, y)=\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \left\{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\} \] 其中$-\infty<x, y<+\infty$

则称 $(X, Y)$ 服从二元正态分布, 记为 $(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$.其中五个参数的取值范围分别是 \[ -\infty<\mu_1, \mu_2<\infty, \quad \sigma_1, \sigma_2>0, \quad-1 \leqslant \rho \leqslant 1 . \] $\mu_1, \mu_2$ 分别是 $X$ 与 $Y$ 的均值, $\sigma_1^2, \sigma_2^2$ 分别是 $X$ 与 $Y$ 的方差, $\rho$ 是 $X$ 与 $Y$ 的相关系数。

3）多项分布

进行 $n$ 次独立重复试验，如果每次试验有 $r$ 个互不相容的结果： $A_1,A_2,\cdots,A_r$ 之一发生，且每次试验中 $A_i$ 发生的概率为 $p_i = P(A_i),i=1,2,\cdots,r.$ 且 $p_1+p_2+\cdots+p_r=1.$ 记 $X_i$ 为 $n$ 次独立重复试验中 $A_i$ 出现的次数，$i=1,2,\cdots,r$ ，则 $(X_1,X_2,\cdots,X_r)$ 取值 $(n_1,n_2,\cdots,n_r)$ 的概率，即 $A_1$ 出现 $n_1$ 次，$A_2$ 出现 $n_2$ …… $A_r$ 出现 $n_r$ 次的概率为 \[ P\left(X_1=n_1, X_2=n_2, \cdots, X_r=n_r\right)=\frac{n!}{n_{1}!n_{2}!\cdots n_{r}!} p_1^{n_1} p_2^{n_2} \cdots p_r^{n_r}, \] 其中 $n=n_1+n_2+ \cdots +n_r.$

这个联合分布列称为 $r$ 项分布, 又称多项分布, 记为 $M\left(n, p_1, p_2, \cdots, p_r\right)$. 这个概率是 $(p_1+p_2+\cdots +p_r)^n$ 展开式的一项。

4）多维超几何分布

袋中有 $N$ 个球, 其中有 $N_i$ 个 $i$ 号球, $i=1,2, \cdots,r$ ，且 $N=N_1+N_2+\cdots+N_r$. 从中任意取出 $n(\leqslant N)$ 个, 若记 $X_i$ 为取出的 $n$ 个球中 $i$ 号球的个数， $i=1,2,\cdots,r$ ,则 \[ P\left(X_1=n_1, X_2=n_2, \cdots, X_r=n_r\right)=\dfrac{\displaystyle\binom{N_1}{n_1}\binom{N_2}{n_2} \cdots\binom{N_r}{n_r}}{\displaystyle\binom{N}{n}}, \] 其中 $n_1+n_2+\cdots+n_r=n, n_i \leqslant N_i, i=1,2, \cdots, r$.

3.2 边际分布与随机变量的独立性

1.边际分布函数

设二维随机变量 $(X,Y)$ 的联合分布函数为 $F(x,y)$ ，则 $X$ 的边际分布函数为 \[ F_X(x)=F(x,\infty)=P(X\leqslant x,y<\infty) \] 相似地， $Y$ 的边际分布函数为 \[ F_Y(y)=F(\infty , y)=P(x<\infty, Y\leqslant y) \] 注意：由分布函数可以唯一确定边际分布函数，反之不成立。

2.边际分布列（对离散随机变量）

在二维离散随机变量 $(X, Y)$ 的联合分布列 $\left\{P\left(X=x_i, Y=y_j\right)\right\}$ 中：

$X$ 的边际分布列：对 $j$ 求和所得的分布列，即 \[ \sum_{j=1}^{\infty} P\left(X=x_i, Y=y_j\right)=P\left(X=x_i\right)=\sum_{j=1}^{\infty}p_{ij}, \quad i=1,2, \cdots \] $Y$ 的边际分布列：对 $i$ 求和所得的分布列，即 \[ \sum_{i=1}^{\infty} P\left(X=x_i, Y=y_j\right)=P\left(Y=y_j\right)=\sum_{i=1}^{\infty}p_{ij}, \quad j=1,2, \cdots \] 常以列表格的形式来描述： \[ \begin{array}{c|cccc|c} \hline X /Y & y_1 & \cdots & y_j & \cdots & P\left(Y=y_j\right) \\ \hline x_1 & p_{11} & \cdots & p_{i j} & \cdots & \displaystyle\sum_{j=1}^{\infty} p_{1 j} \\ \vdots & \vdots & & \vdots & & \vdots \\ x_i & p_{i 1} & \cdots & p_{i j} & \cdots & \displaystyle \sum_{j=1}^{\infty} p_{i j} \\ \vdots & \vdots & & \vdots & & \vdots \\ \hline P\left(X=x_i\right) & \displaystyle\sum_{i=1}^{\infty} p_{i 1} & \cdots & \displaystyle\sum_{i=1}^{\infty} p_{i j} & \cdots & 1 \end{array} \]

3.边际密度函数（对连续随机变量）

如果二维连续随机变量 $(X, Y)$ 的联合密度函数为 $p(x, y)$ ,则 \[ \left\{\begin{array}{l} p_X(x)=\displaystyle \int_{-\infty}^{\infty} p(x, y) d y \\ p_Y(y)=\displaystyle \int_{-\infty}^{\infty} p(x, y) d x \end{array}\right. \] $p_X(x)$ 为 $X$ 的边际密度函数，$p_Y(y)$ 为 $Y$ 的边际密度函数。

对应的边际分布函数为 \[ \left\{\begin{array}{l} F_X(x)=\displaystyle \int_{-\infty}^x\left(\int_{-\infty}^{\infty} f(t, y) d y\right) d t \\ F_Y(y)=\displaystyle \int_{-\infty}^y\left(\int_{-\infty}^{\infty} f(x, s) d x\right) d s \end{array}\right. \] 注意：由联合密度函数求边际密度函数时，要注意积分区域的确定。

4.随机变量间的独立性

1）定义：设 $n$ 维随机变量 $\left(X_1, X_2, \cdots, X_n\right)$ 的联合分布函数为 $F\left(x_1, x_2, \cdots, x_n\right)$ ，$F_i\left(x_i\right)$ 为 $X_i$ 的边际分布函数。如果对任意 $n$ 个实数 $x_1,x_2,\cdots,x_n$ ，有 \[ F\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n F_i\left(x_i\right), \] 则称 $X_1,X_2,\cdots,X_n$ 相互独立。

2）在离散场合

如果对任意 $n$ 个取值 $x_1,x_2,\cdots,x_n$ 有 \[ P\left(X_1=x_1, X_2=x_2, \cdots, X_n=x_n\right)=\prod_{i=1}^n P\left(X_i=x_i\right), \] 则称 $X_1,X_2,\cdots,X_n$ 相互独立。

3）在连续场合

如果对任意 $n$ 个实数 $x_1,x_2,\cdots,x_n$ 有 \[ p\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n p_i\left(x_i\right), \] 则称 $X_1,X_2,\cdots,X_n$ 相互独立。

4）特别地，

对于二维离散随机变量 $(X,Y)$ ，若 $X$ 和 $Y$ 相互独立，则 $p_{ij}=p_{i\cdot}p_{\cdot j},i,j=1,2,\cdots$

对于二维连续随机变量 $(X,Y)$ ，若 $X$ 和 $Y$ 相互独立，则 $F(X,Y) = F_X(x)F_Y(y)$.

注意：若随机变量间相互独立，则由边际密度函数可以推出联合分布函数。

3.3 多维随机变量函数的分布

1.多维离散随机变量函数的分布

1）设 $\left(X_1, X_2, \cdots, X_n\right)$ 为 $n$ 维离散随机变量, 则某一函数 $Y=g\left(X_1, X_2, \cdots, X_n\right)$ 是一维离散随机变量，当 $\left(X_1, X_2, \cdots, X_n\right)$ 所有可能取值较少时, 可将 $Y$ 的取值一一列出，然后再整理合并。

2）具有可加性的离散随机变量

二项分布的可加性：设随机变量 $X \sim b(n, p), Y \sim b(m, p)$, 且 $X$ 与 $Y$ 独立，则 $Z=X+Y \sim b(n+m, p)$.
泊松分布的可加性：设随机变量 $X \sim P\left(\lambda_1\right), Y \sim P\left(\lambda_2\right)$, 且 $X$ 与 $Y$ 独立，则 $Z=X+Y \sim P\left(\lambda_1+\lambda_2\right)$.

2.多维连续随机变量函数的分布

设 $(X,Y)$ 为二维连续随机变量，联合密度函数为 $p(x,y)$.

1）$Z=X+Y$ 的分布（卷积公式） \[ p_Z(z)=\int_{-\infty}^{\infty} p(x, z-x) \mathrm{d}x=\int_{-\infty}^{\infty} p(z-y, y) \mathrm{d} y \] 特别地，如果 $X$ 和 $Y$ 相互独立，则 \[ P_Z(z)=\int_{-\infty}^{\infty} p_X(x) p_Y(z-x) \mathrm{d} x = \int_{-\infty}^{\infty} p_X(z-y) p_Y(y) \mathrm{d} y \] 2）$Z=XY$ 的分布 \[ p_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} p\left(x, \frac{z}{x}\right) d x=\int_{-\infty}^{\infty} \frac{1}{|y|} p\left(\frac{z}{y},y\right) d y \] 特别地，如果 $X$ 和 $Y$ 相互独立，则 \[ p_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} p_X(x) p_Y\left(\frac{z}{x}\right) d x=\int_{-\infty}^{\infty} \frac{1}{|y|} p_X\left(\frac{z}{y}\right)p_Y(y) d y \] 3）$Z=\dfrac{Y}{X}$ 的分布 \[ p_{Y/X}(z)=\int_{-\infty}^{\infty}|x| p(x, x z) d x \] 若 $Z=\dfrac{X}{Y}$ \[ p_{X/Y}(z)=\int_{-\infty}^{\infty}|y| p(z y, y) d y \] 4）具有可加性的连续随机变量

正态分布的可加性：设随机变量 $X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right)$, 且 $X$ 与 $Y$ 独立，则 \[ Z=X+Y \sim N\left( \mu_1+\mu_2, \sigma_1^2+\sigma_2^2\right) \]
伽马分布的可加性：设随机变量 $X \sim G a\left(\alpha_1, \lambda\right), Y \sim G a\left(\alpha_2, \lambda\right)$, 且 $X$ 与 $Y$ 独立，则 \[ Z=X+Y \sim G a\left(\alpha_1+\alpha_2, \lambda\right) \]

5）变换变量法求解多维随机变量函数的分布

设二维随机变量 $(X,Y)$ 的联合密度函数为 $p(x,y)$ ，如果函数 \[ \left\{\begin{array}{l} u=g_1(x, y), \\ v=g_2(x, y) \end{array}\right. \] 有连续偏导数，并存在唯一的反函数 \[ \left\{\begin{array}{l} x=x(u, v), \\ y=y(u, v), \end{array}\right. \] 其变换的雅可比行列式 \[ J=\frac{\partial(x, y)}{\partial(u, v)}=\left|\begin{array}{ll} \dfrac{\partial x}{\partial u} & \dfrac{\partial x}{\partial v} \\ \dfrac{\partial y}{\partial u} & \dfrac{\partial y}{\partial v} \end{array}\right|=\left(\frac{\partial(u, v)}{\partial(x, y)}\right)^{-1}= \left( \left| \begin{array}{ll} \dfrac{\partial u}{\partial x} & \dfrac{\partial u}{\partial y} \\ \dfrac{\partial v}{\partial x} & \dfrac{\partial v}{\partial y} \end{array} \right\rvert\,\right)^{-1} \neq0 . \] 若 \[ \left\{\begin{array}{l} U=g_1(X, Y), \\ V=g_2(X, Y), \end{array}\right. \] 则 $(U,V)$ 的联合密度函数为 \[ p(u, v)=p(x(u, v), y(u, v))|J| . \]

3.最大值最小值分布

设 $X_1, X_2, \cdots, X_n$ 是 $n$ 个相互独立的随机变量，他们的分布函数分别为 $F_{X_i}(x), i=1,2,\cdots,n.$

1）最大值分布：$Y_1=\max \{X_1,X_2,\cdots,X_n\}$ 的分布函数为 \[ F_{Y_1}(y)=F_{X_1}(y) F_{X_2}(y) \cdots F_{X_n}(y)=\prod_{i=1}^n F_{X_i}(y) \] 特别地，当 $X_1,X_2,\cdots,X_n$ 的分布函数都为 $F(x)$ 密度函数均为 $p(x)$ 时，有 \[ F_{Y_1}(y)=[F(y)]^n \quad p_{Y_1}(y)=n[F(y)]^{n-1} p(y) \] 2）最小值分布：$Y_2=\min \{X_1,X_2,\cdots,X_n\}$ 的分布函数为 \[ F_{Y_2}(y)=1-\left[1-F_{X_1}(y)\right]\left[1-F_{X_2}(y)\right] \cdots\left[1-F_{X_n}(y)\right]=1-\prod_{i=1}^n \left[1-F_{X_i}\left(y\right)\right] \] 特别地，当 $X_1,X_2,\cdots,X_n$ 的分布函数都为 $F(x)$ 密度函数均为 $p(x)$ 时，有 \[ F_{Y_2}(y)=1-[1-F(y)]^n \quad p_{Y_2}(y)=n[1-F(y)]^{n-1} p(y) \]

3.4 多维随机变量的特征数

1.多维随机变量函数的数学期望

1）定义：若二维随机变量 $(X, Y)$ 的分布用联合分布列 $P\left(X=x_i, Y=y_j\right)$ 或用联合密度 $p(x,y)$ 表示，则

$Z=g(X,Y)$ 的数学期望为

\[ E(Z)= \begin{cases}\displaystyle\sum_i \sum_j g\left(x_i, y_j\right) P\left(X=x_i, Y=y_j\right), & \text { 在离散场合, } \\ \displaystyle\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) p(x, y) \mathrm{d}x \mathrm{d}y, & \text { 在连续场合. }\end{cases} \]

假设数学期望都存在。

当 $g(X,Y) = X$ 时，可以得到 $X$ 的数学期望：

\[ E(X)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x, y) \mathrm{d} x \mathrm{d} y=\int_{-\infty}^{\infty} x p_X(x) \mathrm{d} x . \]

同理可得 $Y$ 的期望： \[ E(Y)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} y p(x, y) \mathrm{d} x \mathrm{d} y=\int_{-\infty}^{\infty} y p_Y(y) \mathrm{d}y . \]

当 $g(X,Y) = (X-E(X))^2$ 时，可以得到 $X$ 的方差： \[ \begin{aligned} \operatorname{Var}(X) & =E(X-E(X))^2=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}(x-E(X))^2 p(x, y) \mathrm{d} x \mathrm{d} y \\ & =\int_{-\infty}^{\infty}(x-E(X))^2 p_X(x) \mathrm{d} x . \end{aligned} \]

同理可得 $Y$ 的方差： \[ \begin{aligned} \operatorname{Var}(Y) & =E(Y-E(Y))^2=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}(Y-E(Y))^2 p(x, y) \mathrm{d} x \mathrm{d} y \\ & =\int_{-\infty}^{\infty}(Y-E(Y))^2 p_Y(y) \mathrm{d} y . \end{aligned} \]

随机变量的数学期望 \[ \begin{array}{|c|c|c|} \hline & \text { 离散型随机变量 } & \text { 连续型随机变量 } \\ \hline \text { 一维随机变量 } & E(X)=\displaystyle\sum_i x_i p_i & E(X)=\displaystyle \int_{-\infty}^{\infty} x f(x) \mathrm{d} x \\ \hline \text { 二维随机变量 } & E(X)=\displaystyle \sum_i \sum_j x p_{i j} & E(X)=\displaystyle\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x f(x, y) \mathrm{d} x \mathrm{d} y = \int_{-\infty}^{\infty} x p_X(x) \mathrm{d} x\\ & E(Y)=\displaystyle \sum_i \sum_j y p_{i j} & E(Y)=\displaystyle \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} y f(x, y) \mathrm{d} x \mathrm{d} y =\int_{-\infty}^{\infty} y p_Y(y) \mathrm{d} y\\ \hline \end{array} \]

随机变量函数的数学期望 \[ \begin{array}{|c|c|c|} \hline & \text { 离散型随机变量 } & \text { 连续型随机变量 } \\ \hline \begin{array}{c} \text { 一维随机 } \\ \text { 变量 } \end{array} & E[g(X)]=\displaystyle \sum_i g\left(x_i\right) p_i & E[g(X)]=\displaystyle \int_{-\infty}^{\infty} g(x) p(x) \mathrm{d} x \\ \hline \begin{array}{c} \text { 二维随机 } \\ \text { 变量 } \end{array} & E[g(X, Y)]=\displaystyle \sum_i \sum_j g\left(x_i, y_j\right) p_{i j} & E[g(x, y)]=\displaystyle \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) p(x, y) \mathrm{d} x \mathrm{d} y \\ \hline \end{array} \]

2.数学期望与方差的运算性质

设 $(X,Y)$ 是二维随机变量，则有 $E(X+Y) = E(X)+E(Y).$

推广：对于 $n$ 维随机变量 $(X_1,X_2,\cdots, X_n)$，则有 $\displaystyle E\left(\sum_{i=1}^n a_i X_i+b\right)=\sum_{i=1}^n a_i E\left(X_i\right)+b.$
若随机变量 $X$ 和 $Y$ 相互独立（或不相关），则有 $E(XY) =E(X)E(Y).$

推广：若随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，则 $\displaystyle E\left(\prod_{i=1}^n X_i\right)=\prod_{i=1}^n E\left(X_i\right).$
若随机变量 $X$ 和 $Y$ 相互独立（或不相关），则有 $ (X Y)=(X)+(Y)$.

推广：若随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，则 $\displaystyle \operatorname{Var}\left(\sum_{i=1}^n a_i X_i+b\right)=\sum_{i=1}^n a_i^2 \operatorname{Var}\left(X_i\right).$

对任意的随机变量 $X$ 和 $Y$ 是： \[ \begin{align} \operatorname{Var}(X \pm Y) &= \operatorname{Var}(X) + \operatorname{Var}(Y) \pm 2 E\left((X-E(X))(Y-E(Y))\right) \\ &= \operatorname{Var}(X) + \operatorname{Var}(Y) \pm 2 \operatorname{Cov}(X,Y). \end{align} \] 注意：由 $E(XY)=E(X)E(Y)$ 和 $ (X Y)=(X)+(Y)$ 都无法推出 $X$ 和 $Y$ 相互独立。

3.协方差

1）定义：设 $(X, Y)$ 是一个二维随机变量, 若 $E[(X-E(X))(Y-E(Y))]$ 存在，则称此数学期望为 $X$ 与 $Y$ 的协方差, 或称为 $X$ 与 $Y$ 的相关 (中心) 矩, 并记为 \[ \operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))] . \] 特别有 $\operatorname{Cov}(X, X)=\operatorname{Var}(X)$.

2）性质

$\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)$.
若随机变量 $X$ 与 $Y$ 相互独立, 则 $\operatorname{Cov}(X, Y)=0$, 反之不然。

即：独立 $$ 不相关，反之不成立。
对任意 $n$ 个随机变量 $X_1,X_2,\cdots,X_n$ 有：$\displaystyle \operatorname{Var}\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n \operatorname{Var}\left(X_i\right)+2 \sum_{i=1}^n \sum_{j=1}^{i-1} \operatorname{Cov}\left(X_i, X_j\right)$.
协方差 $\operatorname{Cov}(X, Y)$ 的计算与 $X, Y$ 的次序无关，即： $\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X).$
任意随机变量 $X$ 与常数 $a$ 的协方差为零，即：$\operatorname{Cov}(X, a)=0$.
对任意常数 $a, b$ 有： $\operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y).$
设 $X, Y, Z$ 是任意三个随机变量，则：$\operatorname{Cov}(X+Y, Z)=\operatorname{Cov}(X, Z)+\operatorname{Cov}(Y, Z)$.
对任意常数 $a,b,c,d$ 有： \[ \operatorname{Cov}\left(a X_1+b Y_1, c X_2+d Y_2\right)=a c \operatorname{Cov}\left(X_1, X_2\right)+a d \operatorname{Cov}\left(X_1, Y_2\right)+b c \operatorname{Cov}\left(Y_1, X_2\right)+b d \operatorname{Cov}\left(Y_1, Y_2\right) \] $ps:$ 后5个性质是协方差的线性性质，$\operatorname{Cov}$ 运算法则类似于有理式乘法。

4.相关系数

1）定义：设 $(X, Y)$ 是一个二维随机变量, 且 $\operatorname{Var}(X)=\sigma_X^2>0, \operatorname{Var}(Y)=\sigma_Y^2>0$. 则称 \[ \operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \sqrt{\operatorname{Var}(Y)}}=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} \] 为 $X$ 和 $Y$ 的相关系数，记作 $\rho_{XY}.$

2）性质

随机变量 $X$ 的标准化为：$X^*=\dfrac{X-E(X)}{\sqrt{\operatorname{Var}(X)}}$ ，则有

\[ \operatorname{Cov}\left(X^*, Y^*\right)=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}=\operatorname{Corr}(X, Y) \]

二维正态分布 $N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ 的相关系数就是 $\rho$ ；若 $(X,Y)$ 服从二维正态分布，则相互独立和不相关是等价的。
施瓦茨不等式：对任意二维随机变量 $(X, Y)$, 若 $X$ 与 $Y$ 的方差部存在, 且记 $\sigma_X^2=\operatorname{Var}(X), \sigma_Y^2=\operatorname{Var}(Y)$, 则有

\[ [\operatorname{Cov}(X, Y)]^2 \leqslant \sigma_X^2 \sigma_Y^2 . \]

$-1 \leqslant \operatorname{Corr}(X, Y) \leqslant 1$, 或 $|\operatorname{Corr}(X, Y)| \leqslant 1$.
$\operatorname{Corr}(X, Y)= \pm 1 \Leftrightarrow Y$ 和 $X$ 几乎处处有线性关系，即存在 $a(a \neq 0), b$ 有： $ P(a X+b=Y)=1.$
下面 $5$ 个条件等价： \[ \begin{aligned} \operatorname{Corr}(X, Y)=0 &\Leftrightarrow X, Y \text { 不相关 } \\ &\Leftrightarrow \operatorname{Cov}(X, Y)=0 \\ &\Leftrightarrow E(X Y)=E(X) E(Y) \\ &\Leftrightarrow \operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) \end{aligned} \]

注意：$X,Y$ 相互独立 $\Rightarrow$ $X,Y$ 不相关，反之则不成立。

5.协方差矩阵

定义：$n$ 维随机变量 $\boldsymbol X =\left(X_1, X_2, \cdots, X_n\right)^{\top}$ 的协方差矩阵： \[ \begin{aligned} & E\left[(\boldsymbol X-E(\boldsymbol X))(\boldsymbol X-E(\boldsymbol X))^{\top}\right] \\\\ = & \displaystyle \left(\begin{array}{cccc} \operatorname{Var}\left(X_1\right) & \operatorname{Cov}\left(X_1, X_2\right) & \cdots & \operatorname{Cov}\left(X_1, X_n\right) \\ \operatorname{Cov}\left(X_2, X_1\right) & \operatorname{Var}\left(X_2\right) & \cdots & \operatorname{Cov}\left(X_2, X_n\right) \\ \vdots & \vdots & & \vdots \\ \operatorname{Cov}\left(X_n, X_1\right) & \operatorname{Cov}\left(X_n, X_2\right) & \cdots & \operatorname{Var}\left(X_n\right) \end{array}\right) \end{aligned} \] 性质： $n$ 维随机变量协方差矩阵是对称的非负定矩阵。

3.5 条件分布与条件期望

1.离散随机变量的条件分布

1）离散随机变量的条件分布列：

设 $(X,Y)$ 是二维离散随机变量，对固定的 $Y=y_j$ ，若 $P(Y=y_j)=p_{\cdot j}>0$ ，则称 \[ p_{i \mid j}=P\left(X=x_i \mid Y=y_j\right)=\frac{P\left(X=x_i, Y=y_j\right)}{P\left(Y=y_j\right)}=\frac{p_{i j}}{p_{\cdot j}}, \quad i=1,2, \cdots \] 为给定 $Y=y_j$ 条件下 $X$ 的条件分布列。

同理，对一切使 $P\left(X=x_i\right)=p_{i\cdot}>0$ 的 $x_i$ ，称 \[ p_{j\mid i}=P\left(Y=y_j \mid X=x_i\right)=\frac{P\left(X=x_i, Y=y_j\right)}{P\left(X=x_i\right)}=\frac{p_{i j}}{p_{i\cdot}}, \quad j=1,2, \cdots \] 为给定 $X=x_i$ 条件下 $Y$ 的条件分布列。

2）离散随机变量的条件分布函数：

给定 $Y=y_j$ 条件下 $X$ 的条件分布函数为 \[ F\left(x \mid y_j\right)=\sum_{x_i \leqslant x} P\left(X=x_i \mid Y=y_j\right)=\sum_{x_i \leqslant x} p_{i \mid j}, \] 给定 $X=x_i$ 条件下 $Y$ 的条件分布函数为 \[ F\left(y \mid x_i\right)=\sum_{y_j \leqslant y} P\left(Y=y_j \mid X=x_i\right)=\sum_{y_j \leqslant y} p_{j\mid i} . \]

2.连续随机变量的条件分布

设 $(X,Y)$ 是二维连续随机变量，联合密度函数为 $p(x,y)$ ，边际密度函数为 $p_X(x),p_Y(y).$

对一切使 $p_Y(y)>0$ 的 $y$ ，给定 $Y=y$ 条件下 $X$ 的条件分布函数和条件密度函数分别为 \[ \begin{aligned} & F(x \mid y)=\int_{-\infty}^x \frac{p(u, y)}{p_Y(y)} \mathrm{d} u, \\ & p(x \mid y)=\frac{p(x, y)}{p_Y(y)} . \end{aligned} \] 同理，对一切使 $p_X(x)>0$ 的 $x$, 给定 $X=x$ 条件下 $Y$ 的条件分布函数和条件密度函数分别为 \[ \begin{aligned} & F(y \mid x)=\int_{-\infty}^y \frac{p(x, v)}{p_X(x)} \mathrm{d} v, \\ & p(y \mid x)=\frac{p(x, y)}{p_X(x)} . \end{aligned} \]

3.连续场合的全概率公式和贝叶斯公式

1）$p(x, y)=p_x(x) p(y \mid x)=p_Y(y) p(x \mid y)$ 由边际分布和条件分布 $\Rightarrow$ 联合分布

2）全概率公式的密度函数形式 \[ \quad\left\{\begin{array}{l} p_Y(y)=\displaystyle \int_{-\infty}^{\infty} p_X(x) p(y \mid x) d x \\ p_X(x)=\displaystyle \int_{-\infty}^{\infty} p_Y(y) p(x \mid y) d y \end{array}\right.\quad \] 3）贝叶斯公式的密度函数形式 \[ \left\{\begin{array}{l} p(x \mid y)=\dfrac{\displaystyle p_X(x) p(y \mid x)}{\displaystyle \int_{-\infty}^{\infty} p_X(x) p (y\mid x) d x} \\ p(y \mid x)=\dfrac{\displaystyle p_Y(y) p(x \mid y)}{\displaystyle \int_{-\infty}^{\infty} p_Y(y) p(x \mid y) d y} \end{array}\right. \]

4.条件数学期望

1）定义：条件分布的数学期望（若期望存在）称为条件期望，定义如下： \[ E(X \mid Y=y)= \begin{cases}\displaystyle \sum_i x_i P\left(X=x_i \mid Y=y\right), & (X, Y) \text { 为二维离散随机变量, } \\ \displaystyle \int_{-\infty}^{\infty} x p(x \mid y) \mathrm{d} x, & (X, Y) \text { 为二维连续随机变量. }\end{cases} \]

\[ E(Y \mid X=x)= \begin{cases}\displaystyle \sum_j y_j P\left(Y=y_j \mid X=x\right), & (X, Y) \text { 为二维离散随机变量, } \\ \displaystyle \int_{-\infty}^{\infty} y p(y \mid x) \mathrm{d} y, & (X, Y) \text { 为二维连续随机变量. }\end{cases} \]

性质：

$E\left(a_1 X_1+a_2 X_2 \mid Y=y\right)=a_1 E\left(X_1 \mid Y=y\right)+a_2 E\left(X_2 \mid Y=y\right)$
$E[h(Y) g(X) \mid Y]=h(Y) E[g(X) \mid Y]$
$X,Y$ 独立时, $E[g(X) \mid Y]=E[g(X)]$

注意：条件期望 $E(X \mid Y=y)$ 是 $y$ 的函数。

2）重期望公式：设 $(X,Y)$ 是二维随机变量，且 $E(X)$ 存在，则：$E(X)=E(E(X\mid Y)).$

假如求一个取值范围很大的随机变量 $X$ 的期望 $E(X)$ ，可以先找一个与 $X$ 有关的变量 $Y$，用 $Y$ 的不同取值把大范围划分成小范圈，先在每个小范围上求 $X$ 的期望。再对所有小范围的期望求期望，即为大范围上 $X$ 的期望 $E(X).$

具体使用： \[ \begin{cases}\text { 若Y为离散随机变量， } E(X)=\displaystyle \sum_j E\left(X \mid Y=y_j\right) P\left(Y=y_j\right) \\ \text { 若Y为连续随机变量， } E(X)=\displaystyle \int_{-\infty}^{\infty} E(X \mid Y=y) p_Y(y) d y\end{cases} \] 3）随机个随机变量和的数学期望

设 $X_1, X_2, \cdots$ 为一列独立同分布的随机变量,，随机变量 $N$ 只取正整数值，且 $N$ 与 $\left\{X_n\right\}$ 独立，则 \[ E\left(\sum_{i=1}^N X_i\right)=E\left(X_1\right) E(N) . \]

附：具有可加性分布的汇总表

假设下表中随机变量 $X$ 和 $Y$ 相互独立

\[ \begin{array}{|c|c|c|c|} \hline \text { 具有可加性的分布 } & X \text { 服从的分布 } & Y \text { 服从的分布 } & X+Y \text { 服从的分布 } \\ \hline \text { 二项分布 } B(n, p) & X \sim B(n, p) & Y \sim B(m, p) & X+Y \sim B(n+m, p) \\ \hline \text { 泊松分布 } P(\lambda) & X \sim P\left(\lambda_1\right) & Y \sim P\left(\lambda_2\right) & X+Y \sim P\left(\lambda_1+\lambda_2\right) \\ \hline \text { 正态分布 } N\left(\mu, \sigma^2\right) & X \sim N\left(\mu_1, \sigma_1^2\right) & Y \sim N\left(\mu_2, \sigma_2^2\right) & X+Y \sim N\left(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2\right) \\ \hline \text { 伽马分布 } G a(\alpha, \lambda) & X \sim G a\left(\alpha_1, \lambda\right) & Y \sim G a\left(\alpha_2, \lambda\right) & X+Y \sim G a\left(\alpha_1+\alpha_2, \lambda\right) \\ \hline \end{array} \]

$ps:$ 其他还具有可加性的分布还有：卡方分布、负二项分布、柯西分布等。

第四章大数定律与中心极限定理

4.0 概率母函数

1.母函数的定义：

若随机变量 $X$ 取非负整数值，其分布列为 \[ \begin{array}{c|cccc} X & 0 & 1 & 2 & \cdots \\ \hline P & p_0 & p_1 & p_2 & \cdots \end{array} \] 则 $\displaystyle g(s)=E\left(s^X\right)=\sum_{k=0}^{\infty} p_k s^k, s \in[-1,1]$ 称为 $X$ 的概率母函数。

可得：$\displaystyle g(1)=\sum_{k=0}^{\infty} p_k=1.$

2.母函数的性质

概率分布与母函数是一一对应的，即

\[ p\{x=k\}=\dfrac{1}{k!} g^{(k)}(0), k=0,1,2, \cdots \]

$\left\{\begin{array}{l}\text { 当 X 期望存在时， } \displaystyle E(X)=\sum_{k=1}^{\infty} k p_k=g^{\prime}(1) \\ \text { 当 X 方差存在时， } \operatorname{Var}(X)=g^{\prime \prime}(1)+g^{\prime}(1)-\left[g^{\prime}(1)\right]^2\end{array}\right.$
若随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，其母函数分别为 $g_1(s),g_2(s),\cdots ,g_n(s)$ 则 $X_1+X_2+\cdots+X_n$ 的母函数为：

\[ g(s)=g_1(s) g_2(s) \cdots g_n(s) \]

随机个独立同分布随机变量和的母函数：

若 $X_1, X_2, \cdots, X_n, \cdots$ 为一列相互独立具有相同概率分布的整值随机变量，$P\left\{X_i=j\right\}=f_j$, 其母函数为: \[ \displaystyle F(s)=\sum_{k=0}^{\infty} f_k s^k, \] 随机变量 $v$ 是取正整数值的，且 $P\{v=n\}=g_n$，其母函数为： \[ G(s)=\sum_{k=0}^{\infty} g_k s^k . \]

①若 $X_n$ 与 $v$ 独立，则 $\eta=X_1+X_2+\cdots+X_v$ 的母函数为 \[ H(s)=G[F(s)]. \] ②若 $E\left(X_n\right)$ 与 $E(v)$ 都存在，则 \[ E(\eta)=E\left(X_n\right) E(\nu). \] $ps:$ ② 与 $\S3.5$ 中随机个随机变量和的数学期望相对应。

4.1 随机变量序列的两种收敛性

1.依概率收敛

1）定义：设 $\{X_n\}$ 为一随机变量序列， $X$ 为一随机变量，如果对任意的 $\varepsilon>0$, 有 \[ P\left(\left|X_n-X\right| \geqslant \varepsilon\right) \rightarrow 0(n \rightarrow \infty), \] 则称序列 $\{X_n\}$ 依概率收敛于 $X$ ，记作 $X_n \xrightarrow{P} X$.

特别地，当 $X$ 为退化分布时，即 $P(X=c)=1$ ，则称序列 $\left\{X_n\right\}$ 依概率收敛于 $c$, 即 $X_n \xrightarrow{P} c$.

2）定义：如果 $P\{\omega:\displaystyle \lim _{n \rightarrow \infty} X_n(\omega)=X(\omega)\}=1$ ,则称序列 $\{X_n\}$ 以概率1（几乎处处收敛）于 $X$ ，记作 $X_n\xrightarrow{a.s.}X.$

3）设 $\left\{X_n\right\},\left\{Y_n\right\}$ 是两个随机变量序列， $a, b$ 是两个常数。如果：$X_n \xrightarrow{P} a, \quad Y_n \xrightarrow{P} b$ ，则： \[ \begin{aligned} & X_n \pm Y_n \xrightarrow{P} a \pm b \\ & X_n \times Y_n \xrightarrow{P} a \times b \\ & X_n ÷ Y_n \xrightarrow{P} a ÷ b(b \neq 0) . \end{aligned} \]

2.依分布收敛

1）定义：设随机变量 $X, X_1, X_2, \cdots$ 的分布函数分别为 $F(x), F_1(x), F_2(x), \cdots$. 若对 $F(x)$ 的任一连续点 $x$, 都有 \[ \lim _{n \rightarrow \infty} F_n(x)=F(x), \] 则称 $\left\{F_n(x) \}\right.$ 弱收敛于 $F(x)$ ，记作 $F_n(x) \xrightarrow{W} F(x)$. 也称相应的随机变量序列 $\left\{X_n\right\}$ 按分布收敛于 $X$, 记作 $X_n \xrightarrow{L} X$.

2）$X_n \xrightarrow{a.s.} X \Rightarrow X_n \xrightarrow{P} X \Rightarrow X_n \xrightarrow{L} X$

4.2 特征函数

1.特征函数的定义：设 $X$ 是一个随机变量，称 \[ \varphi(t)=E\left(\mathrm{e}^{itX}\right)=E(\cos tX)+iE(\sin tX), \quad-\infty<t<\infty, \] 当离散随机变量 $X$ 的分布列为 $p_k=P\left(X=x_k\right), k=1,2, \cdots$, 则 $X$ 的特征函数为 \[ \varphi(t)=\sum_{k=1}^{\infty} \mathrm{e}^{i t x_k} p_k, \quad-\infty<t<\infty . \] 当连续随机变量 $X$ 的密度函数为 $p(x)$, 则 $X$ 的特征函数为 \[ \varphi(t)=\int_{-\infty}^{\infty} \mathrm{e}^{itx} p(x) \mathrm{d} x, \quad-\infty<t<\infty . \]

2.特征函数唯一确定分布函数

1）逆转公式：设 $F(x)$ 和 $\varphi(t)$ 分别为随机变量 $X$ 的分布函数和特征函数，则对 $F(x)$ 的任意两个连续点 $a<b$, 有 \[ F(b)-F(a)=\lim _{T \rightarrow \infty} \frac{1}{2 \pi} \int_{-T}^T \frac{e^{-i t a}-e^{-i t b}}{i t} \varphi(t) d t \] 2）唯一性定理：随机变量的分布函数由其特征函数唯一确定。

3）若 $X$ 为连续随机变量，其密度函数为 $p(x)$, 特征函数为 $\varphi(t)$. 如果 $\displaystyle \int_{-\infty}^{\infty}|\varphi(t)| \mathrm{d} t<\infty$, 则 \[ p(x)=\frac{1}{2 \pi} \int_{-\infty}^{\infty} \mathrm{e}^{-i t x} \varphi(t) \mathrm{d} t . \]

\[ \begin{cases}\varphi(t)=\displaystyle\int_{-\infty}^{\infty} e^{i t x} p(x) d x & \text { 特征函数是密度函数的 Fourier 变换 } \\ p(x)=\displaystyle \frac{1}{2 \pi} \int_{-\infty}^{\infty} e^{-i t x} \varphi(t) d t & \text { 密度函数是特正函数的 Fourier 逆变换}\end{cases} \]

3.特征函数的性质

1）从函数的角度：

$|\varphi(t)| \leqslant \varphi(0)=1$.
$\varphi(-t)=\overline{\varphi(t)}$, 其中 $\overline{\varphi(t)}$ 表示 $\varphi(t)$ 的共轭.
若 $Y=a X+b$, 其中 $a, b$ 是常数, 则 $\varphi_Y(t)=\mathrm{e}^{\mathrm{i} b t} \varphi_X(a t)$.
$\varphi$ (t) 在 $(-\infty, \infty)$ 上一致连续.
非负定性：随机变量 $X$ 的特征函数 $\varphi(t)$ 是非负定的，即对任意正整数 $n$ 及 $n$ 个实数 $t_1, t_2, \cdots, t_n$ 和 $n$ 个复数 $z_1, z_2, \cdots, z_n$, 有 $\displaystyle \sum_{k=1}^n \sum_{j=1}^n \varphi\left(t_k-t_j\right) z_k \overline{z_j} \geqslant 0$.

2）利用特征函数求随机变量的矩

若 $E\left(X^n\right)$ 存在, 则 $X$ 的特征函数 $\varphi(t)$ 可 $n$ 次求导, 且对 $1 \leqslant k \leqslant n$, 有

\[ \varphi^{(k)}(0)=i^k E\left(X^k\right) . \]

若 $E(X^n)$ 存在，则 $X$ 的特征函数可以展开成

\[ \varphi(t)=1+(i t) E(X)+\frac{(i t)^2}{2!} E\left(X^2\right)+\cdots+\frac{(i t)^n}{n!} E\left(X^n\right)+o(t) . \]

$E(X)=\dfrac{\varphi^{\prime}(0)}{i} \quad \operatorname{Var}(X)=-\varphi^{\prime \prime}(0)+\left(\varphi^{\prime}(0)\right)^2 .$

3）$n$ 个独立随机变量和的特征函数

若随机变量 $X_1, X_2, \cdots, X_n$ 相互独立，其特征函数分别为 $\varphi_i(t)$ ，则 $X_1+X_2+\cdots+X_n$ 的特征函数为:

\[ \varphi(t)=\varphi_1(t) \varphi_2(t) \cdots \varphi_n(t) \]

$ps:$ 可以利用这个性质证明一些分布函数的可加性。

4.特征函数的连续性定理：分布函数序列 $\left\{F_n(x)\right\}$ 弱收敛于分布函数 $F(x)$ 的充要条件是 $\left\{F_n(x)\right\}$ 的特征函数序列 $\left\{\varphi_n(t)\right\}$ 收敛于 $F(x)$ 的特征函数 $\varphi(t)$.

4.3 大数定律

大数定律的一般形式：设有一随机变量序列 $\{X_n\}$ ，若满足

\[ \frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \frac{1}{n} \sum_{i=1}^n E\left[X_i\right], \]

或者说，对任意 $\varepsilon>0$ 有 \[ \lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right)=1 . \] 则称随机变量序列 $\{X_n\}$ 服从大数定律。

伯努利大数定律：设 $S_n$ 为 $n$ 重伯努利试验中事件 $A$ 发生的次数， $p$ 为每次试验中 $A$ 出现的概率，则对任意的 $\varepsilon>0$, 有

\[ \lim _{n \rightarrow \infty} P\left(\left|\frac{S_n}{n}-p\right|<\varepsilon\right)=1 \]

或者：设随机变量序列 $\{X_n\}\sim B(n,p)$ ，则对任意的 $\varepsilon>0$ 有 \[ \lim _{n \rightarrow \infty} P\left(\left|\frac{X_n}{n}-p\right|<\varepsilon\right)=1 \] 即：$\dfrac{X_n}{n}\left(\dfrac{S_n}{n}\right)\xrightarrow{P}p.$

切比雪夫大数定律：设随机变量序列 $\left\{X_n\right\}$ 相互独立，若每个 $X_i$ 的方差存在且有共同的上界，即 $\operatorname{Var}\left(X_i\right) \leqslant c, i=1,2, \cdots$,

则对任意的 $\varepsilon>0$ 有 \[ \lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right)=1 . \]

马尔可夫大数定律：若随机变量序列 $\{X_n\}$ 满足

\[ \frac{1}{n^2} \operatorname{Var}\left(\sum_{i=1}^n X_i\right) \rightarrow 0, \quad n \rightarrow \infty \]

则称 $\{X_n\}$ 服从大数定律，即$\displaystyle \lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right)=1.$

辛钦大数定律：设随机变量序列 $\left\{X_n\right\}$ 独立同分布，若每个随机变量 $X_i$ 的数学期望都存在，则称 $\{X_n\}$ 服从大数定律，即

$\displaystyle \lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right)=1.$ 若 $E(X_i)=\mu$，则 $\overline{X}\xrightarrow{P}\mu$ 其中 $\displaystyle\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i.$

4.4 中心极限定理

林德伯格-莱维中心极限定理（独立同分布的中心极限定理）

设 $\left\{X_n\right\}$ 是独立同分布的随机变量序列，且 $E\left(X_i\right)=\mu, \operatorname{Var}\left(X_i\right)=\sigma^2>0$ 存在，若记 \[ Y_n^{*}=\dfrac{X_1+X_2+\cdots+X_n-n \mu}{\sigma \sqrt{n}} \] 则对任意实数 $y$ 有 \[ \lim _{n \rightarrow \infty} P\left(Y_n^* \leqslant y\right)=\Phi(y)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^y \mathrm{e}^{-\frac{t^2}{2}} \mathrm{~d} t . \] 当 $n$ 充分大时，有： \[ \left\{\begin{array}{c} \dfrac{\displaystyle\sum_{i=1}^n X_i-n \mu}{\sigma \sqrt{n}} \stackrel{\text { 近似 }}{\sim} N(0,1) \\ \displaystyle\sum_{i=1}^n X_i \stackrel{\text { 近似 }}{\sim} N\left(n \mu, n \sigma^2\right) \\ \displaystyle\frac{1}{n} \sum_{i=1}^n X_i \stackrel{\text { 近似 }}{\sim} N\left(\mu, \frac{\sigma^2}{n}\right) \end{array}\right. \]

棣莫佛-拉普拉斯中心极限定理（二项分布的正态近似）

设 $n$ 重伯努利试验中，事件 $A$ 在每次试验中出现的概率为 $p(0<p<1)$, 记 $S_n$ 为 $n$ 次试验中事件 $A$ 出现的次数，且记 \[ Y_n^*=\dfrac{S_n-n p}{\sqrt{n p (1-p)}} . \] 则对任意实数 $y$ 有 \[ \lim _{n \rightarrow \infty} P\left(Y_n^* \leqslant y\right)=\Phi(y)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^y \mathrm{e}^{-\frac{t^2}{2}} \mathrm{~d} t . \]

林德伯格中心极限定理（独立不同分布下的中心极限定理）

设随机变量序列 $X_1, X_2, \cdots X_n$ 相互独立，且具有有限的期望和方差: $E\left(X_i\right)=\mu_i , \operatorname{Var}\left(X_i\right)=\sigma_i^2 ， i=1,2, \cdots$

记 $\displaystyle B_n^2=\operatorname{Var}\left(X_1+X_2+\cdots+X_n\right)=\sum_{i=1}^n \sigma_i^2, B_n=\sqrt{\sum_{i=1}^n \sigma_i^2},$

则中心极限定理：对任意的 $x$ \[ \lim _{n \rightarrow \infty} P\left(\frac{1}{B_n} \sum_{i=1}^n\left(x_i-\mu_i\right) \leq x\right)=\Phi(x) \] 成立的充分必要条件是林德伯格条件成立，即对任意的 $\tau>0$ 有 \[ \lim _{n \rightarrow \infty} \frac{1}{\tau^2 B_n^2} \sum_{i=1}^n \int_{\left|x-\mu_i\right|>\tau B_n}\left(x-\mu_i\right)^2 p_i(x) \mathrm{d} x=0. \]

李雅普诺夫中心极限定理（林德伯格中心极限定理的推论）

设随机变量序列 $X_1, X_2, \cdots X_n$ 相互独立，且具有有限的期望和方差: $E\left(X_i\right)=\mu_i , \operatorname{Var}\left(X_i\right)=\sigma_i^2 ， i=1,2, \cdots$ ，若存在 $\delta>0$ ，满足 \[ \lim _{n \rightarrow \infty} \frac{1}{B_n^{2+\delta}} \sum_{i=1}^n E\left(\left|X_i-\mu_i\right|^{2+\delta}\right)=0 \text {, } \] 则对任意的 $x$ 有 \[ \lim _{n \rightarrow \infty} P\left(\frac{1}{B_n} \sum_{i=1}^n\left(X_i-\mu_i\right) \leqslant x\right)=\Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} d t. \]

附：常用分布的概率母函数表

\[ \begin{array}{c|c|c} \hline \text { 分布 } & \text { 分布列 } p_k & \text { 概率母函数 } g(s) \\ \hline \begin{array}{l} \text { 二项分布 } \\ b(n, p) \end{array} & p_k=\displaystyle \binom{n}{k} p^k q^{n-k}, \quad k=0,1, \cdots, n & (ps+q)^n\\ \hline \begin{array}{c} \text { 泊松分布 } \\ P(\lambda) \end{array} & p_k=\dfrac{\lambda^k}{k!} \mathrm{e}^{-\lambda}, \quad k=0,1, \cdots & \mathrm{e}^{\lambda(s-1)}\\ \hline \begin{array}{c} \text { 几何分布 } \\ Ge(p) \end{array} & p_k=q^{k-1}p, \quad k=0,1, \cdots & \dfrac{ps}{1-qs}\quad (q=1-p) \\ \hline \end{array} \]

附：常用分布的特征函数表

\[ \begin{array}{c|c|c} \hline \text { 分布 } & \text { 分布列 } p_k \text { 或分布密度 } p(x) & \text { 特征函数 } \varphi(t) \\ \hline \begin{array}{l} \text { 二项分布 } \\ b(n, p) \end{array} & p_k=\displaystyle \binom{n}{k} p^k q^{n-k}, \quad k=0,1, \cdots, n & \left(p \mathrm{e}^{it}+q\right)^n \quad (q=1-p)\\ \hline \begin{array}{c} \text { 泊松分布 } \\ P(\lambda) \end{array} & p_k=\dfrac{\lambda^k}{k!} \mathrm{e}^{-\lambda}, \quad k=0,1, \cdots & e^{\lambda\left(e^{i t}-1\right)} \\ \hline \begin{array}{l} \text { 正态分布 } \\ N\left(\mu, \sigma^2\right) \end{array} & p(x)=\dfrac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\dfrac{(x-\mu)^2}{2 \sigma^2}\right\} & \exp \left\{i \mu t-\dfrac{\sigma^2 t^2}{2}\right\} \\ \hline \begin{array}{c} \text { 指数分布 } \\ Exp(\lambda) \end{array} & p(x)=\lambda \mathrm{e}^{-\lambda x}, \quad x \geqslant 0 & \left(1-\dfrac{\mathrm{i} t}{\lambda}\right)^{-1} \\ \hline \begin{array}{c} \text { 伽马分布 } \\ Ga(\alpha,\beta) \end{array} & p(x)=\dfrac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} \mathrm{e}^{-\lambda x}, \quad x \geqslant 0 & \left(1-\dfrac{\mathrm{i} t}{\beta}\right)^{-\alpha} \\ \hline \end{array} \]

附：大数定律和中心极限定理的条件表

\[ \begin{array}{|c|c|} \hline \text { 定理名称 } & 满足定理随机变量序列需要的条件 \\ \hline 伯努利大数定律 & n重伯努利试验 \\ \hline 切比雪夫大数定律 & 随机变量序列相互独立且 \displaystyle \operatorname{Var}(X_i)\leqslant c,i=1,2,\cdots \\ \hline 马尔可夫大数定律 & 任意随机变量序列,只要:\displaystyle \frac{1}{n^2} \operatorname{Var}\left(\sum_{i=1}^n X_i\right) \rightarrow 0, \quad n \rightarrow \infty \\ \hline 辛钦大数定律 & 随机变量序列独立同分布且 E(X_i)=\mu(i=1,2,\cdots)存在 \\ \hline 林德伯格-莱维中心极限定理 & 随机变量序列独立同分布\\ \hline 棣莫佛-拉普拉斯中心极限定理 & n重伯努利试验 \\ \hline 林德伯格中心极限定理 & \begin{array}{c} 随机变量序列相互独立且具有有限的数学期望和方差,\\E(X_i)=\mu_i,\operatorname{Var}(X_i)=\sigma_i^2,i=1,2,\cdots \\ 满足林德伯格条件:对任意的\tau>0\\有\displaystyle\lim _{n \rightarrow \infty} \frac{1}{\tau^2 B_n^2} \sum_{i=1}^n \int_{\left|x-\mu_i\right|>\tau B_n}\left(x-\mu_i\right)^2 p_i(x) \mathrm{d} x=0.\end{array}\\ \hline 李雅普诺夫中心极限定理 & \begin{array}{c} 随机变量序列相互独立且具有有限的数学期望和方差,\\E(X_i)=\mu_i,\operatorname{Var}(X_i)=\sigma_i^2,i=1,2,\cdots\\ 存在\delta>0,满足:\displaystyle \lim _{n \rightarrow \infty} \frac{1}{B_n^{2+\delta}} \sum_{i=1}^n E\left(\left|X_i-\mu_i\right|^{2+\delta}\right)=0 \end{array} \\ \hline \end{array} \]

第一章 随机事件与概率

1.1 随机事件及其运算

1.2 概率的定义及其确定方法

1.3 概率的性质

1.4 条件概率

1.5 独立性

第二章 随机变量及其分布

2.1 随机变量及其分布

2.2 随机变量的数学期望

2.3 随机变量的方差与标准差

2.4 常用离散分布

2.5 常用连续分布

2.6 随机变量函数的分布

附：一定要背诵的常用概率分布数学期望和方差

第三章 多维随机变量及其分布

3.1 多维随机变量及其联合分布

3.2 边际分布与随机变量的独立性

3.3 多维随机变量函数的分布

3.4 多维随机变量的特征数

3.5 条件分布与条件期望

附：具有可加性分布的汇总表

第四章 大数定律与中心极限定理

4.0 概率母函数

4.1 随机变量序列的两种收敛性

4.2 特征函数

4.3 大数定律

4.4 中心极限定理

附：常用分布的概率母函数表

附：常用分布的特征函数表

附：大数定律和中心极限定理的条件表

第一章随机事件与概率

第二章随机变量及其分布

第三章多维随机变量及其分布

第四章大数定律与中心极限定理