数学知识回顾与拓展(一)
1 线性代数
1.1 向量
在最优化方法的课程中,默认向量为列向量的形式。
n维列向量定义为包含n个实数的数组,记作:
a=⎣⎢⎢⎢⎢⎡a1a2⋮an⎦⎥⎥⎥⎥⎤
ai 表示向量 a 的第 i 个元素。定义 R 为全体实数组成的集合,那么由实数组成的 n 维列向量可表示为 Rn, 称为 n 维实数向量空间。通常将 Rn 的元素(n维向量)用小写粗体字母表示 (如 x )。向量 x∈Rn 中的元素记为 x1,⋯,xn 。
n 维行向量记为 [a1,a2,⋯,an], 向量 a 的转置记为 aT 。比如, 如果
a=⎣⎢⎢⎢⎢⎡a1a2⋮an⎦⎥⎥⎥⎥⎤
那么
aT=[a1,a2,⋯,an]
相应的, 列向量a可以记为 a=[a1,a2,⋯,an]T 。
1.2 线性相关
1.2.1 线性相关与线性无关的定义
如果方程:
α1a1+α2a2+⋯+αkak=0
只有在所有系数 αi(i=1,⋯,k) 都等于零的前提下等号成立, 那么称向量集 {a1,a2,⋯,ak} 是线性无关的,否则称向量集是线性相关的。
线性相关的一些结论
1.如果集合中只包括一个向量 0, 由于对于任意 α=0, 都有 α0=0,因此,该集合是线性相关的。实际上,所有包含零向量的集合都是线性相关的,假设这个集合有n个向量元素,令剩下的(n−1)个元素α1a1+α2a2+⋯+αk−1ak−1=0 ,这些系数可以全部为0,即: αi(i=1,⋯,k−1) 都为0,剩下的零向量前的系数不为 0 即可,所以所有包含零向量的集合都是线性相关的。
2.如果集合中只包括一个非零向量 : a=0 , 只有 α=0时, 才有 αa=0 成立,因此,该集合是线性无关的。
1.2.2 线性组合
给定向量 a, 如果存在标量 α1,⋯,αk, 使得
a=α1a1+α2a2+⋯+αkak
那么称向量 a 为向量a1,a2,⋯,ak 的线性组合。
定理
向量集 {a1,a2,⋯,ak} 是线性相关的,当且仅当集合中的一个向量可以表示为其他向量的线性组合。
证明:
必要性。如果 {a1,a2,⋯,ak} 是线性相关的, 那么有
α1a1+α2a2+⋯+αkak=0
其中至少存在一个标量 αi=0, 从而有
ai=−αiα1a1−αiα2a2−⋯−αiαkak
充分性。不妨设向量 a1 可以被表示为其他向量的线性组合:
a1=α2a2+α3a3+⋯+αkak
那么有
(−1)a1+α2a2+⋯+αkak=0
因为第一个标量非零,所以向量集 {a1,a2,⋯,ak} 是线性相关的。
得证。
1.2.3向量空间
1.2.3.1 子空间
令 V 表示 Rn 的一个子集, 如果 V 在向量加和运算及标量乘积运算下是封闭的,那么称 V 为 Rn 的一个子空间。
注:每个子空间都包含零向量。
假定 a1,a2,⋯,ak 是 Rn 中的任意向量, 它们所有线性组合的集合称为 a1,a2,⋯,ak 张成的子空间。记为:
span[a1,a2,⋯,ak]={i=1∑kαiai:α1,⋯,αk∈R}
任意向量集合都能张成一个子空间。
1.2.3.2 基
给定子空间 V ,如果存在线性无关的向量集合 {a1,a2,⋯,ak}⊂V 使得 V=span[a1,a2,⋯,ak] ,那么称 {a1,a2,⋯,ak} 是子空间 V 的一组基。子空间 V 中的所有基都包含相同数量的向量, 这一数量称为 V 的维数, 记为 dimV 。
如果 {a1,a2,⋯,ak} 是 V 的一组基, 那么 V 中的任一向量 a 可以唯一地表示为
a=α1a1+α2a2+⋯+αkak
其中,αi∈R,i=1,2,⋯,k 。
给定 V 的一组基 {a1,a2,⋯,ak} 和向量 a∈V ,如果
a=α1a1+α2a2+⋯+αkak
那么系数 αi,i=1,⋯,k 称为 a 对应于基 {a1,a2,⋯,ak} 的坐标。
Rn 的标准基为
e1=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡100⋮00⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤,e2=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡010⋮00⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤,⋯,en=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡000⋮01⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤
在标准基下,向量 x 可表示为
x=[x1x2⋯xn]T=x1e1+x2e2+⋯+xnen
1.3 初等变换
对矩阵进行以下三种变换的称为行初等变换
-
对换两行(对换 i,j 两行, 记作 ri↔rj );
-
以数 k=0 乘某一行中所有的元素(第 i 行乘 k, 记作 ri×k );
-
把某一行所有元的 k 倍, 加到另一行对应的元上去 (第 j 行的 k 倍加到第 i 行上, 记作 ri+krj ).
矩阵的行初等变换与列初等变换, 统称为矩阵的初等变换。
对一个矩阵每进行一次初等行变换相当于为这个矩阵左乘了一个初等矩阵,初等列变换相当于右乘一个初等矩阵。
1.4 矩阵的秩
矩阵 A 中线性无关列的最大数目称为 A 的秩, 记为 rankA 。矩阵 A 的秩等于它的非零子式的最高阶数。
注:对矩阵进行初等变换不改变矩阵的秩。
如果矩阵 A 的行数等于列数, 那么该矩阵称为方阵。行列式是与每个方阵相对应的一个标量, 记为 detA 或 ∣A∣ 。
如果一个 m×n(m≥n) 矩阵 A 具有非零的 n 阶子式,那么 A 的各列是线性无关的,即 rankA=n 。
1.5 内积与范数
对于 x,y∈Rn, 定义欧式内积为
⟨x,y⟩=i=1∑nxiyi=xTy
定义向量 x 的欧氏范数为
∥x∥=⟨x,x⟩=xTx
向量 x 的欧氏范数 ∥x∥ 具有如下性质:
- 非负性: x 的欧氏范数 ∥x∥≥0, 当且仅当 x=0 时, ∥x∥=0
- 齐次性: ∥rx∥=∣r∣∥x∥≥0,r∈R
- 三角不等式: ∥x+y∥≤∥x∥+∥y∥
1.6 求方阵的逆
设 A 为矩阵, 如果存在 n 阶方阵 B, 使得:
AB=BA=I
则称 A是可逆矩阵, B 是 A 的逆矩阵。
定理1
如果 A 是一个 n 阶可逆矩阵, 则 A 的逆矩阵是唯一的。
定理2
n 阶方阵 A 可逆的充分必要条件是行列式 ∣A∣=0
1.6.1 利用伴随矩阵求方阵的逆
当 ∣A∣=0 时,
A−1=∣A∣1A∗=∣A∣1⎣⎢⎢⎢⎢⎡A11A12⋮A1nA21A22⋮A2n⋯⋯⋯An1An2⋮Ann⎦⎥⎥⎥⎥⎤
其中 A∗ 是 A 的伴随阵, Aij 是 aij 的代数余子式, 注意伴随矩阵的行列关系。
1.6.2 Gauss−Jordan方法
简而言之, Gauss−Jordan的想法是: 如果我们对 A 执行一些行操作以获得 I, 那么对 I 执行相同的行操作会得到 A−1 。为什么?
-
行操作对应于从 A 左边乘以一组矩阵 E=⋯E2E1
-
所以, 对 A 做行操作将其变成 I 意思等价于 EA=I, 因此 E=A−1.
-
对 I 执行相同的行操作, 相当于 I左乘矩阵 E, 即 EI, 因为 EI=E 并且 E=A−1, 所以结果就是 A−1。这就是我们可以用扩展矩阵来进行高斯消除, 对 A 和 I 同时执行相同的行操作, 即:
(AI) row ops ⟶(IA−1)
1.7 特征值与特征向量
1.7.1 基本概念与一些结论
令 A 是 n×n 的实数方阵。存在标量 λ (可能为复数) 和非零向量 v 满足等式:
Av=λv
λ 称为 A 的特征值, v 称为 A 的特征向量。
已知 n 阶齐次线性方程组 (λI−A)x=0 有非零解的充分必要条件是系数行列式为 0。即矩阵 λI−A 有 det[λI−A]=0, 于是有 n 次方程成立:
det[λI−A]=λn+an−1λn−1+⋯+a1λ+a0=0
多项式 det[λI−A] 称为矩阵 A的特征多项式, 上面的方程称为特征方程。由代数的基本原理可知, 特征方程必定有 n个根(可能存在相同的根),即为A的n个特征值。若 A 有 n 个相异的特征值,那么它也有 n个线性无关的特征向量。
1.7.2 矩阵对角化
设矩阵 A 为n阶方阵。考虑其特征向量 {v1,v2,⋯,vn} 构成的一组线性无关基。在这一组基下,可对矩阵 A 进行对角化, 即对所有的 i=j, 对角矩阵的第 (i,j) 个元素 aij= 0 。令
T=[v1,v2,⋯,vn]−1
则有:
TAT−1=TA[v1,v2,⋯,vn]=T[Av1,Av2,⋯,Avn]=T[λ1v1,λ2v2,⋯,λnvn]=TT−1⎣⎢⎢⎢⎡λ10λ2⋱0λn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡λ10λ2⋱0λn⎦⎥⎥⎥⎤
定理
对于任意 n×n 实对称矩阵, 存在 n 个相互正交的特征向量。
证明:假定 Av1=λ1v1,Av2=λ2v2, 其中 λ1=λ2, 那么有
v1TAv2=v1T(Av2)=λ2(v1Tv2)
根据 A=AT, 有
v1TAv2=(v1TAT)v2=(Av1)Tv2=λ1(v1Tv2)
因此,
λ1(v1Tv2)=λ2(v1Tv2)
由于 λ1=λ2, 可以推出
(v1Tv2)=0
所以特征向量相互正交。
1.8 二次型
1.8.1 二次型函数
设二次型函数 f:Rn→R 定义为具有如下形式的函数:
f(x)=xTQx
其中 Q 是一个 n×n 实数矩阵。
f(x)=q11x12+q12x1x2+⋯+q1nx1xn+q21x2x1+q22x22+⋯+q2nx2xn+⋯+qn1xnx1+qn2x22+⋯+qnnxn2=[x1,x2,⋯,xn]⎣⎢⎢⎢⎢⎡q11q21⋮qn1q12q22⋮qn2⋯⋯⋮⋯q1nq2n⋮qnn⎦⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎥⎤=xTQx
1.8.2 正定
当对于任一非零向量 x, 都有 xTQx>0, 则二次型 xTQx 是正定的, 若 xTQx≥0 则此二次型是半正定。类似的, xTQx<0, 或者 xTQx≤0 则说明二次型是负定或半负定的。
矩阵 Q 的顺序主子式为 detQ 自身以及从矩阵 Q 中依次移除最后一行和最后一列获得的所有子式, 即:
Δ1=q11,Δ2=[q11q21q12q22]Δ3=det⎣⎢⎡q11q21q31q12q22q32q13q23q33⎦⎥⎤,⋯,Δn=detQ
定理1
给定二次型 xTQx ,其中 Q=QT, 该二次型是正定的,当且仅当的 Q 顺序主子式是正定的。
定理2
对称矩阵 Q 是正定(半正定)的, 当且仅当 Q 的所有特征值是正的 (非负的)。
2 线段与超平面
2.1 线段
对于 n 维向量 x=[x1,x2,⋯,xn]T,y=[y1,y2,⋯,yn]T, 两点之间的所有点的集合称为两点之间的线段。如果 z 在这条线段上,那么有
z=y+α(x−y)α∈[0,1]
其中y表示这个线段的起点,x−y表示这个线段的方向,α表示在这个方向上的长度的系数。
这条线段还可以表示为:
{αx+(1−α)y:α∈[0,1]}
x、y前的系数相加为1,易于记忆。
2.2 超平面
令 u1,u2,⋯,un,v∈R, 其中至少存在一个不为零的 ui 。由所有满足线性方程
u1x1+u2x2+⋯+unxn=v
的点 x=[x1,x2,⋯,xn]T 组成的集合称为空间 Rn 的超平面。超平面可以写为:
{x∈Rn:uTx=v}
其中u=[u1,u2,⋯,un]T。
注意: 超平面不一定是 Rn 的子空间, 因为超平面通常不包含原点。而且超平面不一定是一个平面, 在二维空间中就是一条直线, 而三维空间中是一些普通平面。这比较好理解,因为在二维空间中可以写成ax+by=c,这是一条直线;三维空间中为ax+by+cz=d,表示一个平面,可以看到超平面是一个相对于n维空间下的平面。
如上图,可以把超平面 H={x:u1x1+⋯+unxn=v} 可以换一种形式去表述。在超平面内一点 a 和任一点 x。 u 为点 x 处的法向量,将满足 uT(x−a)=0 于是有:
H={x∈Rn:uT(x−a)=0}