线性代数 T281、282、289、314、321、334
延伸组和整体组的性质 牢记一个矩阵无关的根本原因:秩 m 和列数 n 的大小关系
对于一个行最简的矩阵 A,假设其秩为 m,列数为 n,线性无关是指 m ≥ n
原矩阵对应的齐次方程组 Ax = 0,只有非零解,n 个未知数对应有 m 个有效方程(m ≥ n),方程只有一种解,即全零解 原矩阵秩数大于列数,即有效方程个数大于未知数个数,可以确定 n 个未知数的值,而对于齐次方程来说,就直接确定为一堆 0 对于整体组(在原有向量组下加一行,m 只会增加):原矩阵无关(m > n),则整体组一定无关;整体组有关(n > m),原矩阵一定有关
反之不成立
对于延伸组(在原有向量组右加一列):原矩阵有关,则延伸组一定有关;延伸组无关,则原矩阵一定无关
反之不成立
找极大无关组 对于一个矩阵A = (α1, α2, α3, α4, α5)
,有这样两种方式找到其极大无关组(本质上都是一样的,找寻子式不为 0 的向量组)
第一种方法:将 A 化为行最简矩阵,找到每一个主元所在列,如主元位于第 1、3、5 列,则(α1, α3, α5)
就为 A 的一个极大无关组
第二种方法:将 A 化为行最简矩阵后,得到其秩 r(A) = r,那么去寻找一个 r 阶子式不为 0 的向量组(由 r 个向量组成),这个向量组同样是 A 的一个极大无关组
矩阵方程求解 一般来说,求解矩阵方程,将逆左右乘可以得到想要的解,如
A B = C → B = A − 1 C
AB = C \rightarrow B = A^{-1}C
A B = C → B = A − 1 C
但当 A 和 C 没有逆时(秩小于维数,行列式维 0),不能用这样方式求解,采用设未知数的方式转化为解非齐次线性方程组问题,如
[ 1 1 2 2 ] B = [ 2 3 4 6 ]
\left [ \begin{matrix}
1&1\\
2&2\\
\end{matrix} \right ] B =
\left [ \begin{matrix}
2&3\\
4&6\\
\end{matrix} \right ]
[ 1 2 1 2 ] B = [ 2 4 3 6 ]
此时 A B 均不可逆,于是设
B = [ x 1 x 2 x 3 x 4 ]
B =
\left [ \begin{matrix}
x_1&x_2\\
x_3&x_4\\
\end{matrix} \right ]
B = [ x 1 x 3 x 2 x 4 ]
则有方程组
{ x 1 + x 3 = 2 x 2 + x 4 = 3
\begin{cases}
x_1+x_3 = 2\\
x_2+x_4 = 3\\
\end{cases}
{ x 1 + x 3 = 2 x 2 + x 4 = 3
设自由项x1=u, x2=v
,故有
B = [ u v 2 − u 3 − v ] u , v ∈ R
B =
\left [ \begin{matrix}
u&v\\
2-u&3-v\\
\end{matrix} \right ]\quad
u,v\in R
B = [ u 2 − u v 3 − v ] u , v ∈ R
特征值求解 各行元素之和为确定常数,根据题意列出齐次方程组,根据特征值定义写出特征向量和特征值,如下式有
$$
A[1,1,1]^T = 5[1,1,1]^T
$$
故 5 为 A 的一个特征值,k(1,1,1) 为其一个特征向量
相似、合同和正定的判断 相似:定义上指存在可逆矩阵 P 使得 A 和 B 满足
P − 1 A P = B
P^{-1}AP = B
P − 1 A P = B
则 A 和 B 相似,实际上就是说 A 和 B 的特征值完全相同 ,这又引申出
t r ( A ) = t r ( B ) = ∑ λ ∣ A ∣ = ∣ B ∣ = Π λ
tr(A) = tr(B) = \sum\lambda\quad |A|=|B| = \Pi\lambda
t r ( A ) = t r ( B ) = ∑ λ ∣ A ∣ = ∣ B ∣ = Π λ
但注意,迹和行列式相同 单独拿出均不是相似的充要条件,二者需同时满足
当 A 和 B 相似时,进一步有
∣ A + k E ∣ = ∣ B + k E ∣
|A+kE| = |B+kE|
∣ A + k E ∣ = ∣ B + k E ∣
相似矩阵的秩和迹也均相同
r ( A + k E ) = r ( B + k E ) t r ( A + k E ) = t r ( B + k E )
r(A+kE) = r(B+kE)\quad tr(A+kE) = tr(B+kE)
r ( A + k E ) = r ( B + k E ) t r ( A + k E ) = t r ( B + k E )
合同:两矩阵的惯性指数相同,求解特征值比较 即可
正定:指矩阵惯性指数均大于 0,可以通过顺序主子式判断 ,如
B = [ x 1 x 2 x 3 x 4 ]
B =
\left [ \begin{matrix}
x_1&x_2\\
x_3&x_4\\
\end{matrix} \right ]
B = [ x 1 x 3 x 2 x 4 ]
若顺序主子式
∣ x 1 ∣ > 0 ∣ x 1 x 2 x 3 x 4 ∣ > 0
|x_1|>0\quad
\left | \begin{matrix}
x_1&x_2\\
x_3&x_4\\
\end{matrix} \right | >0
∣ x 1 ∣ > 0 x 1 x 3 x 2 x 4 > 0
则矩阵 B 正定
基、坐标和过渡矩阵求解 基:一组线性无关的向量组,假设为 n 维,则这个 n 维的向量组可以线性表出任意其他 n 维的向量组(基石、基础之意)
坐标和基是同时出现的,若 α 是 3 维空间上一组基
( α 1 , α 2 , α 3 ) ( x 1 x 2 x 3 ) = ( β 1 , β 2 , β 3 )
(\alpha_1,\alpha_2,\alpha_3)
\left ( \begin{matrix}
x_1\\x_2\\x_3
\end{matrix} \right )
=(\beta_1,\beta_2,\beta_3)
( α 1 , α 2 , α 3 ) x 1 x 2 x 3 = ( β 1 , β 2 , β 3 )
则称矩阵 x 是 β 在基 α 下的坐标,这个方程将对应一个非齐次线性方程组,解出就行(齐次通解+非齐次特解)
过渡矩阵的定义
β = α C
\beta = \alpha C
β = α C
则称 C 是 α 到 β 的过度矩阵,注意一定是右乘
可以发现实际上这里和坐标和基是一样的,α 到 β 的一个过渡,就相当于 β 以 α 为基的一个坐标
这里引申出另一个问题,假设 β 在基 α 上的坐标为 x,现有一个新基 γ,且有
γ = α C
\gamma = \alpha C
γ = α C
要求 β 在 γ 上的坐标 y,则有
β = γ y = α x = γ C − 1 x
\beta = \gamma y = \alpha x = \gamma C^{-1}x
β = γ y = αx = γ C − 1 x
固有
y = C − 1 x
y = C^{-1}x
y = C − 1 x
就是简单的代入,替换,没什么新东西,无非矩阵变换
二次型、标准型和规范形 首先注意区分二次型的矩阵表示(即对应矩阵)和用矩阵乘法表示二次型,前者规定矩阵必须是对称的(表示的要优雅),后者只是用乘法表示出来就行,过程怎么乘怎么加不关注
标准型:只有平方项的二次型
对于对应矩阵而言,就是转化为他的相似对角矩阵,此时满足相似且只有平方项 规范形:和二次型对应矩阵的惯性指数有关,如正惯性指数 p,负惯性指数 q,为 0 的特征值 z 个,则规范形中就有 p 个 1,q 个 -1,z 个 0,怎么排布不关注
概率论与数理统计 不相容、对立和独立 不相容指不能同时发生,即
P ( A B ) = 0
P(AB) = 0
P ( A B ) = 0
但没有任何约束说,A 不发生 B 会怎么样,但对立不同,A 和 B 占据了所有概率,不仅有 P(AB) = 0,还有
P ( B ∣ A ) = 0 P ( B ∣ A ) = 0
P(B|A) = 0\quad P(B|A) = 0
P ( B ∣ A ) = 0 P ( B ∣ A ) = 0
一方发生,另一方比不发生;一方不发生,另一方必发生
而独立是指两个随机变量相互不影响,有
P ( A B ) = P ( A ) ( B ) P ( A ∣ B ) = P ( A ) ρ ( X , Y ) = 0
P(AB) = P(A)(B)\quad P(A|B) = P(A)\quad \rho(X,Y)=0
P ( A B ) = P ( A ) ( B ) P ( A ∣ B ) = P ( A ) ρ ( X , Y ) = 0
一定要善于利用独立的性质,包括期望和方差也都可以直接拆解
常见分布期望和方差 泊松分布
P ( X = k ) = λ k k ! e − λ
P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda}
P ( X = k ) = k ! λ k e − λ
其期望和方差均为 λ
指数分布
F ( x ) = 1 − e − λ x
F(x) = 1-e^{-\lambda x}
F ( x ) = 1 − e − λ x
其期望方差分别为
E ( X ) = 1 λ D ( X ) = 1 λ 2
E(X)=\frac{1}{\lambda}\quad D(X)=\frac{1}{\lambda^2}
E ( X ) = λ 1 D ( X ) = λ 2 1
期望和方差的运算 注意对于任何一个随机变量,其概率密度在 -∞ 到 E(X) 的积分一定不为 1/2,而是约等于,可以进行参数估计
∫ − ∞ E ( X ) f ( x ) d x ≠ 1 2
\int_{-\infty}^{E(X)}f(x)dx\neq \frac{1}{2}
∫ − ∞ E ( X ) f ( x ) d x = 2 1
对于方差的运算,加减常数并不影响其值变化
$$
D(X) = D(X-c) = E[(X-c)^2]-E^2(X-c)
$$
故选 C
二维正态分布 对于一个二维正态分布(X, Y) ~ N(μ1, μ2,σ1^2, σ2^2, ρ)
,其有密度函数
f ( x , y ) = 1 2 π 1 − ρ 2 σ 1 σ 2 e − 1 1 − ρ 2 [ ( x − μ 1 ) 2 σ 1 2 + ( y − μ 2 ) 2 σ 2 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 ]
f(x,y)=\frac{1}{\sqrt{2\pi}\sqrt{1-\rho^2}\sigma_1\sigma_2}e^{\frac{-1}{1-\rho^2}
[\frac{(x-\mu_1)^2}{\sigma_1^2}+\frac{(y-\mu_2)^2}{\sigma_2^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}]}
f ( x , y ) = 2 π 1 − ρ 2 σ 1 σ 2 1 e 1 − ρ 2 − 1 [ σ 1 2 ( x − μ 1 ) 2 + σ 2 2 ( y − μ 2 ) 2 − σ 1 σ 2 2 ρ ( x − μ 1 ) ( y − μ 2 ) ]
其边际分布即为一维正态分布,分别符合
X ∼ N ( μ 1 , σ 1 ) Y ∼ N ( μ 2 , σ 2 )
X\sim N(\mu_1,\sigma_1)\quad Y\sim N(\mu_2,\sigma_2)
X ∼ N ( μ 1 , σ 1 ) Y ∼ N ( μ 2 , σ 2 )
ρ 是一维正态分布 X 和 Y 的相关系数,当 ρ = 0,则表示 X 和 Y 相互独立,此时有联合分布为编辑分布函数直接相乘
F ( X , Y ) = F X ( x ) F Y ( y )
F(X,Y) = F_X(x)F_Y(y)
F ( X , Y ) = F X ( x ) F Y ( y )
举个栗子
二维正态分布变换标准正态分布
全概率公式 就是条件发生概率乘以条件概率等于事件发生概率
P ( B ) P ( A ∣ B ) = P ( A B )
P(B)P(A|B) = P(AB)
P ( B ) P ( A ∣ B ) = P ( A B )
由于独立,有概率分布为
P ( X 1 + X 2 ≤ y ) = P ( X 1 = 0 ) P ( X 2 ≤ y ) + P ( X 1 = 1 ) P ( X 2 ≤ y − 1 )
P(X_1+X_2 \leq y) = P(X_1=0)P(X_2\leq y)+P(X_1=1)P(X_2\leq y-1)
P ( X 1 + X 2 ≤ y ) = P ( X 1 = 0 ) P ( X 2 ≤ y ) + P ( X 1 = 1 ) P ( X 2 ≤ y − 1 )
故
F Y ( y ) = 1 4 F ( y ) + 3 4 F ( y − 1 )
F_Y(y) = \frac{1}{4}F(y)+\frac{3}{4}F(y-1)
F Y ( y ) = 4 1 F ( y ) + 4 3 F ( y − 1 )
再举个栗子
最大/小值分布概率的处理 通过 1 减去反的形式化为分布函数好表示的式子,如
P { m a x ( X , Y ) ≥ 1 } = 1 − P { m a x ( X , Y ) < 1 }
P\{max(X,Y) \geq 1\} = 1-P\{max(X,Y) < 1\}
P { ma x ( X , Y ) ≥ 1 } = 1 − P { ma x ( X , Y ) < 1 }
若 X 和 Y 独立,则有
1 − P { m a x ( X , Y ) < 1 } = 1 − [ F X ( 1 ) × F Y ( 1 ) ]
1-P\{max(X,Y) < 1\} = 1-[F_X(1)\times F_Y(1)]
1 − P { ma x ( X , Y ) < 1 } = 1 − [ F X ( 1 ) × F Y ( 1 )]
举个栗子
复合方差运算 遵守最基本的方差运算法则,即
D ( X ) = E ( X 2 ) − E 2 ( X )
D(X) = E(X^2)-E^2(X)
D ( X ) = E ( X 2 ) − E 2 ( X )
对于乘法复合的方差
D ( X Y ) = E ( X 2 Y 2 ) − E 2 ( X Y )
D(XY) = E(X^2Y^2)-E^2(XY)
D ( X Y ) = E ( X 2 Y 2 ) − E 2 ( X Y )
若 X 和 Y 独立,则可进一步拆解
E ( X 2 Y 2 ) = E ( X 2 ) E ( Y 2 )
E(X^2Y^2) = E(X^2)E(Y^2)
E ( X 2 Y 2 ) = E ( X 2 ) E ( Y 2 )
对于绝对值复合,如
D ( ∣ Y ∣ ) = E ( Y 2 ) − E 2 ( ∣ Y ∣ )
D(|Y|) = E(Y^2)-E^2(|Y|)
D ( ∣ Y ∣ ) = E ( Y 2 ) − E 2 ( ∣ Y ∣ )
一般从定义上考虑求解
E ( ∣ Y ∣ ) = ∫ − ∞ + ∞ ∣ y ∣ f ( y ) d y
E(|Y|) = \int_{-\infty}^{+\infty}|y|f(y)dy
E ( ∣ Y ∣ ) = ∫ − ∞ + ∞ ∣ y ∣ f ( y ) d y
对于正态分布(概率密度为偶函数),则有
E ( ∣ Y ∣ ) = 2 ∫ 0 + ∞ y f ( y ) d y
E(|Y|) = 2\int_{0}^{+\infty}yf(y)dy
E ( ∣ Y ∣ ) = 2 ∫ 0 + ∞ y f ( y ) d y
协方差相关公式及计算 方差相加
D ( X + Y ) = D ( X ) + D ( Y ) + 2 ρ D ( X ) D ( Y )
D(X+Y) = D(X)+D(Y)+2\rho\sqrt{D(X)D(Y)}
D ( X + Y ) = D ( X ) + D ( Y ) + 2 ρ D ( X ) D ( Y )
协方差
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y )
Cov(X,Y) = E(XY)-E(X)E(Y)
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y )
相关系数
ρ = C o v ( X , Y ) D ( X ) D ( Y )
\rho = \frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}
ρ = D ( X ) D ( Y ) C o v ( X , Y )
切比雪夫不等式
P { ∣ X − E ( X ) ∣ ≥ ε } ≤ D ( X ) ε 2
P\{|X-E(X)|\geq ε\} \leq \frac{D(X)}{ε^2}
P { ∣ X − E ( X ) ∣ ≥ ε } ≤ ε 2 D ( X )
协方差的加减分配律(有点像行列式分解)
C o v ( X , X + Y ) = C o v ( X , X ) + C o v ( X , Y )
Cov(X,X+Y) = Cov(X,X)+Cov(X,Y)
C o v ( X , X + Y ) = C o v ( X , X ) + C o v ( X , Y )
边缘分布和联合分布关系 就是一个二元函数偏导的问题
f ( x , y ) = ∂ 2 F ( x , y ) ∂ x ∂ y
f(x,y) = \frac{∂^2F(x,y)}{∂x∂y}
f ( x , y ) = ∂ x ∂ y ∂ 2 F ( x , y )
X 和 Y 的边际分布密度就是
∂ F ∂ x ∂ F ∂ y
\frac{∂F}{∂x}\quad \frac{∂F}{∂y}
∂ x ∂ F ∂ y ∂ F
均选 C
由二维正态分布求得边际分布的一维正太分布
和上题一样,都是通过联合分布求边际一维分布,这里使用原始的积分进行计算
独立和不相关的判定 T546、547
独立比不相关分裂得更加彻底,于是有
判断两个随机变量是否相关,考虑他的协方差或相关系数,为 0 则不相关,否则相关,举个栗子
这种样本减去样本均值的随机变量形式会在 T470 出现过,其期望满足以下
E ( X 1 − X ‾ ) = n − 1 n E ( X 1 ) − 1 n ∑ i = 2 n E ( X i ) = 0
E(X_1-\overline X)=\frac{n-1}{n}E(X_1)-\frac{1}{n}\sum_{i=2}^nE(X_i)=0
E ( X 1 − X ) = n n − 1 E ( X 1 ) − n 1 i = 2 ∑ n E ( X i ) = 0
方差满足
D ( X 1 − X ‾ ) = ( n − 1 ) 2 n 2 D ( X 1 ) + 1 n 2 ∑ i = 2 n D ( X i ) = n − 1 n σ 2
D(X_1-\overline X)=\frac{(n-1)^2}{n^2}D(X_1)+\frac{1}{n^2}\sum_{i=2}^nD(X_i)=\frac{n-1}{n}\sigma^2
D ( X 1 − X ) = n 2 ( n − 1 ) 2 D ( X 1 ) + n 2 1 i = 2 ∑ n D ( X i ) = n n − 1 σ 2
其中 σ 平方是总体 X 的方差
而独立要考察分布函数及其定义过程
大数定理 切比雪夫不等式
P ( ∣ X − E ( X ) ∣ ≥ x ) ≤ D ( X ) x 2
P(|X-E(X)|\geq x) \leq \frac{D(X)}{x^2}
P ( ∣ X − E ( X ) ∣ ≥ x ) ≤ x 2 D ( X )
大数定律前提
切比雪夫大数定律:两两不相关且期望有同一上限 辛钦大数定律:独立同分布且期望存在(期望必相同) 二项分布以正态分布为其极限分布,若有二项分布X~B(n, 0.5)
,易知
μ = E ( X ) = 0.5 n σ 2 = D ( X ) = 0.25 n
\mu = E(X)=0.5n\quad \sigma^2=D(X) = 0.25n
μ = E ( X ) = 0.5 n σ 2 = D ( X ) = 0.25 n
这个定理规定
lim n → + ∞ X ∼ N ( μ , σ 2 ) → N ( n 2 , n 4 )
\lim_{n\rightarrow+\infty}X\sim N(\mu, \sigma^2) \rightarrow N(\frac{n}{2},\frac{n}{4})
n → + ∞ lim X ∼ N ( μ , σ 2 ) → N ( 2 n , 4 n )
进一步的,有
X − n 2 n 4 ∼ N ( 0 , 1 )
\frac{X-\frac{n}{2}}{\sqrt{\frac{n}{4}}}\sim N(0,1)
4 n X − 2 n ∼ N ( 0 , 1 )
矩估计和极大似然估计 数理统计:T566、570
看到样本方差,考虑从卡方分布入手,对于卡方分布有
Z ∼ χ 2 ( n ) → E ( Z ) = n E ( D ) = 2 n
Z\sim \chi^2(n)\rightarrow E(Z) = n\quad E(D)=2n
Z ∼ χ 2 ( n ) → E ( Z ) = n E ( D ) = 2 n
所以对于统计量 T,有
D ( T ) = D ( σ 2 ( n − 1 ) ( S X 2 + S Y 2 ) σ 2 ) = σ 4 [ D ( Z ) + D ( Z ) ]
D(T)=D(\sigma^2\frac{(n-1)(S_X^2+S_Y^2)}{\sigma^2})=\sigma^4[D(Z)+D(Z)]
D ( T ) = D ( σ 2 σ 2 ( n − 1 ) ( S X 2 + S Y 2 ) ) = σ 4 [ D ( Z ) + D ( Z )]
其中
Z = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 )
Z = \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)
Z = σ 2 ( n − 1 ) S 2 ∼ χ 2 ( n − 1 )
固
D ( T ) = 2 σ 4 D ( Z ) = 4 σ 4 ( n − 1 )
D(T) = 2\sigma^4D(Z)=4\sigma^4(n-1)
D ( T ) = 2 σ 4 D ( Z ) = 4 σ 4 ( n − 1 )
方差的矩估计量为二阶中心距,期望的矩估计量为一阶原点矩
D ( X ) ≈ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 E ( X ) ≈ 1 n ∑ i = 1 n X i = X ‾
D(X)\approx\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\quad E(X)\approx \frac{1}{n}\sum_{i=1}^nX_i=\overline X
D ( X ) ≈ n 1 i = 1 ∑ n ( X i − X ) 2 E ( X ) ≈ n 1 i = 1 ∑ n X i = X
根据样本方差和二阶中心距的关系,自然有
D ( X ) ≈ n − 1 n S 2
D(X)\approx \frac{n-1}{n}S^2
D ( X ) ≈ n n − 1 S 2
固有
E ( X 2 ) = D ( X ) + E 2 ( X ) ≈ n − 1 n S 2 + X ‾
E(X^2)=D(X)+E^2(X)\approx \frac{n-1}{n}S^2+\overline X
E ( X 2 ) = D ( X ) + E 2 ( X ) ≈ n n − 1 S 2 + X
置信度和置信区间 总体均值 μ 置信度为 95% 的置信区间为 (a, b) 的含义是:区间 (a, b) 含总体均值 μ 的真值的概率为 95%
这和总体均值 μ 的真值以 95% 的概率落入区间 (a, b) 有什么不同? 当置信度 1-α 整体减小时,置信区间长度 L 也会相应减小
在区间估计时,样本越多,置信区间长度应越大,置信度越高,置信区间也应越大,如对于样本个数为 n,其均值 X,置信度为 1-α 的样本检测,其有置信区间为
( X ‾ − n − 1 n μ α 2 , X ‾ + n − 1 n μ α 2 )
(\overline X-\frac{\sqrt{n}-1}{\sqrt{n}}\mu_{\frac{\alpha}{2}},\overline X+\frac{\sqrt{n}-1}{\sqrt{n}}\mu_{\frac{\alpha}{2}})
( X − n n − 1 μ 2 α , X + n n − 1 μ 2 α )
选 C
检验水平和拒绝域 检验水平为 α,即为第一类错误(拒绝真值)的发生概率,当错误率越小时,容错就越大 ,于是自变量取值的范围就越大,自然拒绝域就越小