数理统计基本概念

6/19/2022 Math

在实际应用中,很多情况事先并不知道随机变量的分布函数是什么,有的时候即便知道服从什么样的分布类型,但是却不清楚具体的参数是什么,这就需要借助于统计的知识加以明确

统计学:以偏概全

总体、样本和统计量和样本数字特征

总体和样本的定义

基本概念

  • 总体:研究对象的某项数量指标 X 的全体
  • 个体:研究对象中某一个对象的指标叫做个体
  • 样本:如果(X1,X2,...,Xn)相互独立且与总体 X 同分布,则(X1,X2,...,Xn)为来自 X 的简单随机样本,简称样本,n为样本容量
  • 样本观察值:简单随机样本Xi具体取值的集合(x1,x2,...,xn)称作样本观察值

总体和样本的关系

取样有点像一个独立重复实验?或者说其实就是,其概率和分布自然通过相乘来合并

举两个栗子

常见统计量

统计量:(X1,X2,...,Xn)为来自于总体 X 的样本,(X1,X2,...,Xn)的不含未知参数的表达式为 X 的统计量,如

X1+X2+X33,X12+X22+X32,aX1+2X2X3 \frac{X_1+X_2+X_3}{3},\quad\quad X_1^2+X_2^2+X_3^2,\quad\quad aX_1+2X_2-X_3

其中第一、二是统计量,第三不是统计量。统计量是无穷无尽的,但有价值的统计量并不多:如特朗普和我,我没有统计价值,而特朗普有

样本均值(期望)

X=1ni=1nXi \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i
样本方差和标准差
S2=1n1i=1n(XiX)S=1n1i=1n(XiX) S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})\quad S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})}
样本的 k 阶原点距
Ak=1ni=1nXik A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k
样本的 k 阶中心距
Bk=1ni=1n(XiX)kB2=n1nS2S2 B_k = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k\quad B_2 = \frac{n-1}{n}S_2\neq S_2
1 阶原点距即为样本均值,2 阶原点距为
A2=1n(x12+x22+...+xk2) A_2=\frac{1}{n}(x_1^2+x_2^2+...+x_k^2)
一个常用推论
i=1n(XiX)2=i=1nXi2nX2 \sum_{i=1}^n(X_i-\overline{X})^2 = \sum_{i=1}^nX_i^2-n\overline{X}^2

这里的求和可以在 i 前任意调换位置,就像幂级数的变换,将原式换算为已知值,如样本均值、方差,以此来推进运算

对于总体为 0/1 分布的 X,其样本独立重复实验,就相当于一个伯努利实验,其样本之和(概率直接相乘)满足二项分布

常见统计抽样分布

就是一些常见的样本统计量,针对为正态分布的总体

回顾一下正态分布(接下来介绍的三个抽样分布都基于服从标准正态分布的总体)

若总体X~N(0,1),即服从标准正态分布

则其样本(X1,X2,...,Xn)

  • 各随机变量相互独立
  • 均服从标准正态分布

对于总体X~N(2,8),现有样本X1,X2遵循总体分布,则

aX1+bX2N(2a+2b,8a2+8b2)(aX1+bX2)(2a+2b)22a2+2b2N(0,1) aX_1+bX_2\sim N(2a+2b,8a^2+8b^2)\rightarrow \frac{(aX_1+bX_2)-(2a+2b)}{2\sqrt{2a^2+2b^2}}\sim N(0,1)

卡方分布

卡方分布定义

标准正态分布的平方和

(X1,X2,...,Xn)均相互独立且服从标准正态分布,则

X12+X22+...+Xn2χ2 X_1^2+X_2^2+...+X_n^2 \sim\chi^2

  • 随机变量的平方仍为随机变量
  • 随机变量的和仍为随机变量

定义若干标准正态分布的平方和构成的随机变量服从卡方分布

卡方分布的性质

维数为1的卡方分布就是标准正态分布的平方

XN(0,1)X2χ2(1) X\sim N(0,1)\rightarrow X^2\sim\chi^2(1)

两个独立的塌方分布相加,其结果的随机变量为他们维数之和的卡方分布

XX2(m),YX2(n),XYX+YX2(m+n) X\sim\Chi^2(m),Y\sim\Chi^2(n),X\perp Y\rightarrow X+Y\sim\Chi^2(m+n)

卡方分布的期望为其维数n,方差为维数的两倍,即2n

XX2(n)E(X)=n,D(X)=2n X\sim\Chi^2(n)\rightarrow E(X)=n,D(X)=2n

右范围点和左范围点,对于卡方分布的密度函数,对于其面积为a/2的点,从右向左的横坐标记为右范围点,从左向右的横坐标记为左范围点

X1α22Xα22 \Chi^2_{1-\frac{\alpha}{2}}\quad\quad\Chi^2_{\frac{\alpha}{2}}

对于非标准正态分布的总体X ~ N(u,a^2)

其样本(X1,X2,...,Xn)同样服从N(u,a^2)

根据标准化:

XiuσN(0,1) \frac{X_i-u}{\sigma}\sim N(0,1)
(X1uσ)2+(X2uσ)2+...+(Xnuσ)2X2(n) (\frac{X_1-u}{\sigma})^2+(\frac{X_2-u}{\sigma})^2+...+(\frac{X_n-u}{\sigma})^2\sim\Chi^2(n)
1σ2i=1n(Xiu)2X2(n) \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-u)^2\sim\Chi^2(n)

t 分布

t 分布定义

t 分布是标准正态分布和卡方分布的商

前提条件

XN(0,1),YX2(n),XY X\sim N(0,1),Y\sim\Chi^2(n),X\perp Y
将上述标准正态分布和卡方分布做如下除法得
XYn=τt(n) \frac{X}{\sqrt{\frac{Y}{n}}}=\tau\sim t(n)
例题:设有总体X~N(0,4),现有样本X1,X2,X3,X4,问
A=X1X2X32+X42? A=\frac{X_1-X_2}{\sqrt{X_3^2+X_4^2}}\sim\quad?
上述随机变量A属于什么分布?

考虑分子

X1X2N(0,8)X1X222N(0,1) X_1-X_2\sim N(0,8)\rightarrow\frac{X_1-X_2}{2\sqrt{2}}\sim N(0,1)
考虑分母
X3N(0,4)X32N(0,1)X32+X424X2(2) X_3\sim N(0,4)\rightarrow \frac{X_3}{2}\sim N(0,1)\rightarrow\frac{X_3^2+X_4^2}{4}\sim\Chi^2(2)
用一个正态分布除以卡方分布开根,得t分布
U=X1X222X32+X424×12=X1X2X32+X42X2(2) U=\frac{\frac{X_1-X_2}{2\sqrt{2}}}{\sqrt{\frac{X_3^2+X_4^2}{4}\times\frac{1}{2}}}=\frac{X_1-X_2}{\sqrt{X_3^2+X_4^2}}\sim \Chi^2(2)
完全符合,其中1/2就是那个常数1/nX是一个标准正态分布,Y是一个n维的卡方分布
XYn=τt(n) \frac{X}{\sqrt{\frac{Y}{n}}}=\tau\sim t(n)

t 分布的性质

对于一个 t 分布,有

  • 期望为0
  • 当维数够大时,近似服从标准正态分布

t 分布的密度关于 y 轴对称,即为偶函数,和卡方分布一样有左右范围点,并且满足

t1α2n=tα2n t_{1-\frac{\alpha}{2}}^n=-t_{\frac{\alpha}{2}}^n

F 分布

F 分布定义

F 分布为两个卡方分布的商

前提条件

XX2(m),YX2(n),XY X\sim\Chi^2(m),Y\sim\Chi^2(n),X\perp Y
将两个卡方分布做如下除法得
X/mY/nF(m,n) \frac{X/m}{Y/n}\sim F(m,n)

其中m,n称为自由度

例题

Ut(3)U2? U\sim t(3)\quad U^2\sim\,\,?
t分布是标准正态分布和卡方分布的商
U=XY/3XN(0,1),YX2(3) U=\frac{X}{\sqrt{Y/3}}\quad X\sim N(0,1),Y\sim\Chi^2(3)
则有
U2=X2/1Y/3 U^2=\frac{X^2/1}{Y/3}
又因为
X2X2(1),YX2(3) X^2\sim\Chi^2(1),Y\sim\Chi^2(3)
所以
U2F(1,3) U^2\sim F(1,3)

F 分布的性质

F 分布的倒数同样为 F 分布,一二维度交换位置

XF(m,n)1XF(n,m) X\sim F(m,n)\rightarrow \frac{1}{X}\sim F(n,m)
F分布的密度函数,分为左右范围点
F1α2(m,n)Fα2(m,n) F_{1-\frac{\alpha}{2}}(m,n)\quad F_{\frac{\alpha}{2}}(m,n)

0 < α < 1,对于两个F分布的范围点有如下关系

F1α(m,n)=1Fα(m,n) F_{1-\alpha}(m,n)=\frac{1}{F_{\alpha}(m,n)}

正态总体的抽样分布

好难,这个地方化来化去

X~N(u,a^2),取出样本(X1,X2,...,Xn),各个体相互独立并且和总体分布相同

样本均值为

X=1nX1+1nX2+...+1nXn \overline{X}=\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n
易知这个均值同样是一个正态分布

根距正态分布相加的规则

aX1+bX2N(au+bu,a2σ2+b2σ2) aX_1+bX_2\sim N(au+bu,a^2\sigma^2+b^2\sigma^2)
可得
XN(u,σ2n) \overline{X}\sim N(u,\frac{\sigma^2}{n})
则均值的期望和方差分别为:正态分布期望为u,方差为v^2
E(X)=uD(X)=σ2n E(\overline{X})=u\quad D(\overline{X})=\frac{\sigma^2}{n}

将均值标准化可得

XuσnN(0,1)(1) \frac{\overline{X}-u}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1) \tag1

其中σ是总体的均方差(方差开根),将这个sigma换成样本的均方差S,可得

XuSnt(n1)(2) \frac{\overline{X}-u}{\frac{S}{\sqrt{n}}}\sim t(n-1) \tag2
之前已经推过,对于一个不标准的正态分布序列(X1,X2,...,Xn), Xi ~ N(u,a^2),有平方和服从卡方分布的特点
1σ2i=1n(Xiu)2=(X1u)2σ2+...+(Xnu)2σ2X2(n)(3) \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-u)^2=\frac{(X_1-u)^2}{\sigma^2}+...+\frac{(X_n-u)^2}{\sigma^2}\sim \Chi^2(n) \tag3
上式中,u是总体期望(均值),将这个u换成样本均值,可得
1σ2i=1n(XiX)2X2(n1) \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\overline{X})^2\sim \Chi^2(n-1)
乘除变换得
n1σ21n1i=1n(XiX)2X2(n1) \frac{n-1}{\sigma^2}\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\sim \Chi^2(n-1)
将项中右侧替换为样本方差S^2,得
n1σ2S2X2(n1)(4) \frac{n-1}{\sigma^2}S^2\sim\Chi^2(n-1) \tag4
即样本方差乘以总体方差分之样本数-1服从样本数减一的卡方分布

易知样本方差为

S2=1n1i=1n(XiX)2 S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2

注意这里的 S^2 仍为一个随机变量,因为没有代入具体的值

E(S2)=σ2(5) E(S^2)=\sigma^2 \tag5

即样本方差的期望为总体方差,这很合理

最后一个结论,样本均值和样本方差相互独立

XS2(6) \overline{X}\perp S^2 \tag6
上述(1)(2)(3)(4)(5)(6)式为常考的六个结论

Last Updated: 9/17/2024, 4:16:37 PM
妖风过海
刘森