数理统计基本概念

northboat 6/19/2022 Math

在实际应用中，很多情况事先并不知道随机变量的分布函数是什么，有的时候即便知道服从什么样的分布类型，但是却不清楚具体的参数是什么，这就需要借助于统计的知识加以明确

统计学：以偏概全

总体、样本和统计量和样本数字特征

总体和样本的定义

基本概念

总体：研究对象的某项数量指标 X 的全体
个体：研究对象中某一个对象的指标叫做个体
样本：如果(X1,X2,...,Xn)相互独立且与总体 X 同分布，则(X1,X2,...,Xn)为来自 X 的简单随机样本，简称样本，n为样本容量
样本观察值：简单随机样本Xi具体取值的集合(x1,x2,...,xn)称作样本观察值

总体和样本的关系

取样有点像一个独立重复实验？或者说其实就是，其概率和分布自然通过相乘来合并

举两个栗子

常见统计量

统计量：(X1,X2,...,Xn)为来自于总体 X 的样本，(X1,X2,...,Xn)的不含未知参数的表达式为 X 的统计量，如

\frac{X_1+X_2+X_3}{3},\quad\quad X_1^2+X_2^2+X_3^2,\quad\quad aX_1+2X_2-X_3

其中第一、二是统计量，第三不是统计量。统计量是无穷无尽的，但有价值的统计量并不多：如特朗普和我，我没有统计价值，而特朗普有

样本均值（期望）

\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i

样本方差和标准差

S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})\quad S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})}

样本的 k 阶原点距

A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k

样本的 k 阶中心距

B_k = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k\quad B_2 = \frac{n-1}{n}S_2\neq S_2

1 阶原点距即为样本均值，2 阶原点距为

A_2=\frac{1}{n}(x_1^2+x_2^2+...+x_k^2)

一个常用推论

\sum_{i=1}^n(X_i-\overline{X})^2 = \sum_{i=1}^nX_i^2-n\overline{X}^2

这里的求和可以在 i 前任意调换位置，就像幂级数的变换，将原式换算为已知值，如样本均值、方差，以此来推进运算

对于总体为 0/1 分布的 X，其样本独立重复实验，就相当于一个伯努利实验，其样本之和（概率直接相乘）满足二项分布

常见统计抽样分布

就是一些常见的样本统计量，针对为正态分布的总体

回顾一下正态分布（接下来介绍的三个抽样分布都基于服从标准正态分布的总体）

若总体X～N(0,1)，即服从标准正态分布

则其样本(X1,X2,...,Xn)

各随机变量相互独立
均服从标准正态分布

对于总体X～N(2,8)，现有样本X1,X2遵循总体分布，则

aX_1+bX_2\sim N(2a+2b,8a^2+8b^2)\rightarrow \frac{(aX_1+bX_2)-(2a+2b)}{2\sqrt{2a^2+2b^2}}\sim N(0,1)

卡方分布

卡方分布定义

标准正态分布的平方和

(X1,X2,...,Xn)均相互独立且服从标准正态分布，则

X_1^2+X_2^2+...+X_n^2 \sim\chi^2

随机变量的平方仍为随机变量
随机变量的和仍为随机变量

定义若干标准正态分布的平方和构成的随机变量服从卡方分布

卡方分布的性质

维数为1的卡方分布就是标准正态分布的平方

X\sim N(0,1)\rightarrow X^2\sim\chi^2(1)

两个独立的塌方分布相加，其结果的随机变量为他们维数之和的卡方分布

X\sim\Chi^2(m),Y\sim\Chi^2(n),X\perp Y\rightarrow X+Y\sim\Chi^2(m+n)

卡方分布的期望为其维数n，方差为维数的两倍，即2n

X\sim\Chi^2(n)\rightarrow E(X)=n,D(X)=2n

右范围点和左范围点，对于卡方分布的密度函数，对于其面积为a/2的点，从右向左的横坐标记为右范围点，从左向右的横坐标记为左范围点

\Chi^2_{1-\frac{\alpha}{2}}\quad\quad\Chi^2_{\frac{\alpha}{2}}

对于非标准正态分布的总体X ~ N(u,a^2)

其样本(X1,X2,...,Xn)同样服从N(u,a^2)

根据标准化：

\frac{X_i-u}{\sigma}\sim N(0,1)

则

(\frac{X_1-u}{\sigma})^2+(\frac{X_2-u}{\sigma})^2+...+(\frac{X_n-u}{\sigma})^2\sim\Chi^2(n)

即

\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-u)^2\sim\Chi^2(n)

t 分布

t 分布定义

t 分布是标准正态分布和卡方分布的商

前提条件

X\sim N(0,1),Y\sim\Chi^2(n),X\perp Y

将上述标准正态分布和卡方分布做如下除法得

\frac{X}{\sqrt{\frac{Y}{n}}}=\tau\sim t(n)

例题：设有总体X~N(0,4)，现有样本X1,X2,X3,X4，问

A=\frac{X_1-X_2}{\sqrt{X_3^2+X_4^2}}\sim\quad?

上述随机变量A属于什么分布？

考虑分子

X_1-X_2\sim N(0,8)\rightarrow\frac{X_1-X_2}{2\sqrt{2}}\sim N(0,1)

考虑分母

X_3\sim N(0,4)\rightarrow \frac{X_3}{2}\sim N(0,1)\rightarrow\frac{X_3^2+X_4^2}{4}\sim\Chi^2(2)

用一个正态分布除以卡方分布开根，得t分布

U=\frac{\frac{X_1-X_2}{2\sqrt{2}}}{\sqrt{\frac{X_3^2+X_4^2}{4}\times\frac{1}{2}}}=\frac{X_1-X_2}{\sqrt{X_3^2+X_4^2}}\sim \Chi^2(2)

完全符合，其中1/2就是那个常数1/n，X是一个标准正态分布，Y是一个n维的卡方分布

\frac{X}{\sqrt{\frac{Y}{n}}}=\tau\sim t(n)

t 分布的性质

对于一个 t 分布，有

期望为0
当维数够大时，近似服从标准正态分布

t 分布的密度关于 y 轴对称，即为偶函数，和卡方分布一样有左右范围点，并且满足

t_{1-\frac{\alpha}{2}}^n=-t_{\frac{\alpha}{2}}^n

F 分布

F 分布定义

F 分布为两个卡方分布的商

前提条件

X\sim\Chi^2(m),Y\sim\Chi^2(n),X\perp Y

将两个卡方分布做如下除法得

\frac{X/m}{Y/n}\sim F(m,n)

其中m,n称为自由度

例题

U\sim t(3)\quad U^2\sim\,\,?

t分布是标准正态分布和卡方分布的商

U=\frac{X}{\sqrt{Y/3}}\quad X\sim N(0,1),Y\sim\Chi^2(3)

则有

U^2=\frac{X^2/1}{Y/3}

又因为

X^2\sim\Chi^2(1),Y\sim\Chi^2(3)

所以

U^2\sim F(1,3)

F 分布的性质

F 分布的倒数同样为 F 分布，一二维度交换位置

X\sim F(m,n)\rightarrow \frac{1}{X}\sim F(n,m)

F分布的密度函数，分为左右范围点

F_{1-\frac{\alpha}{2}}(m,n)\quad F_{\frac{\alpha}{2}}(m,n)

当0 < α < 1，对于两个F分布的范围点有如下关系

F_{1-\alpha}(m,n)=\frac{1}{F_{\alpha}(m,n)}

正态总体的抽样分布

好难，这个地方化来化去

设X~N(u,a^2)，取出样本(X1,X2,...,Xn)，各个体相互独立并且和总体分布相同

样本均值为

\overline{X}=\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n

易知这个均值同样是一个正态分布

根距正态分布相加的规则

aX_1+bX_2\sim N(au+bu,a^2\sigma^2+b^2\sigma^2)

可得

\overline{X}\sim N(u,\frac{\sigma^2}{n})

则均值的期望和方差分别为：正态分布期望为u，方差为v^2

E(\overline{X})=u\quad D(\overline{X})=\frac{\sigma^2}{n}

将均值标准化可得

\frac{\overline{X}-u}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1) \tag1

其中σ是总体的均方差（方差开根），将这个sigma换成样本的均方差S，可得

\frac{\overline{X}-u}{\frac{S}{\sqrt{n}}}\sim t(n-1) \tag2

之前已经推过，对于一个不标准的正态分布序列(X1,X2,...,Xn), Xi ~ N(u,a^2)，有平方和服从卡方分布的特点

\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-u)^2=\frac{(X_1-u)^2}{\sigma^2}+...+\frac{(X_n-u)^2}{\sigma^2}\sim \Chi^2(n) \tag3

上式中，u是总体期望（均值），将这个u换成样本均值，可得

\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\overline{X})^2\sim \Chi^2(n-1)

乘除变换得

\frac{n-1}{\sigma^2}\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\sim \Chi^2(n-1)

将项中右侧替换为样本方差S^2，得

\frac{n-1}{\sigma^2}S^2\sim\Chi^2(n-1) \tag4

即样本方差乘以总体方差分之样本数-1服从样本数减一的卡方分布

易知样本方差为

S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2

注意这里的 S^2 仍为一个随机变量，因为没有代入具体的值

E(S^2)=\sigma^2 \tag5

即样本方差的期望为总体方差，这很合理

最后一个结论，样本均值和样本方差相互独立

\overline{X}\perp S^2 \tag6

上述(1)(2)(3)(4)(5)(6)式为常考的六个结论

大数定律和中心极限定理参数估计和假设检验

Northboat Dock