1.基本概念
- 试验指标:在试验中要考察的指标,如产品质量等。
- 因素:影响试验指标的条件。包括可控因素和不可控因素。
- 单因素试验:在一项试验中只有一个因素在改变的试验。
- 多因素试验:在一项试验中多于一个因素在改变的试验。
- 水平:因素所处的状态。
- 随机误差:同一水平下,样本各观察值之间的差异,称为随机误差。这种差异可以看成是随机因素的影响。
- 系统误差:不同水平下,各观察值之间的差异。这种差异可能是由于行业本身所造成的,称为系统误差。
2.方差分析的任务
- 检验$s$个总体$N(\mu_1,\sigma^2),…,N(\mu_s,\sigma^2)$的均值是否相等,即检验假设:
$$
H_0:\mu_1=\mu_2=…=\mu_s\
H_1:\mu_1,\mu_2,…,\mu_s不全相等
$$
- 作出未知参数$\mu_1,\mu_2,…,\mu_s,\sigma^2$的估计
总平均:
$$
\mu=\frac{1}{n}\sum_{j=1}^{s}n_j\mu_j\
n=\sum_{j=1}^{s}n_j
$$
$A_j$下总体平均值与总平均值的差异:
$$
\delta_j=\mu_j=\mu,\space\space j=1,2,…,s
\
X_{ij}=\mu_j+\epsilon_{ij},\space\epsilon_{ij}~N(0,\sigma^2)\
各\epsilon_{ij}独立,\space i=1,2,…,n_j,\space j=1,2,…,s\
\Downarrow\
X_{ij}=\mu+\sigma_j+\epsilon_{ij},\space\epsilon_{ij}~N(0,\sigma^2).\space 各\epsilon_{ij}独立\
i=1,2,…,n_j,\space j=1,2,…,s,\space\sum_{j=1}^{s}n_j\delta_j=0\
$$
因为$\mu_1=\mu_2=…=\mu_s$时:
$$
\mu=\frac{1}{n}\sum_{j=1}^{s}n_j\mu_j=\frac{1}{n}\mu_j\sum_{j=1}^{s}n_j=\frac{1}{n}\mu_j n=\mu_j\
\delta_j=\mu_j-\mu,\space j=1,2,…,s
$$
所以:
$$
H_0:\mu_1=\mu_2=…=\mu_s\
H_1:\mu_1,\mu_2,…,\mu_s不全相等\
\Downarrow\
H_0:\delta_1=\delta_2=…=\delta_s\
H_1:\delta_1,\delta_2,…,\delta_s不全为零
$$
3.平方和的分解
$A_1$ | $A_2$ | … | $A_s$ |
---|---|---|---|
$X_{11}$ | $X_{12}$ | … | $X_{1s}$ |
$X_{21}$ | $X_{22}$ | … | $X_{2s}$ |
… | … | … | … |
$X_{n_1 1}$ | $X_{n_2 2}$ | … | $X_{n_s s}$ |
记$\bar{X}{\cdot j}=\frac{1}{n{j}} \sum_{i=1}^{n_{j}} X_{i j}$
水平$A_i$下的样本均值(总的样本均值):
$$
\bar{X}=\frac{1}{n} \sum_{i=1}^{s} \sum_{j=1}^{n_{i}} X_{i j}
$$
总偏差平方和(总变差,反映了全部试验数据之间的差异):
$$
S_{T}=\sum_{j=1}^{s} \sum_{i=1}^{n_{j}}\left(X_{i j}-\bar{X}\right)^{2}
$$
组内偏差平方和(误差平方和,反映了水平$A_i$内有随机误差二引起的波动):
$$
S_{e}=\sum_{j=1}^{s} \sum_{i=1}^{n_{j}}\left(X_{i j}-\bar{X}{\cdot j}\right)^{2}
$$
组间偏差平方和(效应平方和,由水平$A_j$的效应的差异以及随机误差引起):
$$
S{A}=\sum_{j=1}^{s} n_{j}\left(X_{. j}-\bar{X}\right)^{2}
$$
总离差平方和分解式:
$$
S_{T}=S_{e}+S_{A}
$$
4.$S_e,S_A$的统计特性
- $S_e$的统计特性
$$
S_{e}=\sum_{i=1}^{n_{1}}\left(X_{i 1}-\bar{X}{\cdot 1}\right)^{2}+\cdots+\sum{i=1}^{n_{s}}\left(X_{i s}-\bar{X}_{\cdot s}\right)^{2}
$$
$\sum_{i=1}^{n_{j}}\left(X_{i j}-\bar{X}{. j}\right)^{2}$是总体$N\left(\mu{j}, \sigma^{2}\right)$的样本方差的$n_{j}-1$倍,
$$
\frac{\sum_{i=1}^{n_{j}}\left(X_{i j}-\bar{X}{. j}\right)^{2}}{\sigma^{2}} \sim \chi^{2}\left(n{j}-1\right)
$$
由$\chi^2$分布的可加性:
$$
\frac{S_{E}}{\sigma^{2}} \sim \chi^{2}\left(\sum_{j=1}^{s}\left(n_{j}-1\right)\right)
$$
即:
$$
\frac{S_{E}}{\sigma^{2}} \sim \chi^{2}(n-s), \quad E\left(S_{E}\right)=(n-s) \sigma^{2}
$$
- $S_A$的统计特性
$$
E\left(S_{A}\right)=(s-1) \sigma^{2}+\sum_{j=1}^{s} n_j \delta^{2}
$$
且当$H_0$为真时:
$$
\frac{S_{A}}{\sigma^{2}} \sim \chi^{2}(s-1)
$$
5.拒绝域
- $F$比
定义$F$比:
$$
F=\frac{\bar{S_A}}{\bar{S_e}}=\frac{S_A/\left(S-1\right)}{S_E/\left(n-s\right)}
$$
故检验问题拒绝域具有形式:
$$
F=\frac{S_A/\left(S-1\right)}{S_E/\left(n-s\right)}\le k
$$
其中$k$由显著性水平$\alpha$决定。
- 方差分析表
方差来源 | 平方和 | 自由度 | 均方 | $F$比 |
---|---|---|---|---|
因素$A$ | $S_A$ | $s-1$ | $\overline{S}{A}=\frac{S{A}}{s-1}$ | $F=\frac{\overline{\boldsymbol{S}}{\boldsymbol{A}}}{\overline{\boldsymbol{S}}{\boldsymbol{E}}}$ |
误差 | $S_E$ | $n-s$ | $\bar{S}{E}=\frac{S{E}}{n-s}$ | |
总和 | $S_T$ | $n-1$ |
6.单因素方差分析的实现
- 例题
工程师测量了四种不同类型外壳的彩色显像管的传导率,得传导率的观察值如下表:
显像管型号 | 传导率值1 | 传导率值2 | 传导率值3 | 传导率值4 |
---|---|---|---|---|
$A_1$(类型1) | 143 | 141 | 150 | 146 |
$A_2$(类型2) | 152 | 144 | 137 | 143 |
$A_3$(类型3) | 134 | 136 | 133 | 129 |
$A_4$(类型4) | 129 | 128 | 134 | 129 |
问: 外壳类型对传导率是否由显著影响? ($\alpha=0.05$)
- 作出假设
设水平$A_i$下,$X_{i} \sim N\left(a_{i}, \sigma^{2}\right)$。
假设$H_{0}: a_{1}=a_{2}=a_{3}=a_{4}$;$H_{1}: a_{1},a_{2},a_{3},a_{4}$不全相等。 - Excel求解
录入数据至Excel表格:
点击“数据”-“数据分析”-“单因素方差分析”(需要加载数据分析库)
选中数据区域。由于该表中每行为一种类型,故选择行分组方式,依题意,$\alpha(A)$取0.05,单击“确定”:
可在新工作表中看见方差分析表:
- matlab求解
%solve20200308.m
function solve20200308()
x = [143, 152, 134, 129;
141, 144, 136, 128;
150, 137, 133, 134;
146, 143, 129, 129];
p = anova1(x)
end
%控制台键入
solve20200308()
方差分析表:
- python求解
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
df = pd.read_csv('D:\Data\ex_5.csv')
print(df)
model = ols('conductivity~type', data = df).fit()
table = anova_lm(model)
print(table)
运行结果:
- 结论
由于$F>3.49$,拒绝$H_0$,认为外壳类型对传导率影响显著。