日期:2022-02-14
这是用样本均值估计总体均值,是优秀的数学教案文章,供老师家长们参考学习。
1) 只要谈估计,那就是告诉我们一种方法,利用这个方法可以管中规豹似的获取某个统计量(这个统计量很可能限于人力物力无法真正获取,而我们又很想知道)。
2) 只要是谈估计,那就告诉我们这个估计量本身也是个随机变量,它自身也存在统计特性;
首先,要严格区分均值和期望两个概念!
期望公式:
E(X)=sum_{i=1}^{n}x_{i}p(i)
均值公式:
bar{X}=frac{1}{n}sum_{i=1}^{n}x_{i}
显然,它们是不一样的,一个是和元素出现的概率相关,另一个是小学级别的简单粗暴的求平均。
接下来,脑海中,我们可以假设有这么一个集合{y_{1},y_{2},...,y_{N}},大括号里就是这个集合的所有元素。
总体均值就是求的整个集合的均值(假设集合大小是N):
bar{Y}=frac{1}{N}sum_{i=1}^{N}y_{i}
显然bar{Y}值在集合(也就是我们要研究的对象)和集合大小固定的情况下是一个固定的、并天然就存在的定数(它不是随机变量,好比是一个常数),尽管我们可能并不知道确切的值是多少!因为过我们可能由于费用问题无法将所有个体都进行统计然后求平均。因此,引入抽样的概念。样本均值bar{y}就是从整个集合中抽取出n个,然后对其就平均:
bar{y}=frac{1}{n}sum_{i=1}^{N}y_{i} delta {i},
其中delta {i}为抽样函数:
delta {i}= begin{cases} 1 & text{ if } y_{i} is selected\ 0 & text{ if } y_{i} is not selected end{cases},并且
sum_{i=1}^{N}delta _{i}=n
这里额外进行解释:
1)显然,根据组合原理,从N个元素中抽取n个元素的种类一共是C_{N}^{n}中,也就是bar{y}的值有C_{N}^{n}种可能。
2)显然bar{y}值会随着我们实际抽取到的n个样本的不同而不同,因此bar{y}本身可以被视为随机变量,既然bar{y}是随机变量,那么它就存在统计量,也就是说讨论bar{y}的期望和方差是有意义的。
3)这里给出的公式,可能和有些书上的写的不太一样,有些书直接写为bar{y}=frac{1}{n}sum_{i=1}^{n}y_{i},严格意义说写的不够确切,符号y_{i}在总体均值和样本均值中都用到了,容易混乱,致使公式不清、概念不清。本文的样本均值公式体现了抽样概念,更加严格。
在讨论样本均值的期望之前,我们先讨论样本和sum_{i=1}^{N}y_{i} delta {i}(其中,sum_{i=1}^{N}delta _{i}=n)的期望,我们令H=sum_{i=1}^{N}y_{i} delta {i},显然H也是个随机变量,也就是讨论E(H)的值。
前面已经讨论过,从N个元素中抽取n个元素的形成的样本种类是C_{N}^{n}种,因为我们这里讨论的是简单随机抽样,因此每种不同h_{k}(即,H取值h_{k})的概率就是frac{1}{C_{N}^n}=frac{n!(N-n)!}{N!}。
E(H)=frac{1}{C_{N}^{n}}sum_{k=1}^{C_{N}^n}h_{k}
为了确定E(H)求和公式中某个特定元素y_{i}(即,i取特定值,y_{i}的系数)的系数:
所有包含y_{i}的抽样样本集合,肯定包含n-1个其他元素,那么这n-1个其他元素的组合数目就是E(H)求和公式中某个特定元素y_{i}的系数。这个剩余的n-1个元素可以来自剩余的N-1个元素,因此求和公式中存在y_{i}的系(个)数是C_{N-1}^{n-1}。
因此有:
E(H)=frac{n!(N-n)!}{N!}frac{(N-1)!}{(n-1)!(N-n)!}sum_{i=1}^{N}y_{i}
=frac{n}{N}sum_{i=1}^{N}y_{i}
因此,我们可以得出这么一个结论:
定理 1 样本和的期望是总体总值的frac{n}{N}.
那么,样本均值的期望就很好求了:
E(bar{y})=E(frac{H}{n})=frac{1}{N}sum_{i=1}^{N}y_{i}=bar{Y}
由此,得出新的结论:
定理 2 样本均值bar{y}是总体均值bar{Y}的无偏估计量。
讲一些方便理解的废话,既然研究了样本均值的期望,那么上面的两个定理的结论应当是限制在简单随机抽样的条件下得出来的。
定理1的结论实际上在抽样理论中更容易被忽视,这个定理需要扩大脑思路,假如要求sum_{i=1}^{N}(y_{i}-6)^3delta _{i}的期望:
那么我们要将(y_{i}-6)^3整体看做样本,而不是把y_{i}看做样本,H=sum_{i=1}^{N}(y_{i}-6)^3delta _{i}这个求和本身也是一个变量,它的期望可以根据定理1得出是样本总值sum_{i=1}^{N}(y_{i}-6)^3的frac{n}{N}:
E(H)=frac{n}{N}sum_{i=1}^{N}(y_{i}-6)^3
定理2 则告诉我们当总体均值比较难以获取的时候,要估计总体均值可以拿样本均值来替代,这个样本均值在估计方法上还是无偏的。
再回到问题本身,我们一般是无法知道整个集合的总值和均值的,定理2就是告诉我们存在无偏的估计方法,求总体均值,可以拿样本均值来估计总体均值,同样的,如果要估计总体值,只要将样本均值乘以N就可以的。
我们可以得到下面的推论(很容易证明)
推论 hat{Y}=Nbar{y}是总体总值Y的无偏估计。
总体均值的区间估计
通常使用样本的均值对总体均值进行估计。样本均值的分布规律阐述如下:
① 当为大样本时(n>=30),样本均值bar x服从期望值为总体均值μ,方差为frac{sigma^2}{n}的正态分布
② 在小样本,总体服从正态分布的前提下:若总体的sigma已知,则样本均值仍然服从正态分布,标准化后服从标准正态分布;若总体的sigma未知,则样本均值经过标准化后服从自由度为n-1的t分布。
基于以上关于样本均值统计量的分布,其各种具体的区间估计描述如下。
1. 大样本时
总体均值mu在1-alpha的置信水平下的置信区间为:bar x pm z_{alpha/2}frac{sigma}{sqrt n}
其中bar x为样本的均值,无需赘述
z_{alpha/2}为标准正态分布的α/2分位点,相当于给样本均值的标准差提供一个系数,实际使用时一般是查分为表
当总体的sigma未知时,使用样本的标准差s代替,此时区间为:bar x pm z_{alpha/2}frac{s}{sqrt n}
2. 小样本时
2.1 总体的sigma已知
总体均值mu在1-alpha的置信水平下的置信区间为:bar x pm z_{alpha/2}frac{sigma}{sqrt n}。跟大样本时一毛一样
2.2 总体的sigma未知
均值经标准化后服从自由度为n-1的t分布,即t = frac{bar x - mu}{s/sqrt n} ~t(n-1),所以置信水平为1-α的置信区间为bar x pm t_{alpha/2}frac{s}{sqrt n}。可以看到跟大样本且sigma未知的情况形式很类似,只是从正态分布变成了t分布。
t分布也有分位数表可查。
第二十四课 总体均值的估计
对于样本来自正态总体和方差齐性的基本假设,根据观察结果(结果变量或反映变量)的水平数,一元时基本的分析方法有 检验、 检验,多元时用多元检验( 或Wilks’∧检验)。
一、 计量资料的统计指标
测定每个观察单位某项指标值的大小,所得的资料称为计量资料(measurement data)又称测量资料,这类资料一般具有计量单位。计量资料的统计指标分成两大类:
l 表达计量资料集中位置的指标,用以描述观察值的平均水平,如算术均值、几何均值、调和均值、中位数、众数、百分位数。
l 表达计量资料变异的指标,又称离散指标,用以描述观察值间参差不齐的程度,即离散度或称变异度,如全距、标准差、方差、标准误差、变异系数、四分位数间距等。
设原始观察值为 ,第 组频数记为 ,组中值记为 。在不发生混淆的场合,有时将下标省略,如 ,有时简记为 。
1. 集中位置的指标
(1) 算术平均值
算术平均值(arithmetic mean)简称为均值(mean),总体均值用希腊字母 表示,样本均值用 表示。算术平均值的具体计算方法分为简单算术平均和加权算术平均两种。简单算术平均为:
(24.1)
加权算术平均为:
(24.2)
算术平均值有两个重要的数学性质:①各个变量值与平均值离差之和等于零,②各个变量值与平均值的离差平方之和为最小值。
(2) 几何均值
几何均值(geometric mean)用 表示,为观察值的总乘积开 次方根。根据资料是否分组,也分为简单几何平均和加权几何平均两种方法。简单几何平均为:
(24.3)
为避免溢出及方便计算,常用对数计算,也称对数平均值,两边取对数有:
(24.4)
(3) 加权几何平均
(24.5)
几何均值适用于表达呈对数正态分布资料的平均水平。也常用于速度、比率等变量的平均。
(4) 调和均值
调和均值(harmonic mean )用 表示,为观察值的倒数求平均,然后再取倒数而得到的平均值,也称倒数平均值。调和平均值有简单调和平均值与加权调和平均值两种。简单调和平均值为:
(24.5)
加权调和平均值为:
(24.6)
调和均值适用于表达呈极严重的正偏态分布资料的平均水平。
(5) 中位数
中位数(median)用 表示,它将总体或样本的全部观察值分成两部分,每部分各有50%的观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。
中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性。
(6) 众数
频数最大的变量值称为众数(mode),列为频数表的资料,频数最大的组的组中值为众数。适用于粗略地表示呈单峰分布资料的集中趋势。当数据个数较少时,众数就是出现次数最多的个数据。
(7) 百分位数
百分位数(percentile)以 表示,它将总体或样本的全部观察值分成两个部分,其中有 的观察值小于 ,(100- )%个观察值大于 。如百分之25分位数或称第25百分位数 ,表示有25%个观察值小于 ;75%个观察值大于 。中位数 就是百分之50分位数 。
2. 离散程度的指标
(1) 全距
全距(range)也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。
(2) 标准差与方差
标准差(standard deviation)与方差(variance)是一种常用的离散指标,结合均值能给出正态分布的特征。标准差的平方为方差,标准差(或方差)越大,表示观察值的分布越分散;反之,标准差(或方差)越小,表示观察值的分布越集中。如果标准差为0,表示这组观察值都为一个相同的值。实际应用时常以均值±标准差的写法综合观察值的集中和离散特征。
总体的标准差和方差分别以 和 表示,样本的标准差和方差分别以 和 表示,当用样本标准差 作为 的估计值时,有:
(24.7)
其中, 为样本含量, 称为离均差平方和,也可以如下计算:
(24.8)
如用频数表资料,有:
(24.8)
(3) 变异系数
变异系数(coefficient of variantion)是一种离散指标,简记为 ,它是标准差与均值之比,用百分数表示:
(24.9)
由于 无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。
(4) 标准误差
标准误差(standard error)是统计量的标准差。因为统计量是样本观察值的函数,一旦样本改变,统计量的取值也会随之改变。为了避免与样本观察值的标准差相混淆,在统计学上,把反映一群性质相同的统计量离散程度大小的量称为标准误差。从理论上来说,只要给出了一个统计量,就有其相应的标准误差。在参数估计中,用样本的统计量去估计参数时,统计量的标准误差越小,表示抽样误差小,统计量较稳定,与参数较接近。
用 、 、 、 分别表示统计量 (样本均值)、 (样本率)、 (样本相关系数)、 (变异系数)的标准误差,它们的计算公式分别为:
(24.10)
(24.11)
(24.12)
(24.13)
(5) 四分位数间距
四分位数间距(interquartile range)是一种离散指标,它是第3个四分位数 与第1个四分位数 之差,即 。
(6) 偏度系数
偏度系数(skewness)返回分布的偏斜度,简记为SKEW。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称部分的分布更趋向正值。负偏斜度表示不对称部分的分布更趋向负值。偏斜度的计算公式为样本观察值 消除量纲影响的三阶中心矩,然后按样本数 进行无偏修正,定义如下:
(24.14)
式中, 为样本的标准差。
(7) 峰度系数
峰度系数(kurtosis)返回数据集的峰值,简记为KURT。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。峰值的计算为样本观察值 消除量纲影响的四阶中心矩减去3(因为标准正态分布的四阶原点矩为3),然后按样本数 进行无偏修正,公式如下:
(24.15)
式中, 为样本的标准差。
二、 正态性检验
用于判断总体分布是否为正态分布的检验称为正态性检验。检验资料是否服从正态分布的主要方法有:Wilk-Shapiro(威尔克斯-夏皮罗)的 检验和Dagustino的 检验。 原假设为总体 服从正态分布。
1. 小样本的 检验
在观察值为小样本时,Wilk与Shapiro提出用如下的 统计量:
(24.16)
它可以看成是数对( )相关系数的平方,所以 的取值在0和1之间。系数 按标准正态分布构造,均值为0,标准差为1,且是对称值。不同的样本数 有不同的系列值。可以证明,在 原假设为真时, 的取值应接近于1。
2. 大样本的 检验
在观察值为大样本时,Dagustino建议用以下的 统计量:
(24.17)
在 原假设为真时, 统计量的标准化后渐近分布为标准正态分布。
三、 总体均值的估计和 检验
1. 总体均值的估计
总体均值用 表示,总体均值的估计包括点估计和区间估计。点估计即用样本均值来估计总体均值: 。点估计虽然简单,但未考虑抽样误差。区间估计即按一定的概率估计总体均值在哪个范围内,这个范围称为置信区间,这个概率称为可信度或置信度,用 表示,常取95%( )或99%( ),按此确定的可信区间分别称之为95%或99%可信区间。总体均值的区间估计因研究的问题和已知条件不同而用不同的方法。主要分成三种情况:
(1) 正态总体方差已知
如果总体服从正态分布 且总体的方差 已知,于是样本的均值分布为:
(24.18)
对 变量作标准化处理,得到统计量:
(24.19)
称为 检验。则总体均值的 可信区间为:
(24.20)
是抽样误差, 为一定倍数的抽样误差,称为极限误差,或误差范围。其意义是在给定的置信度的条件下对总体参数进行区间估计所允许的最大误差。
(2) 正态总体方差未知
实际上,总体均值 未知而总体方差 已知的情况是不常有的,通常的情况是 和 都未知。设总体服从正态分布 且总体的方差 未知。在这种情况下,可用样本标准差 来代替总体标准差 ,这样就得到了统计量:
(24.21)
称为 检验。则总体均值的 可信区间为:
(24.22)
2. 非正态总体
在大多数实际问题中,不能假定总体服从或近似服从正态分布。但是,根据中心极限定理,只要样本容量 足够大,样本均值 的抽样分布就近似为正态分布。若方差 已知(通常根据历史资料或经验得到),则可用公式(24.20)来计算总体均值的 可信区间。若 未知,则用样本标准差 来代替总体标准差 ,总体均值的 可信区间为:
(24.23)
3. 配对 检验
配对 检验(paried test)用于配对试验设计(paired design),它是按一些非试验因素条件将受试对象配对对子,给予每对中的个体以不同的处理。配对的条件一般为年龄、性别、体重等等。其优点是在同一对的试验对象间取得均衡,从而提高试验效率。有些试验中就同一受试对象作比较称为自身对照,例如,观察某指标不同时间的变化,或试验前后的变化,也属于配对试验。
想要比较配对试验中两种处理( 和 )的效果,或者自身对照中比较试验前后某指标( 和 )的变化。可以先求出成对数据之差 。在这种试验设计的情况下,可以认为均值 总体服从正态分布 且总体的方差 未知。用样本 标准差 代替总体标准差 ,然后使用 检验,检验 是否来自均值为0( )的总体。因此,配对 检验公式为:
(24.21)
4. 成组 检验
当按完全随机化设计的两个样本均值比较时,可用成组 检验(grouped test),比较的目的是检验它们各种所代表的总体是否具有相同的均值,其假设检验 , 。
设总体 , ,如果 和 都已知,则
(24.22)
经标准化变换:
(24.23)
如果 和 都未知,但方差相等 ,其中 未知需要估计。由于 和 都是 的无偏估计,集中了各自样本中有关 的信息,故可以使用合并方差估计法(Pooled Variance Estimate),有:
(24.24)
然后,用样本合并标准差 来代替 中的总体标准差 ,这样就得到了统计量:
(24.25)
如果在 和 都未知的一般场合,即 。当 和 分别使用各自方差估计法(Separate Variance Estimate),即分别使用其相合估计 和 代替后,有:
(24.26)
这时, 就不再服从 分布了,其形式很像 统计量。
近似 统计量概率水平的Chchran和Cox近似是如下统计量的 值:
(24.27)
用上面修正后的 统计量作出合适的统计推断。一般地,Chchran和Cox检验趋于保守。
另外,Satterthwaite(1864)就设法用 统计量去拟合,结果发现若取:
(24.28)
但 的计算结果为非整数时取最接近的整数,则 近似服从自由度为 的 分布。
当样本数 和 较大时,式中的 值也将随之而增大,我们知道,当 时,自由度为 的 分布就很接近于正态分布 ,故在 和 较大时,我们将认为 统计量服从 分布。
5. 两组方差的齐性检验
两个均值比较的 检验,其前提是两个样本所代表的正态总体具有相同的方差,因此在作 检验前,应该作两个方差是否齐性(一致)的检验,称为方差的齐性检验(test for homogeneity of variance)。
设从正态总体 中获得的 个样本均值为 ,样本无偏方差为 ,从另一正态总体 中获得的 个样本均值为 ,样本无偏方差为 ,且两个样本独立。假定 和 未知。现在要检验的原假设是 ,备择假设是 。
由于:
(24.29)
(24.30)
构造统计量:
(24.31)
如果原假设是 为真的情况下:
(24.32)
对于给定显著水平 ,检验统计量 的拒绝原假设 的区域为 或 。实际计算 值时常用:较大的样本方差/较小的样本方差,所以,拒绝区域只要看 。
不拒绝 时,认为两组方差齐性(homoscedasticity),这时 检验的前提条件满足,所以计算的 值及统计推断可靠;拒绝 时,认为两个总体方差不齐(heteroscedasticity),这时不能直接作 检验,应该采取适当的措施。如检查试验的本身,寻找原因给出可能的解释;或作变量置换;或用非参数统计分析方法;或用 检验。
当涉及到 个正态总体的方差相齐性检验时,分成两种情况:样本容量相等和样本容量不等。样本容量相等,假设为 ,常用的有两种检验方法:最大 检验(Hartley(哈特利)检验)和最大方差检验(Cochran(卡克伦)检验)。
最大 检验用的统计量为:
(24.32)
最大方差检验用的统计量为
(24.33)
在样本容量不相等的情况下,可以采用Bartlett检验。它是从广义似然比导出。
四、 简单的描述性统计proc means过程
SAS系统的BASE软件提供了一些计算基础统计量的过程,如means过程、summary过程、univariate过程、corr过程、freq过程和tabulate过程。这些过程可完成单变量或多变量的描述统计量计算。SAS的means过程用来对数据集中的数值变量计算简单的描述统计量。
1. Means过程的语句格式
Means过程的主要控制语句如下:
proc means 输入数据集名 <选项列表> ;
var 变量列表 ;
class 变量列表 ;
by 变量列表 ;
freq 变量 ;
weight 变量 ;
id 变量列表 ;
output
run ;
2. proc means 语句中的<选项列表>
l vardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。
(1) 例 vardef=df 则d=n-1 缺省值
(2) vardef=n 则d=n
(3) vardef=weight/wgt 则d=
(4) vardef=wdf 则d= -1
l noprint——不输出任何描述统计量,仅为了创建新的数据集。
l maxdec=数字——输出结果中小数部分的最大位数(0至8),缺省值为2。
l fw=数字——规定打印时每个统计量的域宽,缺省值为2。
l descending——规定输出数据集按_type_值下降的次序(缺省时为上升)。
l order=freq/data/internal/formatted/——规定输出时class变量按所指定方式排序。
l alpha=数字——设置计算置信区间的置信水平 , 值在0与1之间。
l 统计量——可使用的关键字见表24.1所示。
表24.1 proc means语句中可用的统计量关键字
统计量名称
含义
统计量名称
含义
n
未丢失的观测个数
mode
众数,出现频数最高的数
nmiss
丢失的观测个数
sumwgt
权数和
mean
算术平均
max
最大值
stderr
均值的标准误差
min
最小值
sum
加权和
range
极差,max—min
std
标准偏差
median
中间值
var
方差
t
总体均值等于0的t统计量
cv
变异系数的百分数
prt
t分布的双尾p值
uss
加权平方和
clm
置信度上限和下限
css
关于均值偏差的加权平方和
lclm
置信度下限
skewness
对称性的度量——偏度
uclm
置信度上限
kurtosis
对尾部陡平的度量——峰度
3. output语句中的选项
l
l 统计量关键字=变量名列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。
means过程对output语句的次数没有限制,可以使用几个output语句来创建内容不同的多个数据集。
4. 其他语句
l var语句——规定要求计算简单描述性统计量的数值变量的次序。
l by语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。
l class语句——与by语句一样,可用class变量定义观测组,分别计算各组观测的描述统计量。输出格式与by不同且事先不需要按class变量排序。
l freq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。
l weight语句——规定一个weight变量,它的值表示相应观测的权数。
l id语句——在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。
Copyright 2010-2019 Qinzibuy.com 【亲亲园丁】 版权所有 备案编号:粤ICP备14102101号