数理统计以概率论为理论基础,收集、整理试验或观察得到的数据,将获得的数据进行分析和推理,从而对研究对象的客观规律做出合理的估计和判断。
1)常用统计量
统计量 | 描述 | 总结 | |
1 | 均值 | 样本观察值的平均值 | |
2 | 方差 | 等于构成样本的随机变量对离散中心之方差的平方和 | 反映数据与均值之间的偏离程度。方差越大,数据越分散;方差越小,数据越集中 |
3 | 标准差 | 等于样本方差开平方。 | 更加直观,常用于描述数据的波动性 |
4 | k阶原点矩 | 先对每个数据取k次方后求平均 | 反映数据平方的平均水平 |
5 | k阶中心矩 | 每个数据减去样本均值后取k 次方,再求平均 | |
6 | 次序统计量 | 原始数据从小到大排序 | 计算样本中位数、四分位数等,对异常值不敏感 |
统计推断基本问题分为两类:① 参数估计问题;② 假设检验问题。
2)参数估计
最常估计的参数:总体数学期望和方差。
参数估计分为点估计和区间估计(管中窥豹)。
形式 | 描述 | 备注 | |
1 | 点估计(定值估计) | 估计值是个数,实数轴上某点。 优点:简单明确,常被采用。 和构造估计量有直接关系 缺点:几乎是错的(抽样存在随机误差) | ①矩(特征如均值、方差)估计法:样本代表总体特征。简单、直观、快速;数据少分布偏时可能不准 ② 极大似然(可能性)估计法:一个随机试验有若干个可能结果,哪个结果出现,则认为试验条件对该结果出现有利,该结果出现概率很大。理论性质好,在大样本下精确、有效。有时计算复杂 |
3 | 区间估计 | 用数轴上的一个数据区间(a,b)表示总体参数可能范围。 从点估计值和抽样标准出发,按给定概率值(置信度或置信水平)建立包含待估计参数区间(置信区间) | ① 置信区间:是在某一置信水平下,样本统计值与总体参数值间的误差范围。置信区间越大,置信水平就越高。 ② 置信下限(a)和置信上限(b):划定置信区间的两个数值 |
3)假设检验
● 假设检验(显著性检验):根据原资料做出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。主要强调根据样本信息对总体分布是否具有指定特征进行合理判断,是接受还是拒绝。
(1)统计假设(假设):关于总体未知分布所做的假设(总称=参数+非参数)。通常是总体某个特征,如“这个硬币是均匀的(正面概率0.5)”、“A药和B药效果一样”、“平均成绩没有提高”等。
(2)参数假设(常用):针对总体某个具体数值或参数做的假设(已知分布,假设参数)。如班级数学成绩平均分为75、这个骰子是均匀的(每个面概率是1/6)。
(3)非参数假设:针对更一般的特征做假设(不指定分布或参数)。不依赖于总体分布特定模型,适用范围更广,可能不精确。如男女生成绩分布相同、变量A与变量B是独立的。
● 常用假设检验方法:U检验法(基于正态分布)、t检验法(U检验改良版)、x2检验法(检验频数)、F检验法(检验方差)等
【注意】用样本指标估计总体指标,其结论可靠性不确定,需要进一步检验和证实。检验目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。
2)回归分析(回到平均值)
● 回归分析:处理两个及两个以上变量之间相关关系。
(1)变量关系:① 变量之间有确定性关系(函数关系);②变量之间有一定关系,由于错综复杂的原因或者不可避免的误差等因素,无法用定性模型描述。
(2)变量分类
① 因变量(随机变量):想解释或预测的“结果”(如:房价、销售额、考试成绩、寿命)
② 自变量(随机变量或一般变量):怀疑会影响结果的“原因”或“影响因素”(如:面积、广告投入、学习时间、吸烟习惯)
(3)回归分类
分类标准 | 分类 | |
1 | 按涉及自变量多少 | 一元回归分析和多元(多个自变量)回归分析 |
2 | 按自变量和因变量之间的关系类型 | 线性(直线)回归分析和非线性(曲线)回归分析 |
3 | 混合方式 | 一元线性回归分析:只包括一个自变量和一个因变量,且二者关系可用一条直线近似表示; 多元线性回归分析:包括两个或两个以上的自变量,且因变量和自变量之间是线性关系 |
(4)主要内容
① 从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中未知参数。估计参数的常用方法是最小二乘(平方)法。
② 对这些关系式的可信程度进行检验。
③ 在许多自变量共同影响着一个因变量的关系中,将影响显著的自变量选入模型,剔除影响不显著的。
通常用逐步回归(常用,有进有出)、向前回归(只进不出)和向后回归(只出不进)等方法。
④ 利用所求关系式对某一生产过程进行预测或控制。
5)方差分析
(1)目的:通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。(几组数据之间的差异,到底是“真的不同”,还是只是“随机波动造成的巧合”)
(2)基本思想:通过分析不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。经过方差分析,若拒绝了假设检验,只能说明多个样本总体均值不相等或不全相等。若要得到各组样本均值之间更详细的信息,应在方差分析基础上进行多个样本均值的两两比较。
(3)用途:主要用于均值差别的假设检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性检验。
(4)使用条件
① 可比性。如果数据中各组数本身不具可比性,则不适用方差分析。
② 正态性。即偏态分布数据不适用方差分析。对偏态分布的数据应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变换方法,将其转换为正态或接近正态后再进行方差分析。
③ 方差齐性(等方差性、同方差性或方差一致性):各方差间在给定显著性水平没有显著性差异。如果数据中各组数间方差不齐,则不适用方差分析。
(5)分析方法
① 单因素方差分析(单因素试验设计)。用于完全随机设计(不考虑个体差异影响)的多个样本均值间比较,其统计推断是推断各样本所代表的各总体均值是否相等。仅涉及一个处理因素,但可以有两个或多个水平。在试验中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。
② 双因素方差分析。对影响因素进行检验,究竟是一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不显著。两种类型:无交互作用(独立无相互关系)的双因素方差分析;有交互作用(会产生出一种新效应)的双因素方差分析。
6)正交试验法
● 正交试验法:是研究与处理多因素试验的一种有效方法,解决了方差分析中需要大量多因素试验的问题。利用正交表对试验进行整体设计、综合比较、统计分析,实现通过少数的试验次数找到较好的生产条件,以达到最高生产工艺效果。
思想:用一套精心设计的、均衡分布的少量实验组合,来高效分析多个因素对结果的影响,从而找到最佳参数组合。
【举例】想知道“穿什么衣服搭配最帅”,不用把所有上衣、裤子、鞋子的组合都试一遍,只需挑十几套有代表性的搭配试穿、拍照、评比,找朋友评分,得到高分组合就能知道。
● 正交性:每个因素的每个水平与另一个因素的各水平各碰一次
● 优点:正交表能在因素变化范围内均衡抽样,使每次试验都具有较强代表性。由于正交表具备“均衡分散,整齐可比”的特点,保证了全面试验的某些要求,往往能够较好或更好地达到试验目的。