1、主要术语
1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2.描述统计:研究数据收集、处理和描述的统计学分支。
3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4.分类数据:只能归于某一类别的非数字型数据。
5.顺序数据:只能归于某一有序类别的非数字型数据。
6.数值型数据:按数字尺度测量的观察值。
7.观测数据:通过调查或观测而收集到的数据。
8.实验数据:在实验中控制实验对象而收集到的数据。
9.截面数据:在相同或近似相同的时间点上收集的数据。
10.时间序列数据:在不同时间上收集到的数据。
11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推
断总体特征的数据收集方法。
12.普查:为特定目的而专门组织的全面调查。
13.总体:包含所研究的全部个体(数据)的集合。
14.样本:从总体中抽取的一部分元素的集合。
15.样本容量:也称样本量,是构成样本的元素数目。
16.参数:用来描述总体特征的概括性数字度量。
17.统计量:用来描述样本特征的概括性数字度量。
18.变量:说明现象某种特征的概念。
19.分类变量:说明事物类别的一个名称。
20.顺序变量:说明事物有序类别的一个名称。
21.数值型变量:说明事物数字特征的一个名称。
22.离散型变量:只能取可数值的变量。
23.连续型变量:可以在一个或多个区间中取任何值的变量。
24.简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个元素作为
样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。
25.简单随机样本:从含有N个元素的总体中,抽取n个元素作为样本,使得总体中每一
个样本量为n的样本都有相同的机会(概率)被抽中。
26.重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直
至抽取n个元素为止。
27.不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二个元素,直
到抽取n个元素为止。
28.分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后
从各个层中抽取一定数量的元素组成一个样本。
29.系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序排列,并按
某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。
30.整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,随后再对
抽中的各个群中所包含的所有元素进行观察。
2、主要术语
31.频数:落在某一特定类别(或组)中的数据个数。
32.频数分布:数据在各类别(或组)中的分配。
33.比例:一个样本(或总体)中各个部分的数据与全部数据之比。
34.比率:样本(或总体)中各不同类别数值之间的比值。
35.累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
36.数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。
37.组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
38.组距:一个组的上限与下限的差。
39.组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。
40.直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。
41.茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。
42.箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、
反应原始数据分布的图形。
3、主要术语和公式
(一)主要术语
1.众数:一组数据中出现频数最多的变量值,用Mo表示。
2.中位数:一组数据排序后处于中间位置上的变量值,用Me表示。
3.四分位数:一组数据排序后处于25%和75%位置上的值。
4.平均数:一组数据相加后除以数据的个数而得到的结果。
5.几何平均数:n个变量值乘积的n次方根,用Gm表示。
6.异众比率:非众数组的频数占总频数的比率。
7.四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。
8.
9.
10.
11.
13.
14.
15.
16.极差:也称全距,一组数据的最大值与最小值之差。平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。 方差:各变量值与其平均数离差平方的平均数。 标准差:方差的平方根。 离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。 偏态:数据分布的不对称性。 偏态系数:对数据分布不对称性的度量值。 峰态:数据分布的平峰或尖峰程度。 12.标准分数:变量值与其平均数的离差除以标准差后的值。
17.峰态系数:对数据分布峰态的度量值。
4、主要术语和公式
(一)主要术语
43.抽样分布:在重复选取样本量为n的样本时,由样本统计量的所有可能取值形成的相对
频数分布。
44.样本均值的抽样分布:在重复选取样本量为n的样本时,由样本均值的所有可能取值形
成的相对频数分布。
45.样本比例抽样分布:在重复选取样本量为n的样本时,由样本比例的所有可能取值形成
的相对频数分布。
46.标准误差:也称为标准误,它是样本统计量的抽样分布的标准差。
47.估计标准误差:若计算标准误时所涉及的总体参数未知,可用样本统计量代替计算的标
准误。
48.估计量:用来估计总体参数的统计量的名称,用符号ˆ表示。
49.估计值:用来估计总体参数时计算出来的估计量的具体数值。
50.点估计:用样本统计量ˆ的某个取值直接作为总体参数的估计值。
51.区间估计:在点估计的基础上,给出总体参数估计的一个范围。
52.置信区间:由样本统计量所构造的总体参数的估计区间。
53.置信水平:也称为置信系数,它是将构造置信区间的步骤重复多次后,置信区间中包含
总体参数真值的次数所占的比率。
5、主要术语和公式
(一)主要术语
18.假设:对总体参数的具体数值所做的陈述。
19.假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。
20.备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用H1或Ha表示。
21.原假设:也称零假设,是研究者想收集证据予以反对的假设,用H0表示。
22.单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“
的假设检验。
23.双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“”的假设
检验。
24.第Ⅰ类错误:当原假设为正确时拒绝原假设,犯第Ⅰ类错误的概率记为。
25.第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为。
26.显著性水平:假设检验中发生第Ⅰ类错误的概率,记为。
27.检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某
个样本统计量。
28.拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。
29.临界值:根据给定的显著性水平确定的拒绝域的边界值。
30.P值:也称观察到的显著性水平,如果原假设H0是正确的,那么所得的样本结果出现
实际观测结果那么极端的概率。
6、主要术语和公式
(一)主要术语
31.方差分析( ANOVA):检验多个总体均值是否相等的统计方法。
32.
33.
34.
35.因素:也称因子,是方差分析中所要检验的对象。 水平:也称处理,是因素的不同表现。 组内误差:来自水平内部的数据误差。 组间误差:来自不同水平之间的数据误差。
36.总平方和:反映全部数据误差大小的平方和,记为SST。
37.组内平方和:反映组内误差大小的平方和,记为SSE。
38.组间平方和:反映组间误差大小的平方和,记为SSA。
39.单因素方差分析:只涉及一个分类型自变量的方差分析。
40.组内方差:组内平方和除以相应的自由度。
41.组间方差:组间平方和除以相应的自由度。
7、主要术语和公式
(一)主要术语
42.相关关系:变量之间存在的不确定的数量关系。
43.相关系数:也称Pearson相关系数,是根据样本数据计算的度量两个变量之间线性关系
强度的统计量。
44.因变量:被预测或被解释的变量,用y表示。
45.自变量:用来预测或用来解释因变量的一个或多个变量,用x表示。
46.回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
47.回归方程:描述因变量y的期望值如何依赖于自变量x的方程。
48.估计的回归方程:根据样本数据求出的回归方程的估计。
ˆi之间的离差平方和达49.最小二乘法:也称最小平方法,使因变量的观察值yi与估计值y
ˆ和ˆ的方法。 到最小来求得10
50.判定系数:回归平方和占总平方和的比例,记为R2。
51.估计量的标准误差:均方残差(MSE)的平方根,用se来表示。
52.y的平均值的点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的平均
值的一个估计值E(y0)。
53.y的个别值的估计值:利用估计的回归方程,对于x的一个特定值x0,求出y的一个
ˆ0。 个别值的估计值y
54.y的平均值的置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计。 55.y的个别值的预测区间估计:对x的一个给定值x0,求出y的一个个别值的区间估计。
,xk和误差项的方56.多元线性回归模型:描述因变量y如何依赖于自变量x1,x2,
程。
57.多元线性回归方程:描述y的期望值如何依赖于x1,x2,,xk的方程。
58.估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。
59.多重判定系数:在多元回归中,回归平方和占总平方和的比例。
60.修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为
Ra。2
8、主要术语和公式
(一)主要术语
61.时间序列:同一现象在不同时间上的相继观察值排列而成的序列。
62.平稳序列:基本上不存在趋势的序列。
63.非平稳序列:包含趋势性、季节性或周期性的序列。
64.趋势:也称长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的
变动。
65.季节性:也称季节变动,是指时间序列在一年内重复出现的周期性波动。
66.周期性:也称循环波动,是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡
式变动。
67.随机性:也称不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波
动。
68.增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,
用%表示。
69.平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)
的几何平均数减1后的结果。
70.增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。
71.简单平均法预测:根据过去已有的t期观察值通过简单平均来预测下一期的数值。
72.移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。
73.指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第t+1
期的预测值等于t期的实际观察值与第t期指数预测值的加权平均值。
9、主要术语和公式
(一)主要术语
74.指数:测定多个项目在不同场合下综合变动的相对数。
75.加权综合指数:通过加权来测定一组项目的综合变动状况的指数。
76.加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。 77.
78.
79.
80.价值指数:由两个不同时期的价值总量对比形成的指数。 指数体系:由价值指数及其若干个因素指数构成的数量关系式。 零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。 居民消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格
的变动趋势和程度的一种相对数。
81.生产价格指数:测量在初级市场上所售货物(即在非零售市场上首次购买某种商品时)
价格变动的一种价格指数。
82.股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。