数据处理知识点总结

发布时间：2020-03-02 07:27:28 来源：范文大全收藏本文下载本文手机版

试验设计与数据处理是以概率论、数理统计及线性代数为理论基础，研究如何有效的安排试验、科学的分析和处理试验结果的一门科学。

试验考察指标依据试验目的而选定的衡量或考察试验效果的特征值.

试验实际考虑采用的（某一）因素变化的状态或条件的种类数称为因素水平，简称水平误差控制的三原则，费歇三原则

1）重复原则2）随机化原则3）局部控制原则：

试验设计的步骤

1）问题的识别和问题的正确提出，2）因素和水平的合理选取；

3）响应变量的选择4）试验设计方法的比较、研究和选择；

5）进行试验操作采集试验数据；6）用统计学方法分析试验数据；

7）写出有关试验结果的结论或工作建议.

科学合理的试验方案应满足以下三点:

（1）试验次数尽可能少；

（2）便于试验数据的分析处理；

（3）试验结果可信度高

按试验中处理因子的多少试验设计方法一般可以分为：

（1）单因素试验（2）多因素试验

实验考察指标可分为：定量指标和定性指标

定量指标：可以通过实验直接获得，便于计算和进行数据处理。

定性指标：不易确定具体的数值，为便于用数学方法进行分析和处理，必须是将其数字化后进行计算和处理。

因素：凡是能影响实验结果的条件或原因，统称为实验因素（简称为因素）

水平:因素变化的各种状态和条件称为因素的水平

总体：我们所研究对象的某特性值的全体，又叫母体；其中的每个单元叫做个体。总体根据个体的有限和无限性分为有限总体和无限总体。

自总体中随机抽出的一组测量值，称为样本，又叫子样。样本中所含个体（测量值）的数目，叫做样本容量，即样本的大小。

抽样：从总体中随机抽取若干个个体观测其某种数量指标的取值过程称为抽样。

样本空间：就样本而言，一次抽取、观测的结果是n个具体数据x1，x2，„，xn，称为样本（X1，X2，„Xn）的一个观测值，而样本观测值所有可能取值的全体称为样本空间。重复性——由一个分析者，在一个给定的实验室中，用一套给定的仪器，在短时期内，对某物理量进行反复定量测量所得的结果。也称为室内精密度。

再现性——由不同实验室的不同分析者和仪器，共同对一个物理量进行定量测量的结果。也称为室间精密度。

极差：一组数据中最大值与最小值之差，叫极差。又叫全距、量距或范围。

误差——测量值和真值的差数

偏差——测量值和平均值的差数。也叫离差。

偏差平方和：测量值对平均值的偏差的平方的加和。

方差:是测量值在其总体均值周围分布状况的一种量度，方差表征随机变量分布的离散程度。总体方差的定义是：测量值对总体均值的误差的平方的统计平均，记作：

2 =1(xini1n)2（n→∞）

标准偏差（标准差）：方差的平方根的正值

自由度：是指可以自由取值的数据的个数。

相对标准偏差(变异系数)：是样本标准偏差与平均值的比值，表示偏差值与平均值的相对大小。

测量次数n、样本平均值和样本标准偏差s，是表达测量结果的三个要素。

标准参考物质通常指的是由公认的权威机构发售的，带有证书的物质，它的一种或多种特性已被确定，可以用来校准测量装置或验证测量方法。在我国，通常把标准物质叫作标准试样或标样。

有效数字就是在测量中所能得到的有实际意义的数字(只作定位用的”0”除外)。 1 在记录一个测量所得的数量时，数据中只应保留一位不确定数字。

有效数字是包括全部可靠数字以及一位不确定数字在内的有意义的数字的位数。

2 在运算中弃去多余数字时，一律以“四舍六入五留双”为原则，而不要“四舍五入”。 3 几个数相加减时，保留有效数字的位数，决定于绝对误差最大的一个数据。

4 几个数相乘除时，以有效数字位数最少的为标准，即以相对误差最大的数据为标准，弃去过多的位数。在作乘、除、开方、乘方运算时，若第一位有效数字等于或大于8，则有效数字可多计一位（例如：8.03毫升的有效数字可视作四位）。

5 在所有计算式中，常数π，e的数值，以及，1/2等系数的有效数字位数，可以认为无限制，需要几位就可以取几位。

6 在对数计算中，所取对数位数，应与真数的有效数字位数相等。例如，pH12.25和[H+]=5.6×10-13M; Ka=5.8×10-10, logKa=-9.24等，都是两位有效数字。换言之，对数的有效数字位数，只计小数点以后的数字的位数，不计对数的整数部分。

7 如果要舍去的不止一位数，而是几位数字，则应该一次完成，而不应该连续修约。

8 在修约标准偏差的值或其它表示不确定度的值时，修约的结果通常是使准确度的估计值变得更差一些。例如，标准偏差s=0.213单位，取两位有效数字时，要入为0.22单位，而取一位有效数字时，就要入为0.3单位。

9平均值的有效数字位数，通常和测量值相同。当样本容量较大，在运算过程中，为减少舍入误差，平均值可比单次测量值多保留一位数。

对于异常数据的取舍一定要慎重，一般处理原则如下：

在试验过程中，若发现异常数据，应停止试验，分析原因，及时纠正错误；

试验结束后，在分析试验结果时，如发现异常数据，则应先找出产生差异的原因，再对其进行取舍；

在分析试验结果时，如不清楚产生异常值的确切原因，则应对数据进行统计处理再做取舍；对于舍去的数据，在试验报告中应注明舍去的原因或所选用的统计方法。

检验可疑数据，常用的统计方法有拉依达(Pauta)准则、格拉布斯(Grubbs)准则、狄克逊(Dixon)准则、肖维勒(Chauvenet)准则、t检验法、F检验法等；

对随机现象的观察、记录、试验统称为随机试验。

样本空间定义：随机试验E的所有结果构成的集合称为E的样本空间，记为S={e}，称S中的元素e为基本事件或样本点．

一般我们称S的子集A为E的随机事件A，当且仅当A所包含的一个样本点发生称事件A发生。随机事件：在特定情况下可能发生也可能不发生的事件

必然事件:在一定条件下必然出现的现象称为必然事件。

不可能事件：某一事件一定不发生，则称为不可能事件。

随机变量取得不同值的概率是不同的，随机变量的概率分布就是讨论随机变量的总体分布情况，即某一随机变量可以取哪些值以及取这些值的可能性概率有多大。

概率密度函数对于随机变量X的分布函数F（x），存在非负函数f(x) ，使对于任意实数x有

f(x)dF(x)

dx则称f(x) 为随机变量x的概率密度函数。

抽样又分为复置抽样和不复置抽样。

复置抽样 → 将抽得的个体放回总体继续参加抽样。

不复置抽样 → 抽得的个体不放回总体参加后续的抽样。

中心极限定理。若随机变量x有数学期望E（x）＝μ，方差D（x）＝σ2，且样本观测值为x1，x2，„ xn，则样本平均值随样本数n的增大，逐渐接近正态分布，即

中心极限定理说明，只要数学期望和方差为有限值，不论X遵从什么分布，其样本平均值的分布将是正态的。

置信度就是表示人们所作判断的可靠把握的程度。置信度有两重含义，一是置信水平，一是置信区间。

约定真值：世界各国公认的几何量和物理量的最高基准的量值

理论真值：设计时给定或用数学、物理公式计算出的给定值

相对真值：标准仪器的测得值或用来作为测量标准用的标准器的值

系统误差是由某种确定的因素造成的，使测定结果系统偏高或偏低；当造成误差的因素不存在时，系统误差自然会消失。当进行重复测量时，它会重复出现。

随机误差又称偶然误差，它是由一些随机的、偶然的原因造成的。

准确度：表示分析结果与真实值接近的程度。

精密度：表示各次分析结果相互接近的程度。

第一类错误如果H0成立，但统计量的实测值落入否定域，从而作出否定H0的结论，那就犯了“以真为假”的错误 .

第二类错误如果H0不成立，但统计量的实测值未落入否定域，从而没有作出否定H0的结论，即接受了错误的H0，那就犯了“以假为真”的错误 .

为衡量试验结果的好坏或处理效应的高低，在试验中具体测定的性状或观测的项目称为试验指标试验

试验中所研究的影响试验指标的因素叫试验因素

因素所处的某种特定状态或数量等级称为因素水平，简称水平

事先设计好的实施在试验单位上的具体项目叫试验处理，简称处理。

在试验中能接受不同试验处理的独立的试验载体叫试验单位。

在试验中，将一个处理实施在两个或两个以上的试验单位上，称为处理有重复；一处理实施的试验单位数称为处理的重复数。

单因素方差分析，是指仅分析一个因素对试验结果的影响是否显著的问题。

试验设计是指以概率论与数理统计学为理论基础，为获得可靠试验结果和有用信息，科学安排试验的一种方法论，亦是研究如何高效而经济地获取所需要的数据与信息的分析处理方法。

用来衡量试验效果的质量指标(如产量、成活率、废品率、转化率等)，称为试验指标。试验设计的目的:找出影响试验指标值的诸因素，或者说是寻找最佳工况．

试验设计的任务:以最小的代价获得最多的信息。

试验设计包括如下三个方面的内容：

(1)工况选择——因素与水平的选取；

(2)误差控制——试验方案的制定； i1limnlimn1nnxi~N(,2)

(3)数据处理——分析试验结果．

交互作用，是指这些因素在同时改变水平时，其效果会超过单独改变某一因素水平时的效果因素的含义：在一个试验过程中，

影响试验指标的因素通常是很多的，通常

固定的试验因素在试验方案中并不称为因

素，只有变化的因素才称为因素；

试验误差控制原则：随机化，重复测量，局部控制

全面试验法：将三因素三水平组合搭配而成的各种试验条件全面进行试验而进行比较选优的方法。

优点：能全面剖析出事物内部规律性。

缺点：试验次数太多，当水平较多时试验量是惊人的。

正交表具有以下三个主要特点：正交性；代表性；综合可比性

正交表的三个基本性质中，正交性是核心，是基础，代表性和综合可比性是正交性的必然结果

利用正交表来安排试验时，一般原则如下：

1．明确试验目的，确定评价指标

2．挑选因素

3．确定各因素的水平

4．制定因素水平表

5．选择合适的正交表

多指标的分析方法

综合平衡法

综合评分法

回归分析——研究变量与变量之间关系的数学方法。

均匀设计

是一种适用于多水平的多因素试验设计方法，具有如下特点：

1 试验点分布均匀分散

2 在处理设计中各个因素每个水平只出现一次

3 适用于多水平多因素模型拟合及优化试验

4 试验结果采用回归分析方法

基本步骤

1 确定试验指标，将各个指标综合分析。

2 选因素、选水平。(均匀分散原则)

3 选择均匀设计表。(关键一步)

4 试验结果统计分析。(没有整齐可比性)

数据处理学习总结

数据处理培训总结

GPS数据处理课程总结

武汉大学测绘学院变形监测数据处理考试知识点总结

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档

相关专题数据分析知识点总结数据处理

相关范文推荐