数据处理实习报告（精选多篇）

发布时间：2020-04-18 23:23:07 来源：实习报告收藏本文下载本文手机版

推荐第1篇：化验室数据处理化验报告

化验的结果必须以化验报告的形式送达送检单位，并由送检单位签收。化验报告上应有送检单位、取样时间、送检时间、化验项目、化验时间、化验结果等项，要求填写规范，字迹清楚，数据准确可靠，不可涂改。送出的化验报告，必须经“三级审查制度”，审查后送出。化验报告应留存根以备查考，分析试样也应按规定保存一段时间，电镀设备以便在必要时再作分析。更多电镀设备，详见http://

推荐第2篇：某测量数据处理实习心得体会

XX测量数据处理实习心得体会

为期十天的建筑工程测量实习，不仅是我们对这学期所学知识的综合运用，更是在无形地教导我们如何做人。以下内容是品才网小编为您精心整理的测量数据处理实习心得体会，欢迎参考！

XX测量数据处理实习心得体会

一、理论是基础实践是根本

没有理论基础，我们就不能正确地分析问题，解决问题。所以我们进行测量实习前，这学期张老师经过对理论知识精细的讲解，我们踏踏实实的学习态度，致使我们很好地掌握了理论知识。对于学习建筑工程技术这一专业的学生，我们不仅要有丰富的专业理论知识，而且更应当有过硬的实践操作能力。

无人不知“实践是检查真理的唯一标准。”所以在掌握理论知识的基础上就是实践。《建筑工程测量》是这样，其它的还是如此。我们不能纸上谈兵，必须树立起理论是基础，实践是根本这一理念。只有这样我们才能真正做到学以致用，为建设中国特色社会主义而奉献自己的微薄之力。

二、明确目标制定计划

没有航向的船，永远也无法到达成功的彼岸。当然，没有目标的工作，永远也无法品尝成功的喜悦，所以我们这次测量实习首先明确了我们的目标。我们这次为期十天的测量实习的内容主要有三项，地形图测绘、建筑物放样、道路圆曲线测设。明确了目标，就应当为之拼搏。我们可不能盲目地拼搏，因为“凡事预则立，不预则废。”，所以我们在进行测量实习初就对测量实习的进程做了相关计划。终于让我们少走了许多曲折之路。比如，我们每天实习都有不同的内容和任务，那么我们准备仪器时就只带需要的仪器，而并非劳神、费力全都带到实习场地。虽然这是在实习期间的亲身体验，我们却对此受益终生。

三、树立起团结协作的团队意识

我们《建筑工程测量》实习并非单枪匹马就能完成任务，必须由大家共同努力才能完成。比如，在进行碎部点的测量时，在同一时间我们需要立尺人员立足、观测人员读取数据、记录人员记录数据、绘图人员绘制草图等。为此，我们需要让组员们树立起团结协作的意识，早日圆满完成实习任务。由此，我真的领悟到了“人心齐，泰山移。”的内涵了，正如抗日战争时期，没有国、共两党的合作，没有统一战线的形成，也许抗日战争将会持续更长时间。如果我们这次测量实习没有组员齐心协力地奋进，我们也根本不可能按时、按质、按量地完成实习任务。因此，团结协作是我们必然要做出的选择。

四、老师指导同学探讨

我们在实际操作过程中，离不开同学们的相互学习和探讨，更离不开张老师顶着烈日不畏艰辛仔细、耐心给我们的正确指导。让我们才茅塞顿开，思维也更加开阔，最终取得优异的成绩。

五、吃苦耐劳自强不息

大家都明白一点，我们学习建筑工程技术专业的学生以后的工作地方一般大多是室外露天工作，遇到风吹日晒是再所难免。正如我们这次测量实习一样，由于时间是夏季，所以天气炎热。于是我们许多时候都是利用早、晚的这一段时间工作，这就要求我们早出晚归。虽然不习惯，但这是我们必然的选择。选择吃苦耐劳，选择自强不息。终于一份耕耘，一份收获，我们组员用十天辛勤的汉水换回了实习工作的圆满结束。

一个测量工作是这样，其它的还是要求我们这样做啊!因为如此，才有新的希望。一场突如其来的特大汶川地震的降临，没有压到我们。这归功于党和国家的科学发展，更是我们拥有吃苦耐劳的品质和自强不息的精神为我们打下了坚定的信念——中国加油，中国雄起!

六、严格要求求真务实

没有规矩，不成方圆。我们在进行仪器操作时，务必按照正规的操作进行测量实习。我们实习相关内容时，也务必按照一定的程序进行。否则，我们将走许多曲折之路。这就告诉我们必须将时代性与规律性相结合，运用创造性思维思考问题，解决问题。当然，我们在严格要求的同时还应求真务实地不断进取。

七、存在问题不断完善

我们这些天的实习取得可喜可贺的成绩，但还是存在一些问题。因为我们是团队工作，所以在组织协调人员任务时还有少许不足。有些仪器操作生疏，测量误差大等问题。有问题不可怕，可怕的是不去解决问题。那么，解决问题，首先就要熟练牢固地掌握理论知识，用理论指导实践。其次是保持良好的心态，在不断总结中前进，达到熟能生巧，为我所用的目的。最后要树立起失败乃成功之母的观念，不耻下问，虚心学习。

为期十天的建筑工程测量实习，不仅是我们对这学期所学知识的综合运用，更是在无形地教导我们如何做人。我坚信学会做人更重于学会做事。这次实习将时刻铭记心底，将我的心得运用于今后的人生道路上。

XX测量数据处理实习心得体会

通过实际的测量实习，让我学到了很多实实在在的东西，比如对实验仪器的操作更加熟练，学会了地形图的绘制课堂上无法做到的东西，很大程度上提高了动手和动脑的能力，同时也拓展了与同学的交际、合作的能力。一次测量实习要完整的做完，单单靠一个人的力量和构思是远远不够的，只有小组的合作和团结才能让实习快速而高效的完成。从这十天的测量中，更重要的是让我明白了几个重要的人生的道理：

一、人与人之间的协作是相当重要的，如果要是互相配合的话，就会如同一盘散沙一样溃不成军，尤其是在配合如此重要的测量学中;

二、令人难忘的三周的测量实习终于结束了，我学会了很多东西，懂得了很多道理

在这些天的实习过程中，我的收获的确不小，不仅熟练的掌握了经纬仪和水准仪的使用，精确的测量距离，以及导线控制测量，还测量出了学校后花园的地形图。实际测量中，我虽然熟练了对仪器的操作，但同时也在暴露出了自己的缺陷和差距，尤其是对经纬仪的整平方面我还有很大的欠缺。通过实习中的不断练习，大大缩小了这方面的差距。

这次总实习给了我一次全面的、系统的实践锻炼的机会，巩固了所学的理论知识，增强了我的实际操作能力，我进一步从实践中认识到实习在工程测量这门课程中的重要性。我以后在工作中光有理论知识是不够的，还要能把理论运用到实践中去才行。

老师对我们的要求是：

(1)必须以认真、严谨的态度和高度负责的精神，完成全部实习环节。所有测量记录、计算数据、和设计图表都必须达到一定的规范要求;(2)我们必须接触、掌握小地区控制测量、沉降观测等的全部过程;(3)实习中要求我们随时笔记，同时要注意锻炼独立思考和处理问题的能力。(4)实习中要服从安排，严守纪律和作息时间，团结互助，尊重群众，爱护群众财物。注意自身和仪器设备的安全。

第一天我们首先熟悉仪器，我在有一个多学期没有碰过仪器的情况下，看到仪器确实有点陌生，但是通过看书和老师的指导很快就回忆起了大部分的理论知识。最初我们选择综合楼的沉降观测，依照要求，先在周围选几个控制点，再在综合楼上选择沉降观测点，然后就行动起来，每个人都很积极，跑来跑去，分工合作，等到快下课的时候就基本完成了。接下来的一个大任务就是小地区控制测量，这个任务一直到最后都还在测，整理数据，绘图等。开始一直都以为测量实在是太简单了，不就是到外面去玩玩吗，谁知道实践后才懂得辛苦。有时候忙了一个下午把任务完成后觉得蛮有成就感的，但是回寝室后和同学互相讨论起来，才知道我们错得太多了，白白忙了一下午，需要重测。这是我们的失误，原因是根本就没有分析透试验的要求。这是个教训，我们在此之后时刻想着“细心”两个字，在以后的每次读数中都反复读几遍，也就很少出错了。在实习前都要预习下次要做的内容，所以在接下来的测量中差错逐渐减少，当然速度相应也就快了，“细心”是我们提前完成任务的主要条件。

在实习过程中，技能的提高是一个方面，另外更重要的方面是我们领悟到了相互配合的重要，我们组共7个人，我们在开始的时候进度比别人慢，还走了许多冤枉路。经过调整分工后，效率明显提高，而且每人也都达到了练习，这可谓是成功的第二大因素。合作，在时时刻刻都是不可少的。在许多的工程中，不管是三峡大坝和青藏铁路那样的大工程，还是小民房那样的小工程，任你有再大的本事也无法完成，合作是必须的。

通过实习，达到了理论联系实际，进一步理解和掌握基础知识，全面培养了自己的综合运用本专业理论知识和实践动手能力，以及独立判断的处理问题和工程测量的实践能力，为将来从事此方面的工作奠定了基础。

这次实习虽然圆满的完成了任务，但在实习中遇到的问题是决不能忽略的，这问题正是我们寻找的，我们所需要的，我们的口号就是在实践中不断发现问题，不断解决问题，这样才能巩固我们所学的知识，为今后走向工作岗位打下坚定的基础。

推荐第3篇：GPS数据处理

《GPS数据处理》课程总结报告

班级：地101 学号：2103071011291 姓名：常悦

成绩：

北京建筑工程学院.测绘与城市空间信息学院

二零一三年.五月《GPS数据处理》课程总结报告

1.GPS数据采集的基本作业流程

2.GPS数据处理涉及的计算公式

第 2 页，共 8 页

《GPS数据处理》课程总结报告

基线向量解：

3.GPS数据处理的质量检验方法与公式

基线向量的改正数。

根据基线向量的改正数的大小，可以判断出基线向量中是否含有粗差。具体判定依据，若：

，则认为基线向量中不含有粗差；反之，则含有粗差。邻点的中误差和相对中误差。

若在进行质量评定时，发现有质量问题，需要根据具体情况进行处理，如果发现构成GPS网的基线中含有粗差，则需要采用删除含有粗差的基线、重新对含有粗差的基线进行解算或重测含有粗差的基线等方法加以解决；如果发现个别起算数据有质量问题，则应该放弃有质量问题的起算数据

公式：

4.GPS数据处理的基本流程

基本流程：

1、数据预处理

与外业记录对照，修改观测文件中的一些参数：

（1）检查外业观测数据

第 3 页，共 8 页

3 《GPS数据处理》课程总结报告

（2）点名的编辑

（3）天线高检查或编辑

（4）。。。

2、基线解算

（1）设置基线解算的参数（使用的卫星，卫星高度角，对流层电离层模型等）

（2）基线解算

（3）察看基线报告，不同的软件成果质量判断不一样，LGO是看各个检验

（4）对于有问题的基线或其残差过大，可采用开窗删星等手段处理

（5）继续解算，重复（2）（3）（4）过程，直到得到满意的结果

3、无约束平差

（1）设置平差参数

（2）平差分析

（3）计算闭合环

（4）平差

（5）看平差报告

4、约束平差

(1) 新建椭球投影坐标系

（2）导入控制点

（3）控制点匹配

（4）约束平差

5.GPS商业处理软件的使用

5.1 Trimble软件的使用

1．使用数据模块建立项目 2．输入样本文件

3．导入NGS成果表文件 4.导入GPS数据文件 5.properties窗口查看实体 6.处理gps潜在基线 7.评估结算结果

8.查阅gps基线处理报告 9.使用时序器处理星历 10.计算gps环闭合差 11.计算最小约束网平差

12．查看RTK和常规测量数据 13.输出数据

5.2 Compa软件的使用

1 安装，注意安装完毕按照说明进行破解。并且不能安装在中文目录名内，而且英文字符不

第 4 页，共 8 页

4 《GPS数据处理》课程总结报告

能超过 8 位。

2 安装完毕运行首先进行单位设置，推荐使用国际单位 SI 标准，方法是点击 Utilities 菜单，选择 units 再调入预设的 SI 单位集合即可，注意此时狗腿度的单位是度/30m，可以根据个人习惯进行调整。

3 第一次使用首先建立一个新公司（company）如二勘、六勘等等，注意在 company 对话框内一定要选择中国钻井行业规定的标准－曲率半径法（Radius of Curvature），并且根据需要选择坐标的原点（Co-ordinate）是区块site的中心还是井口（slot）的中心。如果不涉及防碰，不需要比较两井的相当位置时，建议选择井口的中心作为原点。 4 建立一个油田（field）如胜利、大庆、塔指等等。

5 建立一个区块（site）如哈得、塔河等等。可以输入本区块的中心坐标（如果愿意）。 6 建立一口井（well），名字用井号如：轮古 37 等等，并输入本井的井口坐标。

7 建一个轨道（wellpath），一口井可以建立数个轨道。并可以指定其中的一个为确定的（definitive）轨道。

8 选择 EDIT编辑－Wellpath（轨道）－targets（靶点）菜单（或直接点工具栏的按钮），进入靶点设计，输入靶点的名字、垂深、坐标、形状，保存退出。

9 选择 Planning－new plan 菜单，输入轨道设计的名字和起始点，进行轨道设计。

10 选择 Survey－new survey 菜单，输入测量过程的名字和起始点，进行实际测量的参数计算。

11 实际使用过程中，每进行一次测量都要重复 9 的过程建立一个以最后测量点为起点的新设计，随时调整下一步的定向方式。

6.RINEX格式的作用

RINEX格式已经成为了GPS测量应用等的标准数据格式，几乎所有测量型GPS接收机厂商都提供将其格式文件转换为RINEX格式文件的工具，而且几乎所有的数据分析处理软件都能够直接读取RINEX格式的数据。这意味着在实际观测作业中可以采用不同厂商、不同型号的接收机进行混合编队，而数据处理则可采用某一特定软件进行。

7.RINEX格式的观测文件读取程序说明

基于matlab语言开发程序。

Rinex格式文件：

由程序命令一个字串一个字串的进行，然后根据文件头的取舍将有效数据重新组合平面数据矩阵（二维）或立体数据矩阵（三维）。一般情况下，当读取指定的字符串（如“END OF HEADER”）时，即开始读取有效数据，在上述观测文件和导航文件中，有效数据为字符串“END OF HEADER”以后的数据相关函数：

fopen 开启所要读取的文件

fscanf 读取所开启文件中的资料

textread 读取所开启的文本文件中的资料

第 5 页，共 8 页

5 《GPS数据处理》课程总结报告

strcmp 比较两字串是否相同

8.RINEX格式的导航文件读取程序说明

同样基于matlab语言程序。

因观测文件和上述星历文件的头文件包含的信息量不同，观测头文件中包含有很多有效信息，所以必须对头文件进行必要的细致读取。认为主要是1) “ANTENNA: DELTA H/E/N”2)“\'APPROX POSITION XYZ”3) “# / TYPES OF OBSERV”，这三行数据对整个数据把握和以后的运算有帮助。

在读主要的观测值时，采用的思路也是将所有的观测值看做是全矩阵（立体）的矩阵组成，将同历元的数据放在一个二维矩阵中，有n颗卫星，m类观测值如载波相位观测值、伪

距观测值、多普勒观测值等，然后将所有的观测值进行组装。如下图（部分），最终形成了7×７×31的一个大型矩阵，因最终进行计算的时候为了循环的需要，同时对应于按照时间的顺序组织矩阵，所以要对这一中间过程进行排序（按照星历文件卫星号的排列顺序）。其读取结果如表4，其中，midobs(:,:,31)表示第31个采样间隔里所有的观测值，第

一、二列为L

1、L2相位观测值(cycle)，第三列为L1的C/A伪距观测值(m)，第

四、五列P

1、P2为L1和L2的P码伪距观测值(m)，最后两列为L1和L2的多普勒伪距观测值(Hz) 根据所需要的定位方式（载波定位、伪距定位等），合理的对读取数据的结果进行取舍，方式就是根据行列号提取或者将所选以外的数据进行赋值为空（NULL）。

9.GPS单点坐标计算公式及流程图

1.计算卫星运动的平均角速度n n = n0 + Δn 2.计算观测瞬间卫星的平近点角M M =M0 + n( t - TOE) 3.计算偏近点角

E = M+ esinE E°=M°+ ρ°·esinE° 4.计算真近点角f

5.计算升交距角u′ u′= ω+ f 6.计算摄动改正项δu , δr , δ

第 6 页，共 8 页 6 《GPS数据处理》课程总结报告

7.对u′、r′、i0 进行摄动改正

8.计算卫星在轨道面坐标系中的位置

9.计算观测瞬间升交点的经度L

10.计算卫星在瞬时地球坐标系中的位置

11.计算卫星在协议地球坐标系中的位置

10.个人课程总结【1000字】

近年来，GPS测量定位理论和软件科学的进步促进了不同功能GPS数据处理软件的发展，为了满足不同领域的应用需求，GPS数据处理软件不断问世。对于一个测量工作者来说选用一种好的数据处理方法和软件对GPS数据结果影响很大。然而众多的后处理软件以及不同的处理方法使我们的测量工作者带来多样的选择。尽管不同软件在数据处理方法上各有其特点，但它们的总体结构基本上是一致的，即由数据准备、轨道计算、模型改正、数据编辑和参数估计5部分组成。究竟，哪一种GPS数据处理软件性能更好？那一种GPS数据处理软件的处理精度更高呢？本文就将针对国内外几种常用GPS后处理软件进行比较分析，其中包括南方国内公司开发的GPS后处理软件、Ashtech Solutions2.6平差软件、中海达HDS200

3、Trimble TGO、leica Geo Office五种软件。

一般情况下数据处理流程应该有很多个的过程，才能够保证数据满足工程需要，根据资料一般有以下步骤：野外数据采集——数据传输——手簿输入——数据加工——数据预处理——基线解算——重复基线检验——同步环检验——异步环检验（以上为当天应完成的任务）——重测与补测——WGS-84无约束平差——网精度分析——北京54/80/地方独立中三维无约束平差——三维约束平差——二维平差——成果报告——技术总结。网平差应该是整

第 7 页，共 8 页

7 《GPS数据处理》课程总结报告

个数据处理的核心内容，直接关乎数据的质量。

软件只是实现了网平差的解算，更重要的是需要用户参与，并最终作出正确的判断。应当说明的是，这通常是一个反复的过程，虽然在实验报告当中看起来只是一个小部分，但那是因为这主要由计算机进行解算，并且只考虑了一次成功的情况，而事实上可能要许多次才能够完成。

通过这门课程，我学习到了许多关于计算gps的基础知识和有关gps测量的工具使用和gps计算工具的使用方法。同时，我不仅对GPS原理有了更深入的了解，还对GPS外业数据采集和内业处理有了一定的理解。这个课程不仅是对动手能力的一种提升，更是对理论知识的一次综合性巩固。虽然测量是一门实践性很强的学科，但是也要求我们掌握扎实的理论知识，如果没有扎实的理论功底，只知道怎么做，但是不知道为什么那么做，当我们遇到类似的其他问题时，就不知道怎么解决。所以我觉得理论是实践的前提，只有把理论知识学好，才能更好的促进实践。所以我们要学好理论知识，为以后的工作打下坚实的基础。当然理论知识学好了，动手能力也要努力培养，不能只会纸上谈兵，所以我们要多动手，提高自己的动手能量，并在实践中促进巩固理论知识。只有理论是实践这两个环节都做好，我们才能更好的掌握理论知识，提高自己的动手能力。

第 8 页，共 8 页 8

推荐第4篇：数据处理教案

数据处理教案

引言：

根据高专中专部安排，由我带10级综合班的数据处理课和Office办公自动化课，根据教学的要求，特写此教案，该教案分为5部分，第一部分介绍数据处理定义，结构，常用软件；第二部分计算机基础；第三部分介绍Excel数据处理；第四部分介绍常用数据库（acce、sql语句），第四部分介绍简单的关系数据库、数据建模等；第五部分介绍简单的数据处理、报表制作等。

第一部分数据处理定义，结构第一节数据处理定义

教学目的：通过对数据处理的定义使学生明白，在当今的社会，数据是如何的重要，数据处理在现代社会中起到什么样的作用。

教学内容：重点是数据处理的定义，难点为如何看待数据和信息的关系，模糊数据和数字数据的区别教学方法：口述与上机

教学进程：全面4个课时为理论口述讲解，后面4个课时上机介绍数据处理常用软件。

1.1.1数据处理定义

数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后，便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程

1.1.2数据处理软件

数据处理离不开软件的支持，数据处理软件包括：用以书写处理程序的各种程序设计语言及其编译程序，管理数据的文件系统和数据库系统，以及各种数据处理方法的应用软件包。为了保证数据安全可靠，还有一整套数据安全保密的技术。 1.1.3 数据处理方式

根据处理设备的结构方式、工作方式，以及数据的时间空间分布方式的不同，数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点，应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式①根据处理设备的结构方式区分，有联机处理方式和脱机处理方式。②根据数据处理时间的分配方式区分，有批处理方式、分时处理方式和实时处理方式。③根据数据处理空间的分布方式区分，有集中式处理方式和分布处理方式。④根据计算机中央处理器的工作方式区分，有单道作业处理方式、多道作业处理方式和交互式处理方式。

1.1.4 数据处理加工

数据处理对数据（包括数值的和非数值的）进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及，在计算机应用领域中，数值计算所占比重很小，通过计算机数据处理进行信息管理已成为主要的应用。如侧绘制图管理、仓库管理、财会管理、交通运输管理，技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据（土地、水、气候、生物等各类资源数据），也有大量社会经济数据（人口、交通、工农业等），常要求进行综合性数据处理。故需建立地理数据库，系统地整理和存储地理数据减少冗余，发展数据处理软件，充分利用数据库技术进行数据管理和处理。 1.1.5 数据清洗

有关商务网站的数据处理：由于网站的访问量非常大，在进行一些专业的数据分析时，往往要有针对性的数据清洗，即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类，进行分类划分之后，就可以根据具体的分析需求选择模式分析的技术，如路径分析、兴趣关联规则、聚类等。通过模式分析，找到有用的信息，再通过联机分析（OLAP）的验证，结合客户登记信息，找出有价值的市场信息，或发现潜在的市场。

第二节数据处理结构

教学目的：通过对数据处理结构的介绍使学生明白数据仓库、数据集市与数据挖掘的关系。

教学内容：重点是数据仓库的图像理解，难点也是数据仓库整体结构的理解。教学方法：口述与上机教学进程：全面4个课时为理论口述讲解，后面4个课时上机介绍数据仓库案例。

1.2.1商业智能在中国的发展机会（数据处理）

商业智能就像几年前的ERP（企业资源管理）一样，正成为企业首席技术官们关注的焦点，呈现如火如荼的发展态势。众所周知，在ERP等基础信息系统部署完之后，企业能够对其业务数据进行更为有效的管理，于是如何利用这些数据创造价值成为企业下一步思考的问题。

商业智能系统已经作为一种含金量极高的管理工具，融合在部分大型企业管理文化的血脉之中了。商业智能在帮助企业管理层发现市场机会、创造竞争新优势的作用显而易见，因此成为企业信息化的新宠也是必然的。

商业智能软件市场稳步增长

从全球范围来看，商业智能领域并购不断，商业智能市场已经超过ERP和CRM（客户关系管理）成为最具增长潜力的领域。从中国市场来看，商业智能已经被电信、金融、零售、保险、制造等行业越来越广泛地应用，操作型商业智能逐步在大企业普及，商业智能不局限于高层管理者的决策之用，也日益成为普通员工日常操作的工具。

不过，尽管这个市场潜力巨大，但仍有不少的现实情况导致这一市场的发育没有大家预期中的那么好。首先一点，国内的成熟、专业的商业智能实施顾问较少，不但上游厂商的相关人才少，下游负责实施的渠道合作伙伴更是缺乏相关人才，很多时候用户要启用商业智能工具，但是不太明确自己的需求，负责实施的人很多时候也是一知半解，不能给用户很好的解决方案；其次，目前多数商业智能厂商，尤其是国外厂商都是通过分公司或办事处来销售的，而未来国内制造业企业多数需要本地化服务，这种模式必将改变。同时，商业智能系统的销售、服务要求代理商要有很强的能力，如何选择、培养、发展这些代理商将是商业智能大发展面临的一个很重要问题。

SaaS将成为重要交付模式

同时，商业智能系统的核心不是平台，而是模型。目前，由于国内应用商业智能的企业并不多，应用深入的更少，应用基础也比较薄弱，即使拿来国外先进的商业模型也不一定能运转起来，所以尽快建立各种适合国内企业特色的模型是各服务商未来要加大投入着力解决的。当然，对企业而言，商业智能的有效应用，离不开数据的支持。如果没有准确的数据，那么所要分析产生的报表、决策都与事实存在差距，将会导致整个决策的错误，因此，必须要求前期的数据准确。

最后，随着云计算的大规模普及，下一代商业智能的精细分析系统很可能会建设在动态的基础架构上，而虚拟化、云计算等技术的发展也会带动商业智能系统的建设和应用，这就是“云智能”。我国企业需要抓住“云智能”机遇，加快发展、迎头赶上，才能从容应对下一阶段的全球化竞争。

1.2.2数据仓库技术的发展及体系结构

1 数据仓库技术的发展及概念

传统的数据库技术是以单一的数据资源，即数据库为中心，进行事务处理工作的。然而，不同类型的数据有着不同的处理特点，以单一的数据组织方式进行组织的数据库并不能反映这种差异，满足不了现代商业企业数据处理多样化的要求。总结起来，当前的商、世企业数据处理可以大致地划分为2大类：操作型处理和分析型处理。操作型处理也叫事务型处理，主要是为企业的特定应用服务的（这是目前最为常用的），分析型处理则用于商业企业管理人员的决策分析，这种需求既要求联机服务，又涉及大量用于决策的数据，传统的数据库系统已经无法满足，具体体现在：

1）历史数据量大；

2）辅助决策信息涉及许多部门的数据，而不同系统的数据难以集成；

3）由于访问数据的能力不足，它对大量数据的访问能力明显下降。

数据仓库技术的出现为解决上述问题提供了新的思路。数据仓库的创始人Inmon指出：“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持经营管理中的决策制定过程”。它从大量的事务型数据中抽取数据，并将其清理、转换为新的存储格式，即为决策目标把数据聚合在一种特殊的格式中，作为决策分析的数据基础，从而在理论上解决了从不同系统的数据库中提取数据的难题。同时，利用联机分析处理（OLAP）技术可以对数据仓库提供的数据进行深入加工。

2 企业数据仓库的体系结构

一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。

1）数据源。

数据源是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中（通常存放在RD-BMS中）的各种业务数据，外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。

2）数据的存储与管理。

数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上，对数据进行抽取、清理，并有效集成，按照主题进行重新组织，最终确定数据仓库的物理存储结构，同时组织存储数据仓库元数据（具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息）。按照数据的覆盖范围，数据仓库存储可以分为企业级数据仓库和部门级数据仓库（通常称为“数据集市”，Data Mart）。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。

3）OLAP服务器。

对分析需要的数据按照多维数据模型进行再次重组，以支持用户多角度、多层次的分析，发现数据趋势。

4）前端工具与应用。

前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具既针对数据仓库，同时也针对OLAP服务器。

1.2.3商业智能（BI）落地需要的三大工具

商业智能（后面简称BI）的各类角色用户必须借助和使用工具实现其需求。BI角色分为业务、业务融合技术、技术这三类，对于其相应的应用需求（含演绎型和归纳型）和管控开发需求，需要借演绎型需求支撑工具和归纳型需求支撑工具，及管控开发型工具来予以实现。本篇先讲述演绎型需求支撑的7种工具，其可分为描述统计工具、经营技术与方法、经济预测方法与模型、OLAP分析、知识发现工具、专家系统以及决策方法与模型。管控开发支持型工具一般包括系统管理工具、开发工具；

笔者认为BI以认识论和组织理论为基本原理，采取相适宜的“工具”，旨在帮助 “相关角色”对职责范围内的“有关内容”做出最佳决定的整体解决方案。它由“三维模式”和“三层漏斗”组成，是辅助整个企业集理念，组织，流程，技术为一体的整体决策支持方案三维模式由角色维、内容维和工具维构成，体现了BI的主体、客体和工具等一般性原理。根据BI的定义，只有清晰划分相关角色并据以确定需求，并借助工具才能实现BI辅助主体对职责范围的有关事项做出最佳决定的宗旨。

BI的业务类角色、技术类角色以及业务融合技术类角色对应存在着业务应用需求（指业务类的演绎型需求和业务融合技术类的归纳型需求）和技术应用需求，即管控开发型需求。这种需求能否得以有效实现和提升，必须借助工具。针对三大类角色的两种需求，BI的工具分为应用型支撑型工具和管控开发支持型工具。鉴于文章的范围，硬件支撑工具的内容请参见相关书籍。

应用支撑工具可以分为描述统计工具、经营技术与方法、经济预测方法与模型、OLAP分析、知识发现工具、专家系统以及决策方法与模型。管控开发支持型工具一般包括系统管理工具、开发工具。一般来说，这些工具以软件包的形式形成产品。鉴于BI对于业务应用的重要作用及业务应用成功对BI的重要意义，本文着重分析BI的应用型支撑工具，并对有关产品作简单介绍。

一、实现演绎型需求的7种工具

BI的演绎型内容可以分为三个层次：报表查询、综合分析、决策选择讨。如下图所示，BI的演绎型需求通过描述性统计工具、报表与展示工具、经济预测方法与模型、经营技术与工具、OLAP分析及专家系统工具、决策方法与模型来实现。

上图中，描述性统计工具帮助用户在报表查询层次实现对事实的充分了解；综合分析以逻辑的方式帮助相关主体寻求原因或对简单问题直接获得建议，需要运用经济预测方法与模型、经营技术与工具及OLAP分析来得以实现。专家系统和决策方法与模型是实现定量和部分定性决策的有力工具。通过该类工具，用户在决策选择时通过评价各个方案的优劣来辅助主体选择最优，得出结论。BI 演绎型应用的三层次结构合理、有步骤地解决了前提、逻辑规则和结论这一演绎型思维方法的迁移应用。

（一）描述性统计工具

统计的基本意义在于利用统计指标，通过指标值的对比关系和发展变化来研究社会经济现象的数量和数量关系，表明其变化发展的过程、结果及其规律。作为统计学两大基本内容之一的描述性统计是整个统计学的基础和统计研究工作的第一步，它包括数据的收集、整理、显示，对数据中有用信息的提取和分析，而对变量的集中趋势和离中趋势的分析则是其主要内容。描述性统计工具指为实现相关主体对基本事实了解的需求而需利用基本指标。这些基本统计指标包括总量指标、相对指标、平均指标和变异指标。

总量指标：表明具体社会经济现象总体的规模、水平或工作总量的数值，是计算各种派生指标的基础。如某集团公司年销量即是总量指标。它可分为总体单位总量、总体标志总量和时期总量（如某个事业部门的总销量）、时点总量（如月末库存）。总量指标可通过直接计算和间接计算求出。

相对指标：表明两个互有联系的社会、经济现象之间数量对比关系的统计指标。如竞争企业之间库存周转率的对比，或行业内某企业销量与行业总销量的对比等等；常用的同比和环比也是相对指标的运用。相对指标反映了社会经济现象的实质及其数量的对比关系，从现象间数量对比关系中清晰地认识事物。其次，可使原来无法直接比较的现象，找到共同的基础进行科学地对比分析。相对指标又包括：计划完成程度指标、结构相对指标（高中低档产品利润在全部利润中的各自占比）、比例相对指标（产品A与产品B的对比）、比较相对指标（某企业销量增长率与竞争企业销量增长率的对比）、强度相对指标（如烟草行业销售情况中条/人指标的对比）、动态相对指标（如历年的销售额的比较）。运用时，要正确选择对比的基数、确定可比的对比指标、相对指标要与对比基数结合使用。

平均指标：反映同质总体内各单位某一数量标志的一般水平，可以对比总体的一般水平，如分公司年平均销量与总公司平均销量的对比，可以进行数量上的推算和预测。平均指标有算术平均数、调和平均数（较少用，主要用于已知标志总量而不知单位总量的情况）、几何平均数（一般用于计算平均发展速度）、众数（一组序列中出现次数最多的数）、中位数（按大小顺序排列的数据中处于中间的数）五种。使用平均数时要与变异指标结合使用，有时需要用组平均数补充总体平均数。

标志变异指标：说明总体各单位某一标志数值差异程度，通过变异指标可以揭示被平均指标掩盖了的差异情况，也可作为衡量平均指标代表性的尺度。可分为：全距、平均差、标准差、标志变异系数。全距是标志值最大值与最小值之差，如2006年某产品在全国各省中最高销量与最低销量之差；平均差是各个标志值与总体算术平均数的离差的绝对值。标准差为各个标志值与总体算术平均数的离差的平方和的正平方根，其值越大表明差异越大，平均值不能很好代表一般水平；标准差与算术平均数的比值称为标志变异系数，用以两个平均数指标不相等时的对比。

描述性统计工具在当前BI的行业应用中非常普遍。值得关注的是，当前一般BI的报表查询应用涉及更多是描述性统计的总量指标、平均指标和比较指标，而对于描述离中趋势的标志变异指标运用得相当不够。事实上，标志变异指标可以解决B I的应用主体很多实质性问题，比如在众多品牌中找到销量不稳定的品牌，在众多客户中找到交易额波动大的客户，这些信息为BI的应用有关主体在研发、生产、采购、销售、库存方面起到较为关键的作用。

（二）报表与展示工具

以报表应用类别区分，BI系统能利用报表与展示工具来生成统计报表和查询报表。查询报表较为简单，根据用户的需求可以较容易地定制。由于中国式统计报表众多的表头项以及表头中首格的一重甚至多种斜线的特征，甚至在表头项中又切分子表头的复杂情况，致使生成统计报表较为困难。国外的BI产品在生成统计报表方面和国内的某些产品相比，如水晶报表，操作过程较繁锁。对于报表的展示，一是产生表格，二是产生与表格对应的图形，如曲线图、柱形图、三维图等。一般来说，要求报表与图形连动。即当报表数据发生变动时，图形跟着变动。或者相反，图形的变动要带来报表数据的变动。这是在钻取时较容易产生的情况。如SAS的Busine Intelligence和BO的图形互动功能都能实现此种需求。

报表与展示工具注重实现报表的灵活性，更强调图形展示的美观、图形色彩的模板化定，强调图形种类的多样。这是BI工具的基本功能。前两年大家谈到BI时，更容易评判到某个厂家的BI的界面制作的是否美观等等，这是当时人们对BI应用认识不够造成的。现在厂家在宣传BI时，不仅注重更深层次的综合分析功能和预测、决策功能，更扩大到数据集成与整合，数据存储和元数据管理等全套BI平台上。

（三）经济预测方法与模型经济预测方法与模型是统计学中统计推断部分的运用，复杂且灵活。它是BI在综合分析层次上的应用。该方法满足业务类用户展望未来的需求。统计推断一般包括参数估计、假设检验以及分类与选择。经济预测方法是参数估计的应用推广，包含了点估计和参数估计，如某上时间段销量的预测值，或者预测值所处的区间。经济预测模型是在预测方法的指导下，根据行业的实际经过修正后建立的预测模型。

定量的预测方法实战中可以建立很多模式，此处以时间序列预测为主简要介绍经济预测方法与模型的运用。

时间序列预测法是动态分析法的一种运用。动态分析法是在统计研究中，把经济现象在不同时间上的数量进行对比，以了解现象变动的方向、速度、趋势和规律，并据此预测未来的方法。动态趋势分析与预测是动态分析法的重要用途。时间序列是动态分析研究的一个主要方面，其前提是编制时间序列，并形成时间序列预测法。当前时间序列有100种左右的预测方法，但其基本方法一般包括简单平均、移动平均、指数平滑、最小二乘等，可以运用到直线趋势预测和曲线趋势预测方面。时间序列影响时间序列的值变化的四种因素：趋势变动、季节变动、循环变动、不规则变动，循环变动在短期预测中通常不考虑。将这四个因素从时间序列值中分解出来的方法称为分解分析法。如2月份在某地的某品牌白酒销量为60箱，通过分解技术，可获知趋势变动（平均水平与增长势头）的影响值为40，中秋的季节变动影响值为15，但不规则变动影响值是5，所以即销量为60。时间序列预测的基本方法结合上述四种因素并运用到直线预测和曲线预测中，就形成了近100种的具体预测方法，如加权平均，加权移动平均、温特斯法等。温特斯法是以指数平滑法为基本模型，结合季节因素并运用到直线趋势中而形成的季节直线趋势和季节变动指数平滑模型。下图分别是直线趋势和曲线趋势预测的结果。

1.2.4数据仓库架构的建立

每一个数据仓库有一个架构。这架构要么是即时的或计划过的；或隐式的或形成文件的。不幸的是，许多数据仓库开发时并没有一个明确的架构，这极大的限制了它的灵活性。在没有架构的情况下，主题区域就无法契合在一起，它们之间的连接变得无目的，并且使整个数据仓库的管理和变更都难于进行。此外，虽然它可能看起来不重要，数据仓库的架构已成为选择工具时的框架。

让我们把开发一个数据仓库与建造一个真正的房屋进行比较。你如何建造一幢300万美元的大厦呢？更不用说建造一间10万美元的房子了。你要有蓝图、图纸、技术规范、和在多个层次细节上显示这个房子将如何进行建造的标准。当然，针对房子的各种子系统要有不同版本的蓝图，如管道工程、电气、暖通空调系统（HVAC）、通信、和空间。针对所有的家用的设备也有相应的标准，包括插头、灯具、卫生洁具、门的尺寸等。

对于数据仓库，架构是对数据仓库的元素和服务的一种描述，用具体细节说明各种组件如何组合在一起，和随着时间的推移系统将如何地发展。就像这房子的比喻，数据仓库架构是一套文件、计划、模型、图纸和规范，针对每个关键的组件区域有独立的分区，并且足够详细到让专业技术人员可以实施它们。

这并是一个需求文件。需求文件说明架构需要做些什么。数据仓库架构也不是一个项目计划或任务清单；它说明数据仓库是什么，而不是怎么去做或为什么去做。

一个数据仓库的开发也并不容易，因为相对于房屋的5000年建筑史，我们发展数据仓库系统只有20年的时间。因此，我们的标准还不多，工具和技术正在快速发展，关于我们已经拥有数据仓库系统的档案还很少，而且数据仓库的术语还有很大的出入。

所以，虽然开发一个架构是困难的，但它也是可能的，并且又是至关重要的。首先，最主要的是，架构应该受业务的驱动。如果你的要求是每夜进行更新，这一要求就该包含在架构内，而你必须弄清实现你目标的技术需求。下面是一些业务需求的例子，和针对每种需求的综合技术考量：

●每夜更新――充足的数据准备能力

●全球可用性—平行或分布式服务器

●顾客层次分析――大型服务器

●新数据源――带有支持元数据的灵活工具

●可靠性――工作的控制功能

关键组件区域

一个完整的数据仓库架构包括数据和技术因素。架构可以被分为三个主要区域。首先，是基于业务流程的数据架构。其次是基础设施，包括硬件、网络、操作系统和电脑。最后，是技术区域，包含用户所需的决策制定的技术以及它们的支持结构。对这些区域将在下文分小节进行详述。

●数据架构

如上所述，在整体数据仓库架构中的数据架构部分是受业务流程所驱动的。例如，在一个制造环境里，数据模型可能包括订单、装运和帐单。每一个区域都依据一套不同的维度。但是在数据模型中对相交维度的定义必须相同。所以相同数据项应该有同样的结构和内容，并有一个创建和维护的单一流程。

当你完成一个数据仓库架构并呈现数据给你的用户，就要做出对工具的选择，但随着需求的设定，选择就会变窄。例如，产品的功能开始融合，就像多维联机分析处理（M OLAP）和关系型联机分析处理（ROLAP）。如果停留在你建造的立方体，多维联机分析处理（MOLAP）便可以了。它速度快又允许灵活的查询――在立方体的范围内。它的缺点是规模（整体上和一个维度内）、设计的局限性（受立方体结构所限）、需要一个专有的数据库。关系型联机分析处理（ROLAP）是多维联机分析处理（MOLAP）的一种替代方案，它克服了多维联机分析处理（MOLAP）的这些缺点。通常，混合联机处理（HOLAP）更受欢迎，它允许一部分数据存储在维联机分析处理（MOLAP）中，另一部分数据存储在关系型联机分析处理（ROLAP）中，折衷了各自的长处。

●基础设施架构

对硬件及数据库选择的问题在于其大小、扩展性和灵活性。在大约80%的数据仓库项目中，这并不困难，大多数企业有足够的力量来应对他们的需要。

在网络、检查数据来源、数据仓库准备区、以及它们之间的任何设施方面，要确保有足够的带宽用于数据的移动。 ●技术架构

技术架构被元数据目录所驱动。一切都应该受元数据所驱动。服务应该依从表格所需的参数，而不是它们的硬编码。技术架构的一个重要组件是 ETL（提取、转换和加载）流程，它涵盖了五个主要区域：

●提取－数据来自多种数据源并且种类繁多。在这个区域如果有数据的应用时必须考虑对它的压缩和加密处理。

●转换－数据转换包括代理主键的管理、整合、去标准化、清洗、转换、合并和审计。

●加载－加载通常是利用加载最优化和对整个加载周期的支持对多种目标进行加载。

●安全－管理员访问和数据加密的策略。

●元件控制-－它包括元件的定义、元件安排（时间和事件）、监控、登录、异常处理、错误处理和通知。

数据准备区需要能够从多种数据源提取数据，如MVS、ORACLE、VM和其它，所以当你选择产品时要具体。它必须将数据进行压缩和加密、转化、加载（可能对多个目标）和安全处理。此外，数据准备区的活动要能够自动化进行。不同的供应商的产品做不同的事情，所以大多数企业将需要使用多种产品。

一个监控数据仓库使用的系统对查询的采集、使用的跟踪是有价值的，而且也有助于性能的调整。性能优化包括通过“管理者”工具进行的成本估算，而且应包括即时查询的时间表。有工具能够提供查询管理服务。可使用工具来针对这些和其它相关任务，如对前台的基于服务器的查询管理和来自于多种数据源的数据。也有工具可用于报表、连通性和基础设施管理。最后，数据访问块应包括报表的服务（如发布和订阅），还应包括报表库，调度程序和分布管理员。

关于元数据

在数据仓库流程中数据的创建和管理要遵循以下的“步骤”：

●数据仓库模型

●数据源的定义

●表的定义

●数据源到目标的映射

●映射和转换信息

●物理信息（表格空间，等）

●提取数据

●转移数据

●加载统计

●业务描述

●查询请求

●数据本身

●查询统计

为显示元数据的重要性，上述的步骤列表中只有三步包括了“真正”的数据－

7、8和12。其他的一切都是元数据，而且整个数据仓库流程都依赖于它。元数据目录的专业技术要素包括： ●业务规则-－包括定义、推导、相关项目、验证、和层次结构信息（版本、日期等。）

●转移/转换信息-－源/目的地的信息，以及DDL（数据类型、名称等等。）

●操作信息-－数据加载的工作时间表、依存性、通知和信息的可靠性（比如主机的重定向和加载平衡）。

●特定工具的信息-－图形显示信息和特殊功能的支持。

●安全规则-－认证和授权。

建立架构

在开发技术架构模型前，要先起草一份架构需求的文件。然后将每一项业务需求计划包含到它的架构中。根据架构的区域对这些内容进行分组（远程访问、数据准备、数据访问工具等）。了解它如何于其它区域相适应。采集区域的定义及其内容。最后提炼和形成模型的文件。

我们认识到开发一个数据仓库架构是困难的，因此要有一个周密细致的规划。但ZACHMAN框架又超出了大多数企业对数据仓库的需要，所以建议使用一个合理的折衷方案，它由四层流程所组成：业务需求、技术架构、标准和工具。

业务需求本质上驱动着架构，所以要对业务经理、分析师、高级用户进行访谈。从你的访谈中寻找主要的业务问题，以及企业战略、发展方向、挫折、业务流程、时间、可用性、业绩预期的指标。将它们一一妥善归档。

从IT的角度来看，跟现有的数据仓库/决策支持系统（DSS）的支持人员、联机分析处理（OLTP）应用组成员、数据库管理员们（DBA）；以及网络、操作系统和桌面支持人员进行讨论。也要与架构师和专业规划人员进行探讨。你应该从这些讨论中得知他们从IT的观点考虑数据仓库的意见。从中了解是否有现存的构架文件、IT原则、标准文件、企业数据中心等。

关于数据仓库并没有太多现存的标准，但对于许多组件来说是有标准的。下面是一些需要牢记的标准：

●中间设备－－开放数据库连接（ODBC）、对象链接与嵌入（OLE）、对象链接与嵌入数据库（OLE DB）、数据通信设备（DCE）、对象请求代理（ORB）和数据库编程（JDBC）

●数据库连接－－ODBC, JDBC, OLE DB, 和其它。

●数据管理－－ANSI SQL 和文件传输协议（FTP）

●网络访问－－数据通信设备（DCE）、域名服务器（DNS）、和轻量目标访问协议（LDAP）

无论它们支持的是哪种标准，主流的数据仓库工具都受元数据所驱动。然而，它们通常并不互相共享元数据而且在开放性上也所有不同。所以，要仔细研究和购买工具。架构师是你选择适当工具的向导。

一个数据仓库架构需要具体到怎样的程度呢？这个问题要问的是：它有足够的信息可以让一个有能力的团队来建立一个满足业务需求的数据仓库吗？至于它要花多长时间，随着更多的人加入到它的开发中来（即：它变成了“复杂的技术策略”）和生成的系统需要变得更复杂（即“复杂的功能”），架构的完成会呈指数倍的发展。

像数据仓库中几乎所有的事情一样，一个迭代进程是最好的。你不能一次做完所有的事情因为它太大了，而且业务不能等。同时，数据仓库的市场还没有完备。所以从流程中影响大、高价值部分开始，然后，利用你的成功去带动另外的阶段。

总结：

综上所述，建立一个数据仓库架构的好处如下：

●提供了一个组织结构的框架-－架构对什么是单独的组件、如何将它们组装在一起、谁拥有什么部分以及优先次序的问题划出了界线。

●提高了灵活性和维护性-－让你能快速加入新的数据来源，接口标准允许即插即用，模型和元数据允许影响分析和单点的变化。

●更快的开发和再利用-－数据仓库开发者更能够快速了解数据仓库流程、数据库内容和业务规则。

●管理和通信的工具-－定义未来方向和项目范围，确定职务和职责、对供应商传达需求。

●协调多项任务同时进行——多种、相对独立的工作有机会成功地集合。

我们建议公司对准业务需求而又要务实一些。时刻跟上数据仓库产业的进步是很重要的。最后，请记住架构总是存在的：或隐性或具体的，或无计划或计划内的。经验证明，有一个计划内和具体的架构会使数据仓库与商业智能项目有更多的成功机会。

1.2.5如何规划数据仓库中的数据清洗

可以将数据仓库的数据清洗比做政客们募集资金的过程。几乎不存在任何一方独立存在的可能性。数据清洗往往是数据仓库项目中时间最密集的，最有争议的进程。

什么是数据清洗？

“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理（OLAP）、数据挖掘和关键绩效指标（KPI）所产生的报表。”

在哪里会用到数据清洗的一个简单例子是，数据是如何储存在不同的应用系统中的。例如：2007年3月11号可以储存为“03/11/07”或“11/03/07”及其他格式。一个数据仓库项目将数据输入数据仓库之前需要将不同格式的日期转变成一个统一的格式标准。

为什么要进行提取，转换和加载（ETL）？

提取、转换和加载（ETL）指的是一种可以帮助确保数据在进入数据仓库之前被清洗过（即符合标准）的工具。供应商提供的提取、转换和加载（ETL）工具更加容易被用来管理持续进行的数据清洗。供应商提供的提取、转换和加载（ETL）工具坐镇在数据仓库之前，监测输入的数据。如果它遇到了程序指定转换的数据，它就会在数据载入数据仓库之前对其进行转换。

提取、转换和加载（ETL）工具也可以用来从远程数据库或者通过自动设定的事件或通过人工干预提取数据。有替代工具可以替换ETL工具，这要取决于你项目的复杂性和预算。数据库管理员们（DBA）可以编写脚本来完成提取、转换和加载（ETL）的功能，通常能满足较小的项目需要。微软的SQL服务器都有一个免费的被称为数据转换服务（DTS）的提取、转换和加载（ETL）工具。数据转换服务（DTS）是一款不错的免费工具，但它确实有其局限性，尤其是在数据清洗的持续管理上。

提取、转换和加载（ETL）的供应商有Informatica、IBM（Cognos）及Pentaho等。在对所有产品进行选择时，在接触供应商之前列出你认为对一个提取、转换和加载（ETL）供应商的需求。从咨询顾问那里获得服务还是值得的，它能在产品的选择上帮助你进行需求分析。

数据清洗和提取、转换和加载（ETL）对一个数据仓库项目的成功有多重要？

在数据仓库产生的结果符合利益相关者的期望值时，提取、转换和加载（ETL）通常被忽视和置于脑后的。结果是，提取、转换和加载（ETL）冠以数据仓库项目的“沉默的杀手”的称号。大多数数据仓库项目由于数据清洗方面的意外情况而体验到延迟和预算超支的情况。

如何规划数据清洗？

及早开始对将要进入数据仓库的数据进行筹划是很重要的，这一筹划可能会随着项目的成熟发展而改变，但当你需要获得数据拥有者在没有事先通知的情况下不会改动数据的格式的承诺时，这些文件的踪迹就变得极为有价值。

创建一个需要提取、转换和加载的数据列表。为极有可能需要转换格式的数据设立一个独立的列表。对是否需要购买提取、转换和加载（ETL）工具做出决定，并留出一个全面的预算。从该领域的专家那里听取建议并评估产品是否适用于你企业的整体技术层次。

推荐第5篇：mtt数据处理

实验一急性毒性试验（改进寇氏法）

一、目的与要求

1、学习急性毒性试验的方法，掌握LD50的测定方法。

2、观察马钱子的毒性反应。

二、实验原理

急性毒性试验是指受试动物在一次大剂量给药后所产生的毒性反应和死亡情况。药物毒性的大小，常用动物的致死量来表示，因为动物生与死的生理指标较其他指标明显、客观、容易掌握。致死量的测定也较准确。在测定致死量的同时，还应仔细观察动物是否出现耸毛、倦卧、耳壳苍白或充血、突眼、步履蹒跚、肌肉瘫痪、呼吸困难、昏迷、惊厥、大小便失禁等不良反应。

致死量的测定常以半数致死量为标准。半数致死量是指能够引起试验动物一半死亡的剂量，妈药物致死量对数值，用符号LD50表示。由于LD50的测定较简便、可靠，而且稳定，现已成为标志动物急性中毒程度的重要常数。LD50测定的方法有多种，如Bli法、改进寇氏法、简化机率单位法、累积插值法、机率单位-加权直线加归法等等。以上方法虽各有特点，但都有共同的要求：

（1）动物：均选用体重17～22克健康小鼠（同次试验体重相差不得超过4克），或选用体重120～150克（同次试验体重相差不得超过10克）健康大鼠作实验动物。性别相同或雌雄各半。

（2）给药途径：要求采用两种给药途径，其中必须有一种与临床所采用的相同。溶于水的药物沿须测定静脉注射的LD50。值得提出的是，临床上虽然不用腹腔注射，但动物实验因腹腔注射给药方便，吸收迅速，颇为常用。若供试药物在腹腔内不引起强烈刺激或局部变化（如纤维性病变等），那么啮齿类动物腹腔注射的LD50，参数很接近于静脉给药的LD50。口服制剂无法通过注射给药途径时，可只用胃肠给药。

(3)试验周期和观察指标：给药后至少观察7天。观察期间应逐日记录动物的毒性反应情况和死亡动物的分布。

（4）正式试验前，均须先用少量动物进行预试试验，大致测出受试药物引起0%和100%死亡率的致死量范围，然后安排正式试验。正式试验组数不得少于三个剂量组，一般选用4～5个剂量组，每组动物数为10～20只。

（5）报告LD50时需注明实验动物的种属及品系、性别、体重范围、给药途径及每个剂量组动物数等，还需注明受试药物的配制方法、给药剂量、各组剂量间的比值（一般以0.65～0.85为宜）、给药容积、观察时间及计算方法。还须标出LD50的95%可信限。

三、实验材料和试剂

动物：小鼠药品：马钱子水煎液

器材：注射器、灌胃针头、鼠笼

四、操作方法

1、预试实验：预试实验目的是为了找出引起动物0%（Dn）和100%（Dm）死亡的剂量，以便安排正式实验。预试实验一般采用少量动物（6～9只小鼠）进行，将动物随机分为3组，组间剂量比值一般以1：0.5或1：0.7为宜。灌服或腹腔注射量以0.2ml/10g体重为度。预试实验应进行到找出Dn和Dm后方可安排正式实验。

2、正式实验：在预试实验测得Dn和Dm的剂量范围内设4～6个剂量组，最多10组。最理想的结果是使LD50的上下各有2～3组。组数愈少，准确性愈差。各剂量组的动物要求相等，至少10只动物（分组时应注意分层随机均匀化的原则）。本实验要求最大反应率为100%，最小反应率为0%，或至少反应率接近100%或0%。组间剂量比值（1：K），常用1：0.8或1：0.75。如实验中出现相邻剂量有重复的100%和0%反应率时，应将靠边的组弃去不计，使大剂量组只有一个100%的反应率，小剂量组也只有一个0%的反应率。

分组完毕和各组剂量算出后，分组灌服或注射不同剂量的受试药物。为能得到理想的结果，实验最好从中间剂量开始，以便从最初几个剂量组动物接受药物后的反应来判断两端剂量是否合适，便于调整剂量和组数。为了提高实验的精确度和节省药物，受试药物可按“低比稀释法”配置。即使每只动物的用药体积相等（0.2ml/10g），而溶质不等。给药后逐日观察并记录中毒反应、死亡率和死亡情况。

五、实验结果记录与计算

马钱子水煎液对小鼠死亡率的影响

组别

剂量g/kg(d)

1 2 3 4

Logd(X)

死亡数死亡率（P）

P-P2

公式1:（logLD50）X50=Xm-i(ΣP-0.5)

则LD50=log-1 X50

公式2：Sx50=i*(pp2)/(n1)公式3：LD50的95%可信限=lg-1（X50±1.96S X50） LD50的平均可信限= LD50±（LD50高限- LD50低限）/2 Xm：最大剂量组剂量的对数值

i：相邻两组剂量（d）对数值之差，或相邻两组高剂量与低剂量之比的对数。 P：各组动物的死亡率，用小数表示。 ΣP：为各组动物死亡率的总和。 n：每组动物数。 Sx50：logLD50的标准误。

推荐第6篇：数据处理工作总结

2011年XXX空间数据处理工作总结

2011年XXX水利普查空间数据工作，严格按照《第一次全国水利普查空间数据采集与处理实施方案》要求，以质量为中心，精心组织、周密安排，经过全区普查工作人员的辛苦努力在对数据录入、外业采集及内业标绘等各项工作，达到了上级规定的具体要求，水利普查清查阶段的空间数据处理工作，现将XXX水利普查清查阶段的空间数据处理工作总结报告如下

一、数据处理情况

1、清查数据录入情况

普查办数据处理工作完成如下：一是完成清查数据录入，水利工程128处、经济社会用水调查对象39个、河湖治理清查对象22个、行业能力单位41个、灌区13个；二是完成乡镇典型居民生活用水户调查对象100户、地下水取水井清查对象XXX眼、规模以上地下水水源地XX处；

2、普查静态数据采集、录入情况

通过清查登记、审核对比、查缺补漏、数据处理、普查静态数据获取等工作流程，获取普查静态数据表XXX张，录入普查静态数据表XXXX张、静态指标XXXX个。按照全国水利普查空间数据采集与处理相关技术规定要求，空间数据采集是采用“内业为主、外业为辅”的方法，但为了提高空间数据的精度，最大限度地减小空间标绘的误差，采集小组对所有需要标绘对象的空间数据都进行了外业采集，并按要求规范填写《水利普查空间数据外业采集成果一览表》，对采集的坐标位置进行整理、汇总，采集数据完成GPS空间外业数据采集点XXX处，万亩灌区主干渠系完成普查静态数据采集100%、数据录入100%。

二、空间数据标绘情况

1、内业标绘情况对可以在电子工作底图上直接辨识的清查对象，参照《第一次全国水利普查空间数据采集与处理技术规定》，通过选取工作底图中的相应分类要素，完成该对象在电子工作底图上的位置、形态特征，若分类要素未表达该对象或表达的位置、形态与遥感影像存在较大差异，则结合已掌握的实际信息，以遥感影像为参考，做必要的调整。完成空间数据采集100%、标绘100%。

2、对象关系建立

XXX水利普查数据处理组，依据清查登记成果，结合基础资料等相关信息，利用配发的电子工作底图，借助水利普查空间数据采集处理软件，完成对象空间关系的建立。

三、涉密数据管理

XXX水利普查数据组为切实规范第一次全国水利普查涉密数据的使用管理，保障涉密数据使用安全防止国家秘密、商业秘密和个人隐私等泄露，根据《中华人民共和国保守国家秘密法》、《中华人民共和国保守国家秘密法实施办法》、《中华人民共和国统计法》和《水利部保密工作管理规定》等有关法规，结合我区水利普查工作实际制定《普查涉密数据日常安全管理细则》、《XXX普查涉密信息保密管理制度》并严格执行。对普查相关人员进出保密机房实行在册登记。

四、下一步工作打算

普查办数据组下一步打算，一是要严格按照普查时间节点要求，做好普查表数据审核、平衡处理、内业标绘工作。二是对今年工作经验教训进行系统总结，重点是完善各专项普查对象的空间关系建立。三是对空间数据，做到科学分析、认真标绘。今后我们将在市普查办数据专项组的领导下，按照水利普查方案，严把时间节点，顺利完成XXX第一次全国水利普查工作空间数据处理工作。

推荐第7篇：数据处理考纲

全国残疾人岗位精英职业技能竞赛规则

计算机操作员（数据处理）

全国残疾人岗位精英职业技能竞赛组委会

2012年7月

竞赛标准

一、竞赛目的

考查参赛选手对于数据处理相关基础知识的掌握程度，使用电子表格进行数据处理的能力，以及在规定的时间内，分析理解竞赛题目给出的数据处理应用系统需求，运用所学数据库语言与工具，以软件工程思想为指导，独立快速完成数据处理程序设计的能力。

二、竞赛任务

竞赛分两部分，第一部分是数据处理的理论试题，为单项选择题，主要考查选手对于数据处理基本知识的掌握程度，内容涉及计算机基础知识、计算机网络、数据库基本概念和Excel电子表格、Acce数据库的使用方法等，占总分的20％；第二部分为实际操作试题，任务1要求选手按要求处理给定的Excel电子表格，得出需要的数据和图表结果，任务2要求参赛选手按照题目给定的数据处理需求，使用数据库管理系统Acce建立数据库，开发出一套符合要求的数据库应用系统，每完成一项操作或实现某一功能均有相应得分。占总分的80％。

三、要求

要求参赛选手掌握以下基本知识和技能：

1．熟练掌握Excel电子表格软件的使用方法，能进行排序、分类汇总、筛选、计算和统计绘图等操作。

2．了解数据库的基础知识，熟悉SQL语言,E-R图，掌握数据库的基本操作和数据访问技术（数据库的结构设计与修改，多表间一对多与多对多的关联处理，数据的增加、删除、修改和查询功能，数据的统计和排序功能，数据库安全设计等）。

3．熟练掌握Microsoft Acce数据库系统，数据表创建、查询、视图、导入、窗体设计、报表输出等，能使用Acce开发数据处理应用程序。

4.熟悉Windows操作环境，可以独立进行编程工作；人机交互界面设计美观易用。

5.本次竞赛不再提供其它编程环境。

四、评分标准

注：根据具体题目评分标准细则出现分数相同的情况时，以用时最少的选手排名在前。

五、设备和工具材料

六、竞赛时间

本项目竞赛时间为180分钟（3小时），其中理论测试时间30分钟（0.5小时），实际操作时间150分钟（2.5小时）。

七、注意事项

1．所有参赛选手不得携带任何存储媒体（如磁盘、光盘、移动硬盘、U盘，具有存储功能的手机等）、任何无线上网设备和参考资料进入赛场。竞赛现场的硬盘装有保护卡，关机或断电后不能保存数据，选手必须将开发好的程序、数据库

保存在监考人员指定的分区和文件夹。建议选手及时保存数据。

2．竞赛组委会有权在必要时对竞赛任务、评分标准等进行修改，并及时在官方网站上公示。

3．参赛选手须正确操作、使用竞赛组委会现场提供的设备及工具，以免发生损坏。进入赛场后，及时检查计算机和软件，如有问题，立即向工作人员举手示意。

4．评判时如出现参赛选手得分相同的情况，将考虑作品完成的速度。

5．竞赛标准的解释权归竞赛组委会所有。

推荐第8篇：运营分析报告数据处理流程

运营分析报告数据处理流程

1、将每日运维发来的四张表累加，整月数据加总完后，如有字符型数据，将字符型数据转

换成数字型。

2、注意串行数据，运维导出的txt数据，会有少数数据串行，可以在最后一列加字段，筛

选出串行数据，调整成正确格式。

3、将每条数据分类贴标签，根据通讯录中的销售人员划分事业部，及下属部门，如李某某，

电话会议运营部通信增值事业部，体现在插入的列中。需要注意离职人员的客户归属，要和运维部门的刘文朝确认。

4、测试数据确认。销售人员含bjyt，账户含yuantel.com，客户名称含远特、yuantel，电话

事业部、北京等不正常客户名称的，都是测试数据。

5、传真部共享 5元及以下划到测试数据中，5元以上划到老客户运营部。

6、收入计算前要刨除测试数据、电话会议表中的数据会议包月版数据

推荐第9篇：GPS测量与数据处理集中实习

GPS测量与数据处理集中实习

一、目的和要求

为巩固所学知识，通过集中实习，进一步深入了解GPS的基本原理以及在测绘中的应用。内容包括GPS静态控制测量、GPS动态地形测量、GPS RTK地形测量和工程放样以及相应的数据处理。

二、内容和形式

1.GPS静态测量及数据处理

(1) 依照任务要求、测量规范或行业规范等，确定布网方法、网的精度，编写技术设计书；

(2) 进行选点，绘制网设计图；

(3) 设计测量安排表（测量时间、搬站时间、人员分配）；

(4) GPS静态外业作业：找点、仪器架设、天线高测量、卫星状态、电源状态的监视。记录点名、时段、天线高、卫星状态和特殊情况；

(5) 安装数据处理软件；

(6) 下载数据和检查数据，进行RINEX格式转换；

(7) 建立坐标系统；

(8) 设置基线处理参数，进行基线解算；

(9) 进行基线解算结果的质量控制；

(10) 设置网平差参数，进行网平差；

(11) 进行网平差结果的质量控制；

(12) 编写技术总结。

2.GPS RTK 测量和放样

RTK测量

(1) 架设基准站设置有关参数；

(2) 创建流动站测量文件和坐标系统，设置有关参数；

(3) 设置流动站动态测量参数；

(4) RTK走走停停测量

(5) RTK连续测量地形点

RTK工程放样

(1) 架设基准站设置有关参数；

(2) 创建流动站测量文件和坐标系统，设置有关参数；

(3) 工程设计：按点、直线、缓和曲线、圆曲线设计

(3) 设置流动站放样测量参数；

(4) 按点、直线、缓和曲线、圆曲线放样工程。

3.地形图绘制

(1) 下载RTK测量数据；

(2) 检查点名和图形代码；

(3) 检查点位精度；

(4) 绘制平面图；

(5) 添加属性、文字、符号指示；

(6) 绘制等高线图；

(7) 输出地形图。

三、实习地点

外业实习地点武汉大学校区内，内业实习地点在测绘学院实验中心，每个学生安排有不同的GPS接收机和一台计算机，2 周内完成全部实习任务。

四、时间安排

第一周：完成GPS静态控制测量实习的测量设计、测量实施、数据处理和结果分析。第二周：完成GPS动态地形测量设计、测量实施、数据处理和绘制地形图；完成工程设计、工程放样、放样点精度统计。

五、考核

考核的内容包括实习表现、实习成果、实习报告和面试；考核成绩以优、良、中、差四个等级或百分制进行评定。

推荐第10篇：关于原始记录、数据处理、检测报告的

关于原始记录、数据处理、检测报告的规定原始记录

1、原始记录是检测结果的如实记载，必须按规定格式填写，要求字迹清晰，不得铅笔填写，内容应填写完整，应有检测人员和符合人员签名。

2、始记载不容许随意更改，如确要修改，作废数据应划两道水平线，将正确数据I +57Ljt: I--t书-hn\' ri mfr A Gn --A

3、始记录在试验中不允许外单位查阅，试验完毕后归档，如需借阅，按资料管理｛伟」度办理手续。数据处理

4、有测试数据的原始记录，应如实记下所要求达到的精度数据，不得进行修约，一只在统一计算时进行一次性修约。

5、字修约遵循下列规定：

1》、拟舍弃数字的最左一位数字小于5时，则舍去，即保留的各位数字不变，例：将13.145修约到一位小数，得13.1。

2》拟舍弃数字的最左一位数字大于5或者是5时，而其后跟有并非全部为。的数字时，则进一，即保留的末位数字加一。例：将12.68修约到个位数，得13；将10.502修约到个位数，得11。 3》拟舍弃数字的最左一位数字为5,而后面无数字或皆为0时，若所保留的末位数字为奇数（

1、

3、5, 7, 9）则进一，为偶数（2, 4, 6, 8, 0）则舍弃。例：将0.350修约到一位小数，得0.4；将0.325修约到两位有效数字，得住咒。

4))负数修约时，先将它按前三条规定进行修约，然后在修约值前面加负号。例：将一36.5修约成两位有效数字，得一36；一将一235修约到十位数，得一24*l0a 5》当试验结果数字及其后一位计两位数的大小：若小于25则舍去，末位

数写‚0’，；若大于或等于25，小于75，则末位数改为5；若大于或等于75，则将末位数前加\"1’，，末位数写‚0’，。

6》、当试验结果要求末尾精度位‚I‛时，则考察末尾数后数字的大小；当末尾数后第一位等于5，其后数字全为‚0‘时，则考察末尾数字的情况后再做处理；末尾数字为偶数时，舍弃，末尾数字为原偶数；当末尾数字为奇数时，末尾数增加‛1‘，该为偶数。检测报告

I、检测报告是检测质量优劣的集中反映，必须保证其内在和外在质量。

1）、检测报告采用统一表格，内容填写完整，数据准确，签名齐全，文字简洁，字迹清楚，结论正确。

2）、全部检测数据使用法定计量单位。 3）、检测报告一律由检测人员用碳素墨水或档案用签字笔填写不得涂改。4）、检测报告由专人妥善保存，待至工程竣工后，整理装订交归业主。

2、检测报告的审批

1）、检测报告由检测人员填写签名后，由试验室主任符合签名，然后由质量保证负责人审核、签名。

2).在审核中发现错误，应由原填写人重新填写，审核人不得自行更改。3）、经审核，加盖试验资料专用章后，于原始记录一起保存。

3、检测报告的更改

当发现报告有错误时，应重新发一份报告代替原始报告，并在新报告上注明所代替报告的编号、销毁原报告。

第11篇：数据处理学习总结

数据处理与分析学习总结

通过对《数据处理与分析》这门课的学习，对试验设计与数据处理有了一定的了解。明白了什么情况下进行什么样的数据分析无试验，进一步学会了合理处理数据。在这门口的学习中，也对过去学过的知识进行了回顾，也学会了很多有用的新知识。在老师的悉心教导下有了长足的进步，更是对自己的人生观、价值观进行了更新。

在这一个学期这门课程的学习中，同学们互相帮助，大家合作的很愉快，这样的氛围很好，让我感觉很舒服，有一种假的感觉，这样能学到知识，有能很开心的学习很好啊！

1.正交试验

正交表定义：设A是n*k矩阵，他的第j列元素由数字1，2，3…，m所构成，如果矩阵A的任意两列都搭配均衡，则称A是一个正交表。

两个性质：

（1）每一列中各水平出现的次数相同。

（2）任意两列所构成的水平对中，每个水平对重复出现的次数相同。正交试验设计统计分析方法大致可分为两种：

一种是直观分析法（或极差分析法），另一种是方差分析法（或称统计分析法）。本章介绍直观分析法，简单易懂实用性强，应用广泛。而方差分析法精度较高。

正交试验方案设计：

第一步，首先在试验前，要明确试验解决的问题，并针对问题确定相应的试验指标。

第二步，分析影响指标的各种因素，并选择合适的因素水平，制定因素水平表。

第三步，根据因素与水平的多少来选用合适的正交表，并进行表头设计。第四步，确定试验方案，做试验、填数据。

第五步，计算分析试验结果，选取优化方案。可以分为以下几个步骤：

（1）直接分析；

（2）计算分析；

（3）画出因素与指标关系即趋势图；

（4）根据极差R大小排出因素主次顺序；

（5）初选最优水平组合；

（6）参考实际情况选取最优水平组合。

2.试验设计的方差分析

方差分析的概念和意义：

简单地说，方差分析是把试验观测数据分解为各个影响因素的波动和误差波动，然后将它们的平均波动进行比较。其中心点是把试验观测数据总的波动分解为反映因素水平变化引起的波动和反映试验误差引起的波动两部分。前者是由于因素本身的离散性而存在的方差，简称为产品方差，它是产品所固有的；后者是

由于试验误差(也称残差)而引起的方差，简称为试验方差，它是由试验中的随机因素所引起的。

方差分析亦即把观测数据的总的偏差平方和分解为反映必然性的各个因素的偏差平方和与反映偶然性的误差偏差平方和，并计算比较它们的平均偏差平方和，以找出对试验观测数据起决定性影响的因素(即显著性或高度显著性因素)作为进行定量分析判断的依据。

方差分析能够为分析提供一个标准，判断各因素的作用是否显著，从而弥补了直观分析法的不足。

单因素试验的方差基本概念：

条件误差：由于试验条件不同而引起的差异。

试验误差：由试验中总存在原材料、设备工具、操作方法、测试技术等微小变化的偶然因素所引起的，即同一条件下，存在偶然因素而引起的差异。

方差分析法：为了考察某个因素对指标的作用，必须将总误差分解为条件误差和试验误差，并与之比较，作出因素对指标的作用是否显著的结论。

3.拟水平法

当遇到水平数不相同的正交试验，而没有现成的混合正交表供使用时，并且水平数较多的因素占多数时，可以选用水平数较多的正交表，将水平数较少的因素虚拟一些水平，使之能安排在水平数较多的正交表中进行试验，称为拟水平法。组合法：

当遇到水平数不相同的正交试验，而没有现成的混合正交表供使用时，可选用水平数较多的正交表，将水平数较少的因素进行两两搭配，从中选出几种搭配组合因素，使之能安排在水平数较多的正交表中进行试验，称为组合法。直和法：

当遇到因素较多而水平数又不相等的正交试验，如果用一张正交表来安排试验，必然试验次数很多．需要的周期很长，同时也不可能在试验过程中及时发现问题和解决问题。这时，可把一个试验分阶段进行。先把一部分因素和水平安徘在第一张正交表上进行试验，若试验的结果达不到要求，再利用这些结果提供的信息，在第二张正交表上安排下一阶段的试验。最后，把两次试验结果进行综合分析得出结论，称为直和法。

裂区法（分割法）：

当遇到因素比较多，情况比较复杂的大型试验，由于每个因素水平重复的难易程度不同，有的水平重复起来比较困难，如果不区别，都按常规的正交试验设计方法，让他们都重复同样的次数，显然是不妥当的。为此，可利用每张正交表按列的次序被分成若干组，按因素水平重复的难易程度，自难至易从第一组起逐级安排试验，既能保持正交表的正交性，又能对因素区别对待，使水平重复困难的因素少重复，称为裂区法（又称分割法）。

直积法：

在冶金、化工、建筑等工业设计中，所考察的因素通常可分两类：一类是配方因素（如原材料条件、配料比等），二类是工艺因素（如操作方法、加工条件、时间变化特性等）。试验目的往往既要寻求好的配方，又要寻求适合于这种配方的加工工艺，因此，总希望较多的考察这两类因素间的交互作用，这时常采用直积法。

第12篇：数据处理知识点总结

试验设计与数据处理是以概率论、数理统计及线性代数为理论基础，研究如何有效的安排试验、科学的分析和处理试验结果的一门科学。

试验考察指标依据试验目的而选定的衡量或考察试验效果的特征值.

试验实际考虑采用的（某一）因素变化的状态或条件的种类数称为因素水平，简称水平误差控制的三原则，费歇三原则

1）重复原则2）随机化原则3）局部控制原则：

试验设计的步骤

1）问题的识别和问题的正确提出，2）因素和水平的合理选取；

3）响应变量的选择4）试验设计方法的比较、研究和选择；

5）进行试验操作采集试验数据；6）用统计学方法分析试验数据；

7）写出有关试验结果的结论或工作建议.

科学合理的试验方案应满足以下三点:

（1）试验次数尽可能少；

（2）便于试验数据的分析处理；

（3）试验结果可信度高

按试验中处理因子的多少试验设计方法一般可以分为：

（1）单因素试验（2）多因素试验

实验考察指标可分为：定量指标和定性指标

定量指标：可以通过实验直接获得，便于计算和进行数据处理。

定性指标：不易确定具体的数值，为便于用数学方法进行分析和处理，必须是将其数字化后进行计算和处理。

因素：凡是能影响实验结果的条件或原因，统称为实验因素（简称为因素）

水平:因素变化的各种状态和条件称为因素的水平

总体：我们所研究对象的某特性值的全体，又叫母体；其中的每个单元叫做个体。总体根据个体的有限和无限性分为有限总体和无限总体。

自总体中随机抽出的一组测量值，称为样本，又叫子样。样本中所含个体（测量值）的数目，叫做样本容量，即样本的大小。

抽样：从总体中随机抽取若干个个体观测其某种数量指标的取值过程称为抽样。

样本空间：就样本而言，一次抽取、观测的结果是n个具体数据x1，x2，„，xn，称为样本（X1，X2，„Xn）的一个观测值，而样本观测值所有可能取值的全体称为样本空间。重复性——由一个分析者，在一个给定的实验室中，用一套给定的仪器，在短时期内，对某物理量进行反复定量测量所得的结果。也称为室内精密度。

再现性——由不同实验室的不同分析者和仪器，共同对一个物理量进行定量测量的结果。也称为室间精密度。

极差：一组数据中最大值与最小值之差，叫极差。又叫全距、量距或范围。

误差——测量值和真值的差数

偏差——测量值和平均值的差数。也叫离差。

偏差平方和：测量值对平均值的偏差的平方的加和。

方差:是测量值在其总体均值周围分布状况的一种量度，方差表征随机变量分布的离散程度。总体方差的定义是：测量值对总体均值的误差的平方的统计平均，记作：

2 =1(xini1n)2（n→∞）

标准偏差（标准差）：方差的平方根的正值

自由度：是指可以自由取值的数据的个数。

相对标准偏差(变异系数)：是样本标准偏差与平均值的比值，表示偏差值与平均值的相对大小。

测量次数n、样本平均值和样本标准偏差s，是表达测量结果的三个要素。

标准参考物质通常指的是由公认的权威机构发售的，带有证书的物质，它的一种或多种特性已被确定，可以用来校准测量装置或验证测量方法。在我国，通常把标准物质叫作标准试样或标样。

有效数字就是在测量中所能得到的有实际意义的数字(只作定位用的”0”除外)。 1 在记录一个测量所得的数量时，数据中只应保留一位不确定数字。

有效数字是包括全部可靠数字以及一位不确定数字在内的有意义的数字的位数。

2 在运算中弃去多余数字时，一律以“四舍六入五留双”为原则，而不要“四舍五入”。 3 几个数相加减时，保留有效数字的位数，决定于绝对误差最大的一个数据。

4 几个数相乘除时，以有效数字位数最少的为标准，即以相对误差最大的数据为标准，弃去过多的位数。在作乘、除、开方、乘方运算时，若第一位有效数字等于或大于8，则有效数字可多计一位（例如：8.03毫升的有效数字可视作四位）。

5 在所有计算式中，常数π，e的数值，以及，1/2等系数的有效数字位数，可以认为无限制，需要几位就可以取几位。

6 在对数计算中，所取对数位数，应与真数的有效数字位数相等。例如，pH12.25和[H+]=5.6×10-13M; Ka=5.8×10-10, logKa=-9.24等，都是两位有效数字。换言之，对数的有效数字位数，只计小数点以后的数字的位数，不计对数的整数部分。

7 如果要舍去的不止一位数，而是几位数字，则应该一次完成，而不应该连续修约。

8 在修约标准偏差的值或其它表示不确定度的值时，修约的结果通常是使准确度的估计值变得更差一些。例如，标准偏差s=0.213单位，取两位有效数字时，要入为0.22单位，而取一位有效数字时，就要入为0.3单位。

9平均值的有效数字位数，通常和测量值相同。当样本容量较大，在运算过程中，为减少舍入误差，平均值可比单次测量值多保留一位数。

对于异常数据的取舍一定要慎重，一般处理原则如下：

在试验过程中，若发现异常数据，应停止试验，分析原因，及时纠正错误；

试验结束后，在分析试验结果时，如发现异常数据，则应先找出产生差异的原因，再对其进行取舍；

在分析试验结果时，如不清楚产生异常值的确切原因，则应对数据进行统计处理再做取舍；对于舍去的数据，在试验报告中应注明舍去的原因或所选用的统计方法。

检验可疑数据，常用的统计方法有拉依达(Pauta)准则、格拉布斯(Grubbs)准则、狄克逊(Dixon)准则、肖维勒(Chauvenet)准则、t检验法、F检验法等；

对随机现象的观察、记录、试验统称为随机试验。

样本空间定义：随机试验E的所有结果构成的集合称为E的样本空间，记为S={e}，称S中的元素e为基本事件或样本点．

一般我们称S的子集A为E的随机事件A，当且仅当A所包含的一个样本点发生称事件A发生。随机事件：在特定情况下可能发生也可能不发生的事件

必然事件:在一定条件下必然出现的现象称为必然事件。

不可能事件：某一事件一定不发生，则称为不可能事件。

随机变量取得不同值的概率是不同的，随机变量的概率分布就是讨论随机变量的总体分布情况，即某一随机变量可以取哪些值以及取这些值的可能性概率有多大。

概率密度函数对于随机变量X的分布函数F（x），存在非负函数f(x) ，使对于任意实数x有

f(x)dF(x)

dx则称f(x) 为随机变量x的概率密度函数。

抽样又分为复置抽样和不复置抽样。

复置抽样 → 将抽得的个体放回总体继续参加抽样。

不复置抽样 → 抽得的个体不放回总体参加后续的抽样。

中心极限定理。若随机变量x有数学期望E（x）＝μ，方差D（x）＝σ2，且样本观测值为x1，x2，„ xn，则样本平均值随样本数n的增大，逐渐接近正态分布，即

中心极限定理说明，只要数学期望和方差为有限值，不论X遵从什么分布，其样本平均值的分布将是正态的。

置信度就是表示人们所作判断的可靠把握的程度。置信度有两重含义，一是置信水平，一是置信区间。

约定真值：世界各国公认的几何量和物理量的最高基准的量值

理论真值：设计时给定或用数学、物理公式计算出的给定值

相对真值：标准仪器的测得值或用来作为测量标准用的标准器的值

系统误差是由某种确定的因素造成的，使测定结果系统偏高或偏低；当造成误差的因素不存在时，系统误差自然会消失。当进行重复测量时，它会重复出现。

随机误差又称偶然误差，它是由一些随机的、偶然的原因造成的。

准确度：表示分析结果与真实值接近的程度。

精密度：表示各次分析结果相互接近的程度。

第一类错误如果H0成立，但统计量的实测值落入否定域，从而作出否定H0的结论，那就犯了“以真为假”的错误 .

第二类错误如果H0不成立，但统计量的实测值未落入否定域，从而没有作出否定H0的结论，即接受了错误的H0，那就犯了“以假为真”的错误 .

为衡量试验结果的好坏或处理效应的高低，在试验中具体测定的性状或观测的项目称为试验指标试验

试验中所研究的影响试验指标的因素叫试验因素

因素所处的某种特定状态或数量等级称为因素水平，简称水平

事先设计好的实施在试验单位上的具体项目叫试验处理，简称处理。

在试验中能接受不同试验处理的独立的试验载体叫试验单位。

在试验中，将一个处理实施在两个或两个以上的试验单位上，称为处理有重复；一处理实施的试验单位数称为处理的重复数。

单因素方差分析，是指仅分析一个因素对试验结果的影响是否显著的问题。

试验设计是指以概率论与数理统计学为理论基础，为获得可靠试验结果和有用信息，科学安排试验的一种方法论，亦是研究如何高效而经济地获取所需要的数据与信息的分析处理方法。

用来衡量试验效果的质量指标(如产量、成活率、废品率、转化率等)，称为试验指标。试验设计的目的:找出影响试验指标值的诸因素，或者说是寻找最佳工况．

试验设计的任务:以最小的代价获得最多的信息。

试验设计包括如下三个方面的内容：

(1)工况选择——因素与水平的选取；

(2)误差控制——试验方案的制定； i1limnlimn1nnxi~N(,2)

(3)数据处理——分析试验结果．

交互作用，是指这些因素在同时改变水平时，其效果会超过单独改变某一因素水平时的效果因素的含义：在一个试验过程中，

影响试验指标的因素通常是很多的，通常

固定的试验因素在试验方案中并不称为因

素，只有变化的因素才称为因素；

试验误差控制原则：随机化，重复测量，局部控制

全面试验法：将三因素三水平组合搭配而成的各种试验条件全面进行试验而进行比较选优的方法。

优点：能全面剖析出事物内部规律性。

缺点：试验次数太多，当水平较多时试验量是惊人的。

正交表具有以下三个主要特点：正交性；代表性；综合可比性

正交表的三个基本性质中，正交性是核心，是基础，代表性和综合可比性是正交性的必然结果

利用正交表来安排试验时，一般原则如下：

1．明确试验目的，确定评价指标

2．挑选因素

3．确定各因素的水平

4．制定因素水平表

5．选择合适的正交表

多指标的分析方法

综合平衡法

综合评分法

回归分析——研究变量与变量之间关系的数学方法。

均匀设计

是一种适用于多水平的多因素试验设计方法，具有如下特点：

1 试验点分布均匀分散

2 在处理设计中各个因素每个水平只出现一次

3 适用于多水平多因素模型拟合及优化试验

4 试验结果采用回归分析方法

基本步骤

1 确定试验指标，将各个指标综合分析。

2 选因素、选水平。(均匀分散原则)

3 选择均匀设计表。(关键一步)

4 试验结果统计分析。(没有整齐可比性)

第13篇：图书采访数据处理

图书采访数据处理

【摘要】本文结合本人工作实践，以汇文图书采访系统为例，介绍了有关图书采访数据的处理技巧。

【关键词】图书；采访；数据处理

Book Interview Data Proceing

CAI Shi-lian

（Beijing University of Civil Engineering and Architecture， Beijing 102612， China）

【Abstract】Combined with my practice， the paper tintroduced techniques of Book Interview Data Proceing as an example of Huiwen Books interview systew .

【Key words】Book； Interview； Data Proceeing

0 引言

提高纸质资源的利用率，使之与电子图书优势互补，是当前图书采访工作思考的问题。馆藏文献资源建设的关键主要取决于文献采访质量，只有根据图书馆性质和任务、经费、读者需求、馆藏状况、服务功能、管理制度等方面实际，采选符合学校教学与科研活动需要图书，才能广泛地吸引读者。在图书馆自动化管理系统下，图书采购首先进行数据处理，将MARC征订数据和非MARC征订数据转入系统，然后查重、圈选、发订生成订单。把订单通过邮件或QQ发给书商配书。笔者根据自己图书采访实践，以汇文采访系统为例，浅谈关于图书采访数据的处理技巧。

1 图书采访模块介绍

图1是图书采访模块所包括的主要内容。

1.1 书商代码设定

1）在“汇文文献信息系统服务系统Libsys5.5-采访”里点击“系统”菜单“书商代码”按钮，将出现“书商代码管理”页面，点击“新增”按钮，出现“代码新增”页面如图2。填写界面的各项信息，点击“确定”按钮，完成“书商代码”设定。注意：新增三位数与前面系统里不能重复，新增有问题可修改，不再操作了可删除。

图2

2）回到“系统”菜单“我的书商”出现页面（这个是双击右侧后的结果），选中右侧“北京百万庄图书大厦有限公司”双击移到左侧，点击“确定”，点击“征订目录”按钮征订目录下显示“北京百万庄图书大厦有限公司”，如图3所示。

1.2 数据转入

数据转入包括MARC征订数据转入和非MARC征订数据转入。

1）MARC征订数据转入

在“汇文文献信息系统服务系统Libsys5.5-采访”里点击 “征订”，点击“MARC征订数据转入”按钮，在弹出的MARC征订数据转入页面，点击“新增批次”按钮，填写页面信息，批次是随意的。点击“浏览”按钮，出现“MARC浏览页面”将书商发来的数据在机器上存放的位置找出来，“选中”弹出页面如图4，点击“打开”，点击“确定”，出现要转入“MARC数据”预览页面，检查准确无误后，点击“转入”按钮出现页面图5。

认真填写图5所示“征订转入设置”页面信息。注意：征订目录号BWZ20160307是之前拟定的，不是随意的，长度在14位之内，征订截止期在转入数据之时往后推一点。点击“确定”，回到“征订目录”下“百万庄图书大厦有限公司”双击“BWZ20160307”，所有数据显示在系统的右侧。

2）非MARC征订数据的转入

在点击“征订”菜单，点击“非MARC征订数据的转入”按钮，首先设定一个格式，通过设定格式，将表格转入汇文系统，选择“书商”，点击“新增转换格式”，给出数据转换类别名，选择“读取格式”按钮，将书商发来的数据在机器上存放的位置找出来，“选中”如图6所示，点击“打开”，点击“确定”按钮，格式设定完成，excel第一行接入“外部字段名”（注意：excel第一行里每一项前面不能有空格，中间不能空格，每一行不能超过4个字），把要转入的“外部字段名”打“√”填写它“对应MARC数据段”和子字段，将数据转入，点击“源文件选择”，有一个MARC预览页面，如图7-8所示，检查准确无误后，点击图8中“确认转入”按钮，接着与上面操作一样，完成转入。

1.3 查重

查重包括订前查重和订后查重。

1）订前查重

把书商给的外部数据转入征订目录中形成征订目录，目标是征订目录，可以对它批查重。批查重是对征订目录数据和书目数据的数据比较，看哪些是订购的，哪些是有馆藏的，书目数据库的数据包括订购、待编、馆藏。可以将重复记录删除。点击“全选”按钮、“批查重”按钮，选择某个书商，某一批次，根据情况选择“前方一致”或“完全匹配”按钮，限定相同文献类型查重如图9，查重结果返回页面如图10，有两种颜色：黑色和红色，黑色记录表示征订目录记录，红色记录表示书目数据库的记录，可当前页面选中记录查看，通过全屏列表显示页面，可以批量删除，即点击“全屏列表显示”，点击“全选重复记录”按钮，点击删除。我馆对征订目录进行两次查重，一次按图书标准号查重，另一次按题名和责任者查重，注意：一定要选校区、总馆如图9。

2）订后查重

如果图书馆有几位老师订购，可能有重复，对订购目录批查重，让工作万无一失，与订前查重不同的是查重目标不是征订目录，而是订购目录。

1.4 圈选并订购

可以单条圈选并订购，也可批量订购。要在征订目录里选中523到536书目，要用多选书目按钮，即把征订目录切换到多选模式，就是图11中按钮。批量订购时，选中要订购的书目，点击“批量自动订购”按钮如图11。

1.5 发订并导出订单（如图12）

2 关于采访数据处理有关问题及解决的问题技巧

2.1 删除退订和删除未到书

采购人员一般要根据书商给的书目信息圈书，没有见到实物，由于书目信息不完整的原因，有时会出现不符合馆藏和读者需求的图书，图书馆会对书商提出确认返回书要求，我馆要求确认返回书：300元以上高码洋、英文版、大字版、高职高专（TU除外）、大开本、线装本、散装试卷、POD定价的书高于原价书请返回确认。书商在配书过程中遇到这种书要返回采访人员，采访人员要在系统做退订处理。订购图书作退订处理后，在批查重中仍显示在订，这时采访人员应该在退订与催缺模块，对退订数据进行批删除。已订图书因故逾期未到，采访人员利用采访模块的催缺与退订功能检索未到（未到全）订购信息，对这些记录进行批量退订、批量删除。

2.2 批量删除批查重结果中的重复记录

批查重结果窗口中，点击“全屏列表”按钮，通过“全选重复记录”、“全选馆藏重复记录”按钮或手工选择相应重复记录进行删除（征订目录查重及订购目录查重都一样处理

2.3 上次退订过书，在下次订购的时候提醒采访员

在做征订目录的时候我们可以把书的isbn号添加到一个筛选列表里，下次导入征订目录做订购的时候可以按照这个列表去掉一部分图书。

2.4 采访人员必须对采访系统显示的查重结果仔细核对

批查重有三种情况各有区别，第一，征订目录批查重――查重目标：某征订目录；查重范围：指定的某个书商征订目录或其他征订目录数据。第二，订前查重――查重目标：征订目录；查重范围：馆藏记录+待编记录+订购记录（即所有正式库记录）。第三，订后查重――查重目标：订购目录；查重范围：馆藏记录+待编记录+其他订购。我馆由于图书采访安排一个采访人员，一般就是订前查重。从2015年9月我馆采访系统由北邮系统换成了汇文系统后，为了更好地去重，除了按标准号查重外，要求按照“题名与责任者”，以“完全匹配”查重，按“题名与责任者”系统查重后，查重结果显示重书情况有三种：一是，出版年相同，出版社不同，如《中西法律传统》两本书，陈景良主编，2014年，分别是北京大学出版社和中国政法大学出版社且分别是第九卷和第十卷，这两本不是重书。二是，出版年不同，出版社相同，如：国际服务贸易两本书，汪素芹主编，分别2011年和2016年，都是机械工业出版社，还有如年刊、年报、年评、年表、年历、年鉴和按辑、按卷出版等，这些书为重书的可能小。三是，出版年不同，出版社不同，如《老人与海》两本书，[美]欧内斯特?海明威著，一本书2007年出版，广州出版社，另一本2009年出版，译林出版社，这类书为重书的可能性要大。采访人员必须对采访系统显示的查重结果仔细核对，不能简单地用“全选重复记录”按钮去删除。

2.5 修改订购目录

如订购目录20160314改成rt20160314，全选被修改的订购目录20160314的订单，点击“改订”按钮，在弹出的页面“订购目录”栏填写“rt20160314”，点击“确定”按钮（如图13）。

【参考文献】

[1]杨守芳.对利用汇文软件统计功能辅助图书采访工作的思考[J].情报探索，2006（12）：126-128.

[2]周伟.汇文系统中采访模块的应用[J].盐城工学院学报（社会科学版），2002（4）：65-66.

[3]曲智斌.浅谈基于汇文 LIBSYS的图书采访信息组织[J].河北科技图苑，2010， 23（1）：41-43.

[责任编辑：杨玉洁]

第14篇：调研数据处理方法：

调研数据处理办法：调研数据显示新一季MINISO名创优品在华知名度高达63%

当前国内实体零售业市场普遍收缩的大环境下，MINISO名创优品的异军突起，为广大零售业界同行所震撼。为剖析MINISO名创优品品牌逆势而上的品牌战略，探究其赢取市场青睐的原因，本所组织成立研究生项目调研小组开展了独立的针对MINISO名创优品品牌现状调研项目，现撰写形成《MINISO名创优品品牌现状调研报告2.0》。

半年来，国内零售业市场惊现了休闲时尚百货品牌MINISO名创优品强势来袭的景象，其以惊人的开业速度进军全国各大重要商圈，特别是改革开放前沿阵地的广东，仅上下九商圈就开设了5家MINISO名创优品店铺，深受广大消费者热捧，成绩斐然。在当前国内实体零售业市场普遍收缩的大环境下，MINISO名创优品的异军突起，为广大零售业界同行所震撼。为剖析MINISO名创优品品牌逆势而上的品牌战略，本所组织成立研究生项目调研小组开展了独立的针对MINISO名创优品品牌现状调研项目。本项目获得了名创优品（中国）有限公司的支持，向项目组提供了很多有关其品牌、新媒体渠道、深度访问协助等间接资料和帮助。

第一季度调研时间：2014年3月1日10时始至31日16时止；调研对象：部分城市消费者；调研主要方式：网络问卷自填定量调研；调研辅助方式：购物现场消费者深度访问的定性调研；调研问卷设计维度：从消费者对品牌的知晓度、首次进店行为兴奋点、首次卖场感知、品牌接受状况、购买心动理由、品牌分享意愿等6个维度设计问卷。据统计，第一季度品牌调研活动共吸引了44247人查收电子调研问卷，回收问卷15034份，有效问卷14712份，最终形成《MINISO名创优品品牌现状调研报告1.0》。

《MINISO名创优品品牌现状调研报告1.0》主要内容回顾如下：

1) 62％的消费者表示没听说过MINISO名创优品，仅38%的消费者表示听说过MINISO名

创优品，可见当前的MINISO名创优品品牌知晓度不高，需加快全国重要商圈布局开店步伐，同时需配合高密度的广告策略。

2) 51％的消费者醉心于MINISO名创优品高端大气的店铺形象，MINISO名创优品高端大

气的SI是针对商圈经过人群的高效杀伤性武器。

3) 50％的消费者认同MINISO名创优品品牌理念，认同MINISO名创优品“真正物美价廉”

的品牌主张，消费者品牌体验良好。

4) 72％的消费者明确表示会再度光临消费，且会因价格吸引愿意购买计划外商品。

5) 60％的消费者认为使其做出购买决定的最心动理由是其商品超高的性价比。

6) 82％的消费者愿意将MINISO名创优品品牌动态信息分享给身边好友。

第二季度调研时间：2014年5月21日12时始至6月20日12时止；调研对象：部分城市消费者；调研主要方式：网络问卷自填定量调研；调研辅助方式：购物现场消费者深度访问的定性调研；调研问卷设计维度：从品牌知晓度、品牌令你最心动的原因、购买的首要考虑因素、偏向购买的品类、关注的媒介渠道、品牌分享意愿等6个维度设计问卷。据统计，该调研活动共吸引了88250人查收电子调研问卷，回收问卷56139份，有效问卷55578份，最终形成《MINISO名创优品品牌现状调研报告2.0》。

《MINISO名创优品品牌现状调研报告2.0》调研基本结果简述：

1) MINISO名创优品品牌知名度同比第一季度调研结果提升25％，高达63％。

2) MINISO名创优品主张的“真正物美价廉”品牌理念的认同度同比第一季度调研结果提

升了14％，高达64％。

3) MINISO名创优品消费者购买的首要考虑因素有51％集中在品牌主张的“真正物美价廉”

的先发优势区间，即超高性价比，同时25％消费者折服在国际著名休闲时尚百货品牌的影响力下。

4) MINISO名创优品品牌代表的区隔品类是“休闲时尚百货”，62％的消费者用购买行动

认同和支持着品牌引入初期的品类区隔，有利于品牌差异化识别，其中37％的消费者会首选生活百货，25％的消费者会首选创意家居。

5) 92％的消费者明确表示会选择通过MINISO名创优品微信、微博等自媒体平台收听其品

牌动态和商品信息，夯实了MINISO名创优品自媒体低成本传播的基础，确保其可持续提供“真正物美价廉”的商品。

6) 97％的消费者会支持MINISO名创优品媒介策略，并愿意将其良好的消费体验和海量物

美价廉信息分享推广，支持MINISO名创优品低成本品牌推广策略。

第15篇：数据处理培训总结

数据处理培训报告

一、培训组织

根据上海市第一次全国水利普查暨上海市第二次水资源普查技术路线和数据处理工作的要求，为保证在线填报的顺利进行，确保普查数据质量，市水利普查办和市水务信息中心组织了两次数据处理培训会。

二、培训实施

2011年3月4日清查数据处理培训，培训内容为本次普查数据处理的技术路线、工作流程、实施细则、信息安全要求进行了解读，并详细的演示了清查阶段的数据处理和软件使用操作，市级各专题工作组、各区县的数据处理负责人和工作人员，共计90余人参加了培训；2011年12月28日普查数据处理培训，培训内容为清查工作总结和普查数据处理技术路线、清查名录变更说明、普查的工作流程及操作演示和系统试用等内容，各区（县）水利普查办、各专业技术组的60多名普查工作人员参加了培训。

三、培训成效

清查数据处理培训后，水利（水资源）普查数据处理工作将全面进入清查登记阶段；普查数据处理培训后，使大家进一步了解普查系统的架构和功能，提高了具体操作能力，为下阶段普查数据处理工作打下了扎实基础。

四、培训经验

除集中培训外，还可通过网络在线、电话解答、视频会议方式，在数据普查工作中为各级工作人员提供应用技术支持和服务。

第16篇：GPS测量数据处理

8.1.1 GPS测量数据粗加工的两个部分

GPS测量数据的粗加工包括数据传输和数据分流两部分内容。

大多数GPS接收机采集的数据记录在接收机内存模块上。在数据通过专用电缆线从接收机传输至计算机的同时完成数据的分流，以将各类数据按照类别特性归入不同的数据文件中，数据传输和分流未作任何实质性的加工处理，只是存储介质的交换。

不同接收机的数据记录格式各不相同，难被同一处理程序所用，因而传输至计算机的数据还需解译，提取出有用信息，分别建立不同的数据文件，其中最分主要的是生成四个数据文件；载波相位和伪距观测值文件、星历参数文件、电离层参数和UTC参数文件、测站信息文件。

(1)观测值文件，这是容量最大的文件，内含观测历元，C/A码伪距、教波相位以(L1/L2)积分多普勒计数、信噪比等等，其中最主要的是伪距和毅波相位观测值。

(2)星历参数文件。包括所有被测卫星的轨道位置信息，根据这些信息可以计算出任一时刻的卫星轨道上的位置。

(3)电离层参数和UTC参敬文件，电离层参数可用于改正观测值的电离层影响，UTC参数则用于将GPS时间修正成UTC时间。

(4)测站信息文件。其中包括测站的基本信息和本测站上的观测情况。例如:测站名、测站号、测站的概略坐标、接收机号、天线号、天线高观测的起止时间、记录的数框量、初步定位结果等。

8.1.2 GPS测量数据的预处理

GPS测量数据的预处理的目的在于:对数据进行平滑滤波检验，剔除粗差，删除无效无用数据;统一数据文件格式，将各类接收机的数据文件加工成彼此兼容的标准化文件; GPS卫星轨道方程的标准化，一般用一多项式拟合观测时短内的星历数据；探测并修复整周跳变，使观洲值复原;对观测值进行各种模型改正，如大气折射模型改正。

预处理所采用的模型和方法的优劣，将直接影响最终成果的质量，因而是提高GPS测量作业效率和精度的重要环节。

8.1.3基线向量解算和网平差计算

经过预处理后，观测值作了必要的修正。成为“净化”的数据并提供了卫星轨道时时钟参数的标准表达式，估算了整周模糊度初值，就可以对这些载波相位观测值进行各种线性组合，以其双差值作为观测值列出误差方程，组成法方程，进行墓线的平差解算。平差解算中一般以点间的坐标差作为平差未知数，故称为GPS幕线解算一般由接收机的随机软件完成。

GPS相位观测值经过基线解算，获得了各点间的琴线向最成果。由干GPS成果属了WCS一84坐标系，因而就必须将它们转换至实用的国家或地方坐标系内，这是通过与地面网成果的综合处理来解诀的。常用的力法是进行GPS网的约束平差和GPS网与地面网的联台平差。

第17篇：《GPS数据处理》课程总结报告

《GPS数据处理》课程总结报告

班级：测092 学号：2103060912201 姓名：车亚辉

成绩：

北京建筑工程学院.测绘与城市空间信息学院

二零一二年.五月 1 GPS数据采集的基本作业流程

2 GPS数据处理涉及的计算公式

基线向量解：

3 GPS数据处理的质量检验方法与公式

4 GPS数据处理的基本流程

1.提取基线向量，构建GPS基线向量网 2.三维无约束平差 3.约束平差/联合平差 4.质量分析与控制

5 RINEX格式的作用

基于matlab语言开发程序。

Rinex格式文件：

由程序命令一个字串一个字串的进行，然后根据文件头的取舍将有效数据重新组合平面数据矩阵（二维）或立体数据矩阵（三维）。一般情况下，当读取指定的字符串（如“END OF HEADER”）时，即开始读取有效数据，在上述观测文件和导航文件中，有效数据为字符串“END OF HEADER”以后的数据

第18篇：商业银行数据处理应用论文

[摘要] 本文主要是针对商业银行电子银行会计处理中的凭证设计和填制、打印等问题,利用计算机进行了自动化设计。

[关键词] 电子银行原始凭证函数

随着电子银行的普及，银行会计的数据处理工作中存在的问题也日益显露，笔者认为电子银行业务开展后，银行会计的日常数据处理工作中存在票据中数据的填制等具体的业务处理问题可以通过EXCEL的强大的电子数据处理功能来完成。

银行会计在填制某些原始凭证的时候，如银行承兑汇票等票据，以前都是用手工方法填写，工作量大，且容易出错，为了节约人力和财力，笔者在调研后进行了如下设计：

一、打印区域设置

以网银手续费凭证的填制为例,如图1，会计人员需要在印制好格式的凭证上填制如下内容,笔者通过测量凭证上需要填制的位置,通过EXCEL的列宽和行高来设定数据区域。

二、单位名称设置

对于单位名称和账号等，可以直接输入账号，利用VLOOK（）函数来自动完成填制。例如，我们预先设置一个“客户名称与账号”工作表如图2，然后在“网上银行手续费”工作表中C2单元格中输入公式:=VLOOKUp(A3,客户名称与账号!B3:C38,2,FALSE)，则只要在A3单元格中输入相关的单位账号，就可以直接取得相关的单位名称。

三、金额自动填写设计

如图,我们设K8单元格为数据源，可以通过函数或链接等方式获取数据,笔者在此处通过直接输入数字的方式来说明问题。

在S6单元格中输入公式：=INT($K$×8100)-INT($K$8×10)10，直接获取分位数字。设计如下：

1.获取角分位数字。设K8单元格中的数为345.67（元），则INT($K$8×100)的运算结果为34567，而$K$8×10的运算结果为3456.7，INT($K$8×10)10的运算结果为34560，则INT($K$8×100) -INT($K$8×10)×10=34567-34560=7，为S6单元格中的分位数字，同理，在角位输入：=INT(ABS($K$8×10))-INT(ABS($K$8))×10，在元位输入：=INT(ABS($K$8))-INT(ABS($K$8/10))10，则角位和元位数字也可以轻松取得。

2.整数位数字的确定和人民币符号的设置。在T8单元格输入：= INT(K8)，再在p6单元格中输入公式：=IF(LEN($T$8)>=2,LEFT(RIGHT($T$8,2),1),“￥”)。

在O6单元格中输入：=IF(LEN($T$8)>=3,LEFT(RIGHT($T$8,3),1),IF(LEN($T$8)=2,“￥”,“”))，同理，N

6、M

6、L

6、K6单元格中分别输入：=IF(LEN($T$8)>=4,LEFT(RIGHT($T$8,4),1),IF(LEN($T$8)=3,“￥”,“”))，=IF(LEN($T$8)>=5,LEFT(RIGHT($T$8,5),1),IF(LEN($T$8)=4,“￥”,“”))，=IF(LEN($T$8)>=7,LEFT(RIGHT($T$8,7),1),IF(LEN($T$8)>=6,“￥”,“”))（假设数字不超过百万），完成了小写数字与“￥”输入工作。

3.生成大写金额。在C8单元格中输入：=TEXT(INT(ABS(K8)),“[DBNum2]”)，然后在单元格D8中输入：=TEXT(INT(ABS(K8 10))-INT(ABS(K8))×10,”[DBNum2]”)或=TEXT(R6,”[DBNum2]”)，在E8单元格中输入：=TEXT(INT(ABS(K8×100))-INT(ABS(K8×10))×10,”[DBNum2]”)或=TEXT(S6,”[DBNum2]”)，然后我们在B7单元格中输入：=IF(K8

也可以设置如下：在C8单元格中输入：=TEXT(INT(ABS(K8)),”[DBNum2][$-804]G/通用格式元”)，直接取出不含角分的数值，然后和上面同理，取“整”、“角”或“分”，此处不再探讨。

为了隐藏第

8、9行的数值，可以设置文字颜色为白色，打印的时候就不打印这部分的内容了。

四、日期自动更正为银行特殊规定格式的设计

银行要求会计人员在填写有关凭证的时候，需要按照“某某某某年某某月某某日”的大写格式来填写，主要是为了防止篡改日期。而我们在利用EXCEL作为工具的时候，发现其日期格式根本没有我们所需要的格式,可以通过如下操作完成日期格式设计：在设置单元格格式的时候，采用自定义格式，输入：[DBNum2][$-804]yyyy”年”mm”月”dd”日”;@，定义其格式即可。例如，输入2007-3-2，则自动显示为“贰零零柒年零叁月零贰日”。

也可以在特定的单元格（假设为AC17）中输入：=TEXT(AD17,”[DBNum2][$-804]yyyy年mm月dd日”)其中，设AD17为输入日期的单元格，则AC17单元格返回的数值为银行规定的日期格式：“某某某某年某某月某某日”。

参考文献:

[1]刘宣杰李志刚:用友ERp沙盘应收账款存在的问题与设想[J].商场现代化，2007.10

[2]电脑报:Office办公应用疑难破解[M].汕头大学出版社,2005.6

第19篇：GPS数据处理课程总结

《GPS数据处理》课程总结报告

班级：地101

学号：2103071011122 姓名：宋楠

成绩：

北京建筑工程学院.测绘与城市空间信息学院

二零一三年.五月《GPS数据处理》课程总结报告

2103071011122 1.GPS数据采集的基本作业流程

①收集资料

②选点（观测站址的选择）、埋石 ③GPS接收机的选用及仪器检验

④拟定作业计划（分区观测、卫星可见性预报及观测时段的选择、调度命令） ⑤观测（预热与静置、对中、定向、整平、量仪器高、拆除觇标、观测、记录） ⑥外业数据质量检核、重测和补测

2.GPS数据处理涉及的计算公式

①观测方程

在空间直角坐标系下, GPS 基线向量观测值与基线两端点之间的数学关系为:

式中: 量; 为i点的空间直角坐标向量; 为i点至j点的基线向量。

为j点的空间直角坐标向利用上述数学关系, 可以很容易地得出地心地固系下空间直角坐标形式的基线向量观测方程:

若令:观测值的改正数;

, 为基线向量观测值;, 为i 点坐标向量的估值;

, 为基线向量, 为j 点坐标向量估值。则可以将地心地固系下采用直角坐标形式表示的基线向量观测方程表示为:

②误差方程

根据在地心地固系下空间直角坐标形式的基线向量观测方程, 并令:

式中: 为i点空间直角坐标向量的近似值;

为相应的改正数向量;

为j 点

第 2 页，共 12 页 2 《GPS数据处理》课程总结报告

2103071011122 坐标向量的近似值; 为相应的改正数向量; 为由基线两端点的坐标近似值计算出来的基线向量的近似值( 计算值) 。则可导出地心地固系下空间直角坐标形式的基线向量误差方程:

也可将该误差方程写成如下形式:

利用空间直角坐标与大地坐标间的微分关系可以得出在GPS 网平差中, 点k的大地坐标向量改正数与空间直角坐标向量改正数

的关系为:

或

将此关系代入空间直角坐标系下基线向量的误差方程, 可得出地心地固系下大地坐标形式的基线向量误差方程:

③单基线解模式：

在每一个单基线解中仅包含一条基线向量的估值, 可表示为:

单基线解基线向量估值的验后方差-协方差阵具有如下形式:

式中:σΔXi ², σΔYi², σΔZ i²分别为基线向量i 各分量的方差;σΔXiΔYi , σΔXiΔZ i , σΔYiΔZ i , σΔYiΔXi , σΔZ iΔXi ,σΔZ iΔYi分别为基线向量i 各分量间的协方差, 且有 σΔXiΔYi = σΔYiΔXi , σΔXiΔZi = σΔZ iΔXi , σΔYiΔZi =σΔZ iΔYi。

第 3 页，共 12 页 3 《GPS数据处理》课程总结报告

2103071011122 所有参与构网的基线向量提供了下列信息: 式中, B 为所有参与构网的基线向量, DB 为相应的方差-协方差阵。

④多基线解模式：

在一个基线向量的多基线解中, 含有mi1 条基线向量估值, 其验后方差-协方差阵具有如下形式:

式中, dbi, k, bi, l为基线向量k, l 间的协方差子阵, 具有如下形式:

所有参与构网的基线向量提供了下列信息:

在以上两式中, B 为参与构网的所有基线向量, DB 为相应的方差-协方差阵。 ⑤三维无约束平差误差方程

基准方程: 或

⑥三维约束平差基本观测方程:

第 4 页，共 12 页 4 《GPS数据处理》课程总结报告

2103071011122

误差方程：

3.GPS数据处理的质量检验方法与公式

⑴数据删除率:根据GB/T18314-2009 同一时段观测值的数据剔除率宜小于10% ⑵同步环闭合差：根据GB/T18314-2009，应对所有三边同步环进行检验，闭合差宜满足如下的要求：



σ 为对基线测量中误差的要求（按网的实际平均变长计算）

⑶异步环闭合差：根据GB/T18314-2009，B、C、D、E级GPS网外业基线处理结果，其独立环或附合路线坐标闭合差应满足如下的要求：

n为闭合环边数：σ为对基线测量中误差的要求（按网的实际平均变长计算）Ws 为闭合差矢量, 即

⑷复测基线较差（重复基线互差）:根据GB/T18314-2009，B级网基线外业预处理和C级以下各级GPS网基线处理，复测基线长度较差ds、两两比较应满足下式的规定：

第 5 页，共 12 页 5 《GPS数据处理》课程总结报告

2103071011122

σ为对基线测量中误差的要求(按网的实际平均变长计算) ⑸精处理后基线分量及边长的重复性: AA、A、B 级基线向量的分量Δx、Δy、Δz 及边长s的重复性检验。重复性的定义为:

为相应于ci分量的方式中: n 为同一基线的总观测时段数; Ci 为一个时段所求得的基线分量及边长; 差的拟合, 以作为衡量基线精度的参考指标。

⑹各时段间的较差:对于AA、A、B 级基线而言, 各时段间的较差应满足下式: 差; Cm 为各时段的加权平均值。其中, 对边长分量、北分量和东分量的重复性还需进行固定误差和比例误

AA、A、B 级基线进行基线向量精处理后, 独立环闭合差或附合路线的坐标分量闭合差应满足下列条件:

而

第 6 页，共 12 页 6 《GPS数据处理》课程总结报告

2103071011122 式中: r 为环线中的基线数, ( c = Δx, Δy, Δz) 为环线中第i 条基线c 分量的方差, 由基线处理时输出。

⑺环线全长闭合差满足:

⑻网无约束平差基线向量残差：

(9)残差检验：

或

(10)无约束平差：基线分量的改正数绝对值应满足：

(11)约束平差：基线分量的相应改正数较差绝对值应满足：

dVX2

dVY2

dVZ2

(12)单位权方差的检验：

在平差完成后, 需要进行单位权方差估值

的检验。它应与平差前的先验单位权方差

一致, 判断它们是否一致可采用检验。检验方法为: 原假设

备选假设

若

第 7 页，共 12 页 7 《GPS数据处理》课程总结报告

2103071011122 其中α为显著性水平, 则H0 成立, 检验通过; 反之, 则H1 成立, 检验未通过。

4.GPS数据处理的基本流程

5.GPS商业处理软件的使用

5.1 Trimble软件的使用

①用样本数据模块建立项目 ②输入样本数据文件

③处理GPS基线（处理潜在的基线、评估解算结果） ④查阅GPS 基线处理报告 ⑤GPS环的闭合差

⑥最小约束网平差（显示点的误差椭圆、在网中固定一个控制点、实施最小约束网平差、查阅网平差结果）

⑦查看RTK和常规测量数据，输出数据

第 8 页，共 12 页

8 《GPS数据处理》课程总结报告

2103071011122 5.2 Compa软件的使用

①安装，注意安装完毕按照说明进行破解。并且不能安装在中文目录名内，而且英文字符不能超过8位。

②安装完毕运行首先进行单位设置，推荐使用国际单位SI标准，方法是点击Utilities菜单，选择units再调入预设的SI单位集合即可，注意此时狗腿度的单位是度/30m，可以根据个人习惯进行调整。

③第一次使用首先建立一个新公司（company）如二勘、六勘等等，注意在company对话框内一定要选择中国钻井行业规定的标准－曲率半径法（Radius of Curvature），并且根据需要选择坐标的原点（Co-ordinate）是区块(site)的中心还是井口（slot）的中心。如果不涉及防碰，不需要比较两井的相当位置时，建议选择井口的中心作为原点。

④建立一个油田（field）如胜利、大庆、塔指等等。

⑤建立一个区块（site）如哈得、塔河等等。可以输入本区块的中心坐标（如果愿意）。 ⑥建立一口井（well），名字用井号如：轮古37等等，并输入本井的井口坐标。

⑦建一个轨道（wellpath），一口井可以建立数个轨道。并可以指定其中的一个为确定的（definitive）轨道。

⑧选择EDIT(编辑)－Wellpath（轨道）－targets（靶点）菜单（或直接点工具栏的按钮），进入靶点设计，输入靶点的名字、垂深、坐标、形状，保存退出。

⑨选择Planning－new plan菜单，输入轨道设计的名字和起始点，进行轨道设计。

⑩选择Survey－new survey菜单，输入测量过程的名字和起始点，进行实际测量的参数计算。 Ps：实际使用过程中，每进行一次测量都要重复9的过程建立一个以最后测量点为起点的新设计，随时调整下一步的定向方式。

6.RINEX格式的作用

7.RINEX格式的观测文件读取程序说明

基于matlab语言开发程序。

Rinex格式文件：

第20篇：数据处理与统计教案

数据处理与统计

一．教学目标： 1．知识与技能：

理解公式、函数、地址、数据引用的含义；熟练掌握公式和函数的应用； 2．过程与方法：

培养学生动手操作和观察交流的能力；

培养自我解决问题、自我发展、合作学习的能力。 3．情感态度价值观：

培养学生在研究中学习、在学习中探索的意识。二．教学重点与难点： 1．教学重点：

运用公式、函数进行数据运算； 2．教学难点：

运用公式、函数进行数据运算；掌握相对引用、绝对引用的使用；三．教学过程： 1．导入

展示学习目标，学生自学P62-P66的内容，完成操作题的第1小题。 5分钟以后，学生回答，请学生总结单元格地址是怎么构成的。单元格地址由行标和列标组成，列标在前，行标在后。 2．请同学们做操作题第2题。发现：“F8”单元格中显示的是输入的内容，“F9”单元格中显示的是计算后的结果。为什么会显示的结果不同呢？比较“F8”、“F9”单元格中输入的内容，发现“F9”中输入的内容比“F8”中输入的内容多了一个“=”，“F8”中只是直接输入了一个代数式，而“F9”是利用公式计算代数式的值。公式的定义：以=开始的代数式利用公式计算的步骤：1．“=”，2．输入代数式，3．回车键 3．请同学们利用公式，完成操作题的第3题和第4题。

发现：用单元格中的内容和单元格地址分别进行计算，结果相同。可见，计算式中直接用到了单元格地址，这就是单元格地址的引用。既然结果相同，那我们在平时的应用当中是用单元格中的内容还是用引用单元格地址的方法呢？ 4．用引用单元格地址的方法，计算剩下的居民所用的总用电量。

5．我们发现这样的计算方法还是比较麻烦的，有没有更方便一点的方法呢？Excel为我们提供了“自动填充”功能。老师演示。单击单元格“D8”，指针指向这个单元格右下角，当出现一个实心的“+”，这个就是填充柄，向下拖动填充柄，其他单元格显示对应的结果。当我们将指针指向刚刚被填充的单元格，发现单元格中的公式它们的运算关系没变，只有单元格地址作了自动调整。这就是单元格地址的“相对引用”。利用“自动填充”功能重新计算居民的总用电量；

6．请同学们完成操作题第5题，利用所学知识计算所有用户的电费。

发现只有D8单元格中的结果是正确的，而自动填充的数据，结果是错误的，这是什么原因呢？

在整个计算过程中，C4和C5必须保持不变的，在C4和C5的行号、列号前添加符号“$”，即$C$

4、$C$5，用这种方式引用地址称为“绝对引用”。

7．在Excel中，还有很多预先定义好的公式叫函数，我们可以直接引用函数来进行计算。

常用函数：求和

SUM平均值

AVERAGE 最大值

MAX 最小值

MIN 以求峰时用电的平均用电量为例作讲解。请同学们完成操作题的第6题。 8．结束语

学生总结：本节课所学内容。

《数据处理实习报告.doc》

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档