大数据应用调研报告（精选多篇）

发布时间：2021-04-08 08:38:49 来源：调研报告收藏本文下载本文手机版

推荐第1篇：大数据调研报告

大数据技术市场调查报告：“BigData浪潮”迫使企业做出抉择

发表于2012-02-06 13:26| 2517次阅读| 来源CSDN| 0 条评论| 作者李智

数据中心浪潮数据挖掘数据分析大数据

摘要：大数据时代的数据格式特性首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看，信息结构类型大致经历了三次浪潮。必须注意这一点，新的浪潮并没取代旧浪潮，它们仍在不断发展，三种数据结构类型一直存在，只是其中一种结构类型往往主导于其他结构：结构化信息这种信息可以在关...

根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍，达到35ZB（相当于10亿块1TB的硬盘的容量）。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿，能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时，CSDN专门针对企业相关人员进行了大规模问卷调研，并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。

大数据时代的数据格式特性首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看，信息结构类型大致经历了三次浪潮。必须注意这一点，新的浪潮并没取代旧浪潮，它们仍在不断发展，三种数据结构类型一直存在，只是其中一种结构类型往往主导于其他结构：

结构化信息——这种信息可以在关系数据库中找到，多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息，另外，还可对结构数据库信息进行排序和查询；半结构化信息——这是IT的第二次浪潮，包括电子邮件，文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础，可以用于搜索，这也是谷歌存在的理由；非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中（诸如可在音频、视频和多媒体文件中被听或被看）。许多大数据都是非结构化的，其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。

企业内部大数据处理基础设施普遍落后

从调查结果可以看出，接近50%的企业服务器数量在100台以内，而拥有100至500台占据了22%的比例。500至2000台服务器则占据剩下28.4%的比例。可以看出面对大数据现今大部分企业还没有完善其硬件基础架构设施。以现阶段企业内大数据处理基础设施的情况来看50%的企业面临大数据处理的问题（中小企业在面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程）。

但这只是暂时状况，“廉价”服务器设施会随着企业业务的发展逐渐被淘汰出历史的舞台，在未来企业基础架构体系的硬件选用上，多核多路处理器以及SSD等设备会成为企业的首选。Facebook的Open Compute Project就在业界树立了榜样，Open Compute Project利用开源社区的理念改善服务器硬件以及机架的设计。其数据中心PUE值也是领先与业内的其他对手。

而在具有大数据处理需求的企业中52.2%的日数据生成量在100GB以下，日数据生成量100GB到50TB占据了43.5%，而令人惊讶的是，日数据生成量50TB以上也有4.4%的份额。数据量持续的增长，公司将被迫增加基础设施的部署。专利费用将一直增加，而开源技术，则省了这笔一直持续的专利费。对于急需改变自己传统IT架构的企业而言，传统的结构化数据与非结构化数据的融合，成了所有人关心的问题。

企业面对大数据处理的挑战与问题

现今大数据呈现出“4V + 1C”的特点。既Variety：一般包括结构化、半结构化和非结构化等多类数据，而且它们处理和分析方式有区别；Volume：通过各种设备产生了大量的数据，PB级别是常态；Velocity：要求快速处理，存在时效性；Vitality：分析和处理模型必须快速变化，因为需求在变；Complexity：处理和分析的难度非常大。

从图中我们可以看出资源利用率低、扩展性差以及应用部署过于复杂是现今企业数据系统架构面临的主要问题。其实大数据的基础架构首要需要考虑就是前瞻性，随着数据的不断增长，用户需要从硬体、软件层面思考需要怎样的架构去实现。而具备资源高利用率、高扩展性并对文件存储友好的文件系统必将是未来的发展趋势。

应用部署过于复杂也催生了大数据处理系统管理员这一新兴职业，其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件，当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置，保证Hadoop与其他系统的有机结合。

而多格式数据、读写速度（读写速度是指数据从端点移动到处理器和存储的速度）以及海量数据是企业面临大数据处理急需解决的技术挑战。众所周知随着大容量数据（TB级、PB级甚至EB级）的出现，业务数据对IT系统带来了更大的挑战，数据的存储和安全以及在未来访问和使用这些数据已成为难点。同时大数据不只是关于数据量而已。大数据包括了越来越多不同格式的数据，这些不同格式的数据也需要不同的处理方法。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。

企业内部数据分析与挖掘工具应用现状

云时代企业数据挖掘面临如下三点挑战。挖掘效率：进入云计算时代后，BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘，而面对引入互联网应用后海量的异构数据时，目前并行挖掘算法的效率很低；多源数据：引入云计算后，企业数据的位置有可能在提供公有云服务的平台上，也可能在企业自建的私有云上，如何面对不同的数据源进行挖掘也是一个挑战；异构数据：Web数据的最大特点就是半结构化，如文档、报表、网页、声音、图像、视频等，而云计算带来了大量的基于互联网模式提供的SaaS应用，如何梳理有效数据是一个挑战。抛去价格因素之外可以看出反应速度慢、操作不方便、数据不准确、分析不准确这四项是企业数据分析与数据挖掘面临的主要问题。商业化解决方案固然成熟，但成本也是显而易见的。而具备在开源平台之上处理分析大数据能力的数据科学家则成为另外的一种选择。数据科学家具备专业领域知识并具备研究利用相应算法分析对应问题的能力，可帮助创建推动业务发展的相应的大数据产品和大数据解决方案。

从调查结果中我们可以看出Hadoop占据了半壁江山，而同为开源的HBase也有将近四分之一的占有率。而商业化的数据分析与挖掘平台（如Teradata、Netezza、Greenplum等）总共只有13.9%的份额。短期来讲，开源分析将越来越广泛的使用，并且增长迅速。长期来看，混合技术的应用将在高度竞争的市场上出现，两者将同样有巨大的需求。可以预见的是，Hadoop作为企业级数据仓库体系结构核心技术，在未来的10年中它将会保持增长。随着云时代的到来，企业面临的应用方式更加多元化，通过云的手段提供海量数据挖掘的方法，提高了挖掘的效率，增加了挖掘的精度，更利于挖掘应用的推广以及专业的行业知识库的构建。同时收集、存储庞大的新型数据充满了挑战，然而分析这些数据的新方法才是帮助最成功企业甩开竞争对手的利器。

推荐第2篇：大数据发展情况调研报告

2015年大数据发展情况调研报告

一、发展现状

（一）电子政务建设成效明显。我盟电子政务建设一直居于全国前列，电子政务专网上接自治区政府专网，带宽为155m，备用线路带宽为20m；向下已延伸至各旗县市区政府，带宽为100m，主要用于开展公文交换、会务管理、应急管理、政法法制、政务信息和督查以及各部门业务等应用。2003年，xxxx 政务门户网站上线运营。2005年全国首家蒙文政府网站——xxxx蒙文政务门户网站正式开通。2007年，我盟对盟、旗县市（区）、苏木（乡镇）三级党委、人大、政府、政协机关，盟、旗县市（区）两级党委、政府直属部门及盟、旗两级部分事业进行了集中建站，建立起了全盟三级政府网站群体系架构，政务网站群实现了全覆盖。目前全盟纳入普查范围的各类政府网站共计519个。建立了盟、旗县市（区）、苏木（乡镇）、嘎查村“四级联动”行政审批服务体系，并全面开展电子效能监察工作，对进入盟旗两级政务服务中心的行政审批项目，全部实行了实时监察监控。

（二）社会管理领域取得实质性进展。建立智能在线全员人口信息综合业务应用平台，将全盟117.91万人口信息数据全部录入全员人口信息数据库，实现了全盟全员人口信息数据基本的全覆盖。建设“平安锡盟”社会治理数字化工程，以建设“三网三平台一张图”为基础，分别将社会公共监控资源、视频专网监控资源、公安内网视频监控资源进行整合，实现了社会治理事前预防控制、事中指挥调度以及事后研判应用。

xx浩特市积极推进网格化管理,将城区内45个社区合理划分为180个网格单元，以网格为单位进行社会管理和服务。整合“户籍、住房、计生、就业、社保、民政、党建、司法、流动人口”等各类基础信息，构建全市人口基础信息系统，初步实现人口信息从静态管控到动态管控，从单一管理到综合管理利用。xx浩特数字城市指挥中心利用地理信息系统、全球定位系统以及遥感技术等手段，建立起统一的城市数字化信息共享、协调处置、监督实施的指挥平台。通过群众拨打12319服务热线、网上举报等渠道，受理园林绿化、环境保护、环境卫生、市容市貌、给水排水、私搭乱建、公共设施、集中供热、交通治安、户外广告、市场建设等城市管理的多方面问题，共涉及锡市规划局、住建局、环保局、公安局、城管局等17个部门26个成员单位。

（三）民生服务领域发展步伐加快。积极推进教育、卫生、环保、农牧业等领域信息化平台建设工作。持续开展“三通两平台”工程，目前156所学校及相关教育部门共计200多个单位已实现互联互通；搭建了区域卫生信息协同平台，累计为全盟95万城乡居民建立了健康档案，为全盟37个苏木乡镇卫生院和10个社区卫生服务中心建立了医院信息管理系统，为242个嘎查村卫生室安装使用了嘎查村卫生室信息系统，实现了基本医疗、基本公共卫生和基本药物的电子化管理；建成了污染源在线监控平台、空气质量自动监测系统、重污染天气预报预警系统、机动车尾气检测机构在线监控平台，形成了对全盟重点污染源的在线监控；建立xxxx羊肉全产业链追溯体系综合服务平台，将肉羊养殖、屠宰加工、精加工、物流配送、销售五个环节信息集成，目前已累计为7413户牧户的161万只羔羊建立可追溯档案，基本实现了“来源可追溯、去向可查证、责任可追究”。

（四）经济运行管理领域发展初具规模。为更好地监管市场，食药工商局为107192户市场主体建立电子档案信息。建立企业信用公示平台，截至10月，全盟已对90591户企业信用信息进行备案，备案率为84.53%。建设xxxx盟金财一期工程，覆盖所有财政性资金，辐射各级财政部门和预算单位，进一步提高财政资金分配和使用的安全性、规范性和有效性。

（五）大数据应用初见端倪。建立中小企业公共服务平台，并实现与自治区枢纽平台的互联互通，目前，各旗县市（区）共有383户企业通过审核注册成功。建设xxxx盟蒙古文综合服务平台，蒙古族同胞可以利用手机查询国家政策、法规、综合新闻以及市场动态、农牧业补贴、气象、生活助手等内容。同时，由私人投资建设的“锡盟信息港”、“xx123信息网”、“上都在线”等公共咨询服务平台建成运行，主要发布招聘、出租、家政、出售等咨询信息。此外，全盟已有各类电子商务平台19个，包括大宗商品销售、农牧民赶集采购、团购、社区电商以及跨境电商等类别，特色鲜明，发展前景广阔。

二、存在问题

（一）数据共享程度低。全盟大数据建设缺乏统一规划和有力的领导，各个委办局信息系统基本都属于独立纵向系统，数据平台并未实现横向互通；数据资源整合力度不够，共享程度低，政府部门间重复建设现象严重。

（二）建设缺乏统一标准。目前，各平台数据采集的基本要素、数据的来源、数据采集的方法及要求没有统一标准，导致产生“信息孤岛”。

（三）网络基础设施建设有待完善。我盟地域辽阔，牧区人口居住比较分散，现有宽带网络无法满足牧区信息化需求，全盟移动通讯信号以覆盖面积计算嘎查村覆盖率不足60%，宽带不足30%，宽带网络基础设施建设规模仍有待提高。

（四）专业队伍建设有待加强。现有人员年龄结构断层，知识结构不合理，严重缺乏专业技术人才，因此迫切建立一支稳定的高素质、专业化信息建设队伍。

三、下一步工作重点

（一）高起点规划布局，建立我盟大数据中心。按照“顶层设计，分布实施”的原则，委托权威机构编制我盟大数据建设规划，对我盟大数据建设进行总体规划，并研究出台具体技术实施方案，明确工作内容、时间节点，促进大数据建设工作顺利推进。高标准规划大数据中心，涵盖数据整合、共享与分析、网络服务、数据存储及可视化运维等多方面内容，并在“两地三中心”进行容灾备份，保护数据的安全和业务连续性。逐步整合撤并各部门现有自建机房和设备，原则上各部门不再建设新的机房，实现资源集约化管理。

（二）推进数据信息资源共享，推动社会管理科学可控。在充分利用现有数据资源的基础上，进一步完善人口基础信息库、法人单位信息资源库、自然资源和空间地理信息库和宏观经济数据库等核心数据库，完成数据资源整合与共享，实现部门间信息互联互通。建立大数据交换与共享平台，实现对数据集约化采集、网络化汇聚及统一化管理，推动政府职能转变，提高政府服务效率。建立数据标准和统计标准体系，有计划、分层次地推进各领域的应用。

（三）做好商品追溯防伪系统平台项目。引进大连声鹭科技有限公司开发的商品追溯防伪系统平台建设项目，打造以“商品追溯防伪”为主题的互联网经济示范平台，并带动芯片封装和手持终端检测设备生产基地建设，逐步培养辐射全国的商品追踪防伪系统技术创新研发基地。成立创新研发中心，针对不同品类商品、不同包装方式、应用场景，推进相关芯片应用和标准体系建立，并率先对我盟原产地白酒、食用油、食用盐等品牌产品提供商品追踪防伪示范服务。

（四）推动智慧社区、智慧旅游、智慧农牧业项目建设。进一步推动社区网格化管理，加强社区周边服务资源的集中整合，大力建设覆盖社区管理、社区服务、社区安全、智慧家居、养老服务的智慧社区生活服务圈。结合我盟旅游产业发展现状，建立基于互联网的旅游信息服务体系、构建多部门信息共享、联动协调的智慧旅游管理体系、应用多种营销手段打造特色旅游品牌，全面推动旅游业向智能化转型提升。推行农牧业养殖过程中的自动化、集成化、网络化管理，

加大特色农产品品牌营销力度，鼓励农牧业电子商务发展。

四、相关建议

（一）加强组织领导、强化政策扶持。行署尽快成立由主要领导任组长，行署常务副盟长、分管副盟长任副组长，有关部门、单位为成员单位的大数据发展推进领导小组，领导小组下设办公室，并建议设在行业主管部门，保证工作有序推进。建立大数据建设发展专项资金，实行专款专用。

（二）依托智慧应用，加快产业发展。推动云计算、物联网、互联网与大数据等新一代信息技术产业集约集聚发展，加快新一代信息技术在政务、经济运行、社会管理和民生服务领域的深化应用、共享应用和融合应用，培育一批具有自主产权、自主品牌的智能项目和智慧服务，切实提高居民幸福指数。

（三）夯实基础设施、强化信息安全。光纤网络实现百兆入户、千兆到楼、t级出口。进一步实施“宽带锡盟”战略，加快推进光纤入户到企、进村入园，推动4g网络对城区的深度覆盖，并进一步提高农村牧区网络覆盖面。完善网路安全保障体系，进一步加强信息安全测评认证体系、网络信任体系、信息安全监控体系及容灾备份体系建设，建立网络和信息安全监控预警、应急响应联动机，增强信息采集、处理、传播和利用安全能力。

（四）加强人才引进、注重宣传推广。加快引进大数据领军人才、创业人才和掌握前沿技术的专业人才，落实好人才保障措施，推进大数据人才队伍建设。推进企业与高校、科研院所的合作，实现科技人才交流、科研成果共享。依托我盟高校、园区和企业，联合建立各类智慧人才教育培训基地，提供教育、培训和考试等服务。建立xxxx智慧城市创新体验中心，积极推广大数据发展成果，提升城市活力的同时成为我盟招商引资、引智窗口。

推荐第3篇：中国大数据应用发展报告精读

近日，中国管理科学学会大数据管理专委会、国务院发展研究中心产业互联网课题组、社会科学文献出版社共同举办的《大数据应用蓝皮书：中国大数据应用发展报告No.1（2017）》发布会在北京举行。本书是国内首本研究大数据应用的蓝皮书。

蓝皮书旨在描述当前中国大数据在相关行业及典型代表企业应用的状况，分析当前大数据应用中存在的问题和制约其发展的因素，并根据当前大数据应用的实际情况，对其未来发展趋势做出研判。

蓝皮书认为，从应用的角度看，大数据并非一个全新的产业，而是与已有产业融合，对已有模式的改造、升级和替代。制约大数据发展的往往并不是大数据本身，而是大数据所应用的行业和领域原本存在的问题，如行业管制、行政垄断、要素不能自由流动，等等。因此，推动大数据应用的发展，需对不当的行业管理模式进行改革，对既有利益格局进行调整。即便在企业内部，大数据应用也不仅仅是个技术问题，而且是涉及业务流程重组和管理模式变革的问题，是对企业管理能力的一个考验。

大数据应用的三个关键点

大数据应用的三个关键点是数据从哪里来？数据怎么用？成果谁买单？数据从哪里来？

关于数据来源，普遍认为互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司，在搜索、社交、媒体、交易等各自核心业务领域，积累并持续产生海量数据。物联网设备每时每刻都在采集数据，设备数量和数据量都与日俱增。这两类数据资源作为大数据金矿，正在不断产生各类应用。国外关于大数据的成功经验介绍，大多是这类数据资源应用的经典案例。还有一些企业，在业务中也积累了许多数据，如房地产交易、大宗商品价格、特定群体消费信息，等等。从严格意义上说，这些数据资源还算不上大数据，但对商业应用而言，却是最易获得和比较容易加工处理的数据资源，也是当前在国内比较常见的应用资源。

在国内还有一类是政府部门掌握的数据资源，普遍认为质量好、价值高，但开放程度差。许多官方统计数据通过灰色渠道流通出来，经过加工成为各种数据产品。《大数据纲要》把公共数据互联开放共享作为努力方向，认为大数据技术可以实现这个目标。实际上，长期以来政府部门间信息数据相互封闭割裂是治理问题而不是技术问题。面向社会的公共数据开放愿望虽十分美好，但恐怕一段时间内可望而不可即。在数据资源方面，国内“小数据”、“中数据”应用并不充分，试图一步跨入大数据时代，借机一并解决前期信息化过程中没能解决的问题，前景并不乐观。另外，由于中国互联网公司业务主要在国内，其大数据资源也不是全球性的。

蓝皮书分析指出，数据从哪里来是我们评价大数据应用的第一个关注点。一是要看这个应用是否真有数据支撑，数据资源是否可持续，来源渠道是否可控，数据安全和隐私保护方面是否有隐患。二是要看这个应用的数据资源质量如何，是“富矿”还是“贫矿”，能否保障这个应用的实效。对于来自自身业务的数据资源，具有较好的可控性，数据质量一般也有保证，但数据覆盖范围可能有限，需要借助其他资源渠道。对于从互联网抓取的数据，技术能力是关键，既要有能力获得足够大的量，又要有能力筛选出有用的内容。对于从第三方获取的数据，需要特别关注数据交易的稳定性。数据从哪里来是分析大数据应用的起点，如果一个应用没有可靠的数据来源，再好、再高超的数据分析技术都是无本之木。

数据怎么用？

数据怎么用是我们评价大数据应用的第二个关注点。《大数据纲要》规划了许多大数据应用领域和方向，包括公共部门和产业领域，实际上是提出了许多需要大数据解决的问题或期待大数据完成的任务。如何解决这些问题，如何把数据资源转化为解决方案，实现产品化，这是我们特别关注的问题。大数据只是一种手段，并不能无所不包、无所不用。我们关注大数据能做什么、不能做什么，现在看来，大数据主要有以下几种较为常用的功能。

追踪。互联网和物联网无时无刻不在记录，大数据可以追踪、追溯任何一个记录，形成真实的历史轨迹。追踪是许多大数据应用的起点，包括消费者购买行为、购买偏好、支付手段、搜索和浏览历史、位置信息，等等。

识别。在对各种因素全面追踪的基础上，通过定位、比对、筛选，可以实现精准识别，尤其是对语音、图像、视频进行识别，使可分析内容大大丰富，得到的结果更为精准。

画像。通过对同一主体不同数据源的追踪、识别、匹配，形成更立体的刻画和更全面的认识。对消费者画像，可以精准推送广告和产品；对企业画像，可以准确判断其信用及面临的风险。

提示。在历史轨迹、识别和画像基础上，对未来趋势及重复出现的可能性进行预测，当某些指标出现预期变化或超预期变化时给予提示、预警。以前也有基于统计的预测，大数据大大丰富了预测手段，对建立风险控制模型有深刻意义。

匹配。在海量信息中精准追踪和识别，利用相关性、接近性等进行筛选比对，更有效率地实现产品搭售和供需匹配。大数据匹配功能是互联网约车、租房、金融等共享经济新商业模式的基础。

优化。按距离最短、成本最低等给定的原则，通过各种算法对路径、资源等进行优化配置。对企业而言，提高服务水平、提升内部效率；对公共部门而言，节约公共资源、提升公共服务能力。

上述概括并不一定完备，大数据肯定还有其他更好的功能。当前许多貌似复杂的应用，大都可以细分成以上几种类型。例如，贵州推行的“大数据精准扶贫项目”，从大数据应用角度，通过识别、画像，可以对贫困户实现精准筛选和界定，找对扶贫对象；通过追踪、提示，可以对扶贫资金、扶贫行为和扶贫效果进行监控和评估；通过配对、优化，可以更好发挥扶贫资源的作用。这些功能也并不都是大数据所特有的，只是大数据远远超出以前的技术，可以做得更精准、更快、更好。当然，技术无法左右利益，贵州扶贫目标的完成，并不是有了大数据就万事大吉了。

成果谁买单？成果谁买单是我们评价大数据应用的第三个也是最后一个关注点。道理很简单，不创造价值的应用不是好应用。能不能创造价值，关键看谁买单。我们不需要那些靡费公帑的“样板”工程、“面子”工程，也不需要那些炫耀神技、制造概念的创富故事。我们关注大数据的应用是否实实在在提升能力、改善绩效。如果大数据用于自身的产品设计、营销推广、资源配置，那就看企业竞争力是不是提升了，看企业最终是不是比以前更赚钱了。如果大数据用于为第三方提供服务，那就看是不是有人愿意付费、愿意持续付费。但如果是用于公共领域，还要看政府或公共部门的付费值不值，不仅仅是从出资方的视角看值不值，还要从老百姓的视角看值不值。

当我们面对一项大数据应用时，只要简单问一问上面三个问题——数据哪里来、数据怎么用、成果谁买单——就能揭开许多“伪装”。比如，许多应用并没有可靠的数据来源，或者数据来源不具备可持续性；还有些应用并没有技术或市场支撑，只是借助大数据风口套取政府部门或一些投资者的“傻钱”罢了。当然，如果经得起上述“大数据三问”，也并不一定算得上优秀，但也离优秀的大数据应用不远了。表1列举了本书中收集的几个案例，从数据来源、应用方式和创值空间三个角度，可以清晰揭示大数据是如何应用的。当然，这些案例反映的大数据应用既非面面俱到，也不是尽善尽美。我们希望通过这些实际的案例表明大数据应用踌躇前行的步伐和未来发展的前景。

工业大数据面临三大制约因素

1.工业大数据安全和开放体系亟待建立

数据安全和数据开放体系建立是工业大数据大规模应用的两个重要前提。如前所述，我国多数工业企业的信息化建设基本上均是由业务部门在业务开展过程中根据自身的局部需求出发，开展建设，缺少统一规划，形成了部门割据的信息化烟囱，导致数据编码不一致，系统之间不能相互通信，业务流程不能贯通。因此，我国工业企业无论在数据的总量上，还是数据的质量上，均和欧美发达国家制造企业存在较大差距，且由于行业垄断或商业利益等原因，数据的开放程度也不高。

另一个制约我国工业大数据应用发展的重要因素是政策法规体系不健全。工业大数据的开发和利用既要满足工业企业典型应用场景的业务发展需求，也要防止涉及国家、企业秘密的数据发生泄露。而目前，我国在工业大数据的利用、评价、交换以及信息安全保护方面的法律法规尚有待进一步健全，这在很大程度上抑制了工业大数据应用的广度和深度，不利于工业大数据生态系统的建设和培育。

2.基于工业大数据的企业管理理念和运作模式变革

随着智能设备、物联网技术、智能传感器、工业软件以及工业企业管理信息系统等在工业企业的广泛应用，综合利用各种感知、互联、分析以及决策技术，通过实时感知、采集、监控现场制造加工状况、物流情况、生产准备情况、技术状态管理情况，并开展数据挖掘分析，急需工业大数据平台和相关技术的支撑。

工业大数据应用目的是推动工业企业基于对内外部环境相关数据的采集、存储和分析，实现企业与内外部关联环境的感知和互联，并利用工业大数据分析技术开展挖掘分析，支撑工业企业基于数据进行决策管控，提升企业决策管控的针对性、有效性。 3.工业大数据人才缺乏制约产业发展

工业大数据技术应用的关键是揭示各种典型工业应用场景下，各种数据的内在关联关系，因此，工业大数据技术的应用者不但要掌握工业大数据的相关知识和工具，还需要深刻了解制造业典型业务场景，并结合工业大数据的分析和可视化展示情况，结合业务场景进行合理解读，此外，还需要结合业务场景进行解决方案的制订和管理决策，以上工业大数据人才的要求将大大制约工业大数据产业发展进程。

整体上，工业大数据对复合型人才的能力需求更强烈，目前我国工业大数据的高级管理决策人才、数据分析人才、平台架构人员、数据开发工程师、算法工程师等多个方向均存在较大缺口，极大阻碍了工业大数据产业的发展。

工业大数据技术和应用的四大发展趋势

1.工业大数据应用的外部环境日益成熟

以工业4.0和工业互联网为代表的智能化制造技术已成为制造业发展的趋势，智能化制造技术的研究和应用推动了工业传感器、控制器等软硬件系统和先进技术在工业领域的应用，智能制造应用不断成熟，一方面正在逐步打破数据孤岛壁垒，实现人与机器、机器与机器的互联互通，为工业数据的自由汇聚奠定基础，另一方面进一步增强了工业大数据的应用需求，使得工业大数据应用的外部环境日益成熟。

2.人工智能和工业大数据融合加深

工业大数据的广泛深入应用，离不开机器学习、数据挖掘、模式识别、自然语言理解等人工智能技术清理数据、提升数据质量和实现数据分析的智能化，工业大数据的应用和安全保障都离不开人工智能技术，而人工智能的核心是数据支持，工业大数据反过来又促进人工智能技术的应用发展，两者的深度融合成为发展的必然趋势。

3.云平台成为工业大数据发展的主要方向

工业大数据云平台是推动工业大数据发展的重要抓手。传统的互联网大数据处理方法、模型和工具难以直接使用，增加了工业大数据的技术壁垒，导致工业大数据解决方案非常昂贵，云平台的出现，为工业企业特别是中小型工业企业随时、按需、高效地使用工业大数据技术和工具提供了便宜、可扩展、用户友好的解决方案，大大降低了工业企业拥抱工业大数据的门槛和成本。

4.工业大数据将催生新的产业

除了云平台，新的大数据可视化和自动化软件也能大大简化工业大数据的数据处理、分析过程，打破了大数据专家和外行之间的壁垒。这些软件的出现使得企业可以自主利用工业大数据，做相对简单的工业大数据分析，以及外包复杂的工业大数据应用需求给专业工业大数据服务公司，从而催生新产业，包括工业大数据存储、清理、分析、可视化等相关的软件开发、外包服务等。

国防大数据：抢占未来战争制高点的基石

大数据时代的国防建设需要新的国防战略思想体系来指导。未来作战是各军种一体化行动的联合作战，国防大数据生之于此，并可以更好地为未来联合作战服务。国防大数据是大数据在国防与军事领域的应用，是保卫国家主权、统一，领土完整和安全而展开的军事活动所生成的各种数据资源，是综合了国防和大数据的需求，表现了国防大数据主要的内涵和特点。

国防大数据要求处理数据更高效、数据来源更可靠、数据安全系数更高，注重将重大国防和军事任务进行数据融合，注重信息防御和数据安全管理，例如国防动员数据、军事情报、战场的实时动态、武器使用维护数据等。掌握国防与军事大数据的优势，才能打赢未来信息化战争，真正地把握未来战场的主动权。

与传统的大数据概念相比，国防大数据综合了大数据定义和国防应用需求，它具有大数据的一般特征，又具有其独特的军事特性。归纳起来，它继承了传统大数据“4V”特点，又具有其独特的“6S”特性。

从规模（Volume）上讲，大量的国防大数据研发项目提供了丰富的情报来源，随着现代数据获取手段和能力的提高，国防数据已经达到了PB级规模；

从种类（Variety）上说，国防数据包括国防战略数据、国防动员数据、国防科技数据、军事训练数据、装备保障数据等多种类型的数据，包含文本、图像、视频、音频、光电信等多种表现形式，种类混杂、处理难度高；

从速度（Velocity）上看，各类传感器、雷达、卫星产生的高速数据流，相比当前民用数据管理系统，写入速度大大加快；从数据价值（Value）方面分析，国防大数据对于国家安全、作战指挥、军事训练、行动决策、装备保障、军事人力资源管理等方面起着至关重要的作用。

一是超复杂性（SuperComplexity），国防大数据涉及面广、种类多样、信息维度高、冗余度大，分析处理难度远大于民用大数据；

二是超保密性（SuperSecrecy），军用数据直接关乎国家的安全，是敌方窃取的重点，需要更安全高效的保障；

三是高机动性（SpeedDeployment），当前战场形势瞬息万变，战场环境复杂，国防大数据应具备陆海空天电网空间灵活调配和互联互通的能力；

四是高安全性（Security），国防大数据在处理、存储过程中更多地考虑是否遭受打击等问题，因此其环境保障能力应较强；

五是强对抗性（StrongCountermeasures），国防大数据在情报侦察、武器控制、军事训练等方面体现了非合作的特征，也时常出现数据伪装欺骗、数据非法窃取等现象；六是强实时性（Sooner），战场机会稍纵即逝，处理数据速度越快、指挥链越短，越能更快地抢占先机，赢得战争的胜利。

习近平主席曾在网络安全和信息化会议上指出：没有信息化就没有现代化，没有网络安全就没有国家安全，要制定实施国家网络安全和信息化发展战略、宏观规划和重大政策，不断增强网络安全保障能力，信息技术十分重要，在国防军事领域运用大数据技术势在必行，也是实现中国梦、强军梦的具体战略举措。因此，在数据日益开源的情况下，充分利用国防大数据的价值，对于国防和军事现代化建设具有重大意义。首先，大数据是制订国防和军事战略计划的基础，构建国防和军事大数据技术平台，是科学制定国家战略的重要环节。大数据的重要特点之一是全数据，而不是样本数据，建立国防大数据仓库，可以详细记录和获取国防和军事领域所需要的全部数据，避免出现以偏概全的情况；通过对大量数据采集、分析、处理和配置，结合人工智能、计算分析等方法挖掘分析，可以发现有价值的规律，完成科学的预测，帮助制订合理有效的国防战略规划。

其次，大数据是进行信息化战争研究的重要手段，在战场情报获取、作战指挥决策等方面能够发挥重要作用。对战争的传统研究模式可以感知交战过程和作战结果，却无法模拟复杂多变的战场态势，无法呈现战争内在的关联和规律。运用大数据分析技术可以对各渠道得来的海量信息进行实时化、智能化处理和仿真模拟，更加科学地分配兵力兵器，形成高效的打击方案。

最后，大数据是打破体系内壁垒的有效方法。我军刚刚进行了一体化联合作战的改革，很多体制机制还不健全，原有的各军兵种之间的差异和壁垒很大。此前，各军兵种之间各自为战，各自拥有自主的指挥平台，没有实现互联互通，数据规模不等、格式不

一、质量各异，无法实现共享。通过大数据加强一体化指挥作战平台的建设和数据共享，加强各基层部队搜集数据、存储数据、共享数据的意识，可大大提高体系作战能力。

当前，依靠经验直觉进行作战指挥的优势正在急剧下降，大多数军事强国已经认识到利用国防大数据的意义，将大数据技术作为国防科技发展的重要方向。美军投入巨额资金，确定了“数据支持决策、弹性系统设计、网络空间战、电子战与电子防护、反大规模杀伤性武器、自主系统和人工系统”等重点研究领域。对于我国来说，加强国防军事数据的发展建设也刻不容缓。充分利用国防大数据的潜在价值，树立大数据理念、完善制度机制、加强数据专业技术人才培养、构建大数据决策支持系统，对推动我国国防和军队建设具有重要的战略意义。

金融大数据将成为宏观决策和监管的新工具

目前业内的金融大数据强调在微观层面的应用，例如评价消费者的信用风险、支持投资决策、识别金融主体的身份等。随着大数据分析和挖掘技术的不断提高，微观的金融大数据可以经过整合、匹配和建模，来支持宏观的金融监管和决策。传统的金融监管和决策以定性为主，辅助以简化的量化指标，对实际情况缺乏充分的把握，而大数据技术可以充分利用底层的细粒度的微观数据，整合分散的信息，融合不同维度的信息，带来具有及时性、前瞻性和更为准确的决策支持，提高监管水平和决策能力。本节将以金融系统性风险管理、银行存款保险费率的计算、对欺诈交易的检测和经济结构变化四个方面为例介绍金融大数据在宏观金融决策和监管中的应用。

（一）金融关联的系统性风险管理

金融危机之后，全球金融市场的关联性远胜于过去。市场的互动性一旦大大加强，就会导致流动性风险和系统性风险，造成市场恐慌。国内的信贷担保圈（多家企业通过互相担保或联合担保而产生的特殊利益群体）就是金融关联的典型代表。由于信贷市场的发展，关联的企业越来越多，互相形成担保圈，甚至形成一张巨大的网。在经济平稳增长期，担保圈会降低中小企业融资的难度，推动民营经济的发展。然而，一旦经济下行，担保圈就会显露其负面影响——加剧信贷风险。如若处理不当，极易引发系统性金融风险。过去几年，在南方企业担保流行的省份，往往一家企业出现信贷不良，一群企业遭殃，一个行业陷入泥潭，整个地区面临系统性风险，一些本来毫不相干，资金链正常，经营良好的企业也由于担保关联，跌入破产的深渊。

信贷市场担保圈问题一度愈演愈烈，传统的担保圈分析方法对理解、处理担保圈问题作用有限。企业之间担保贷款本来是一种中性的信用增进方式，恰当地使用会产生风险释缓作用，由于担保圈风险迭出，银行和监管部门把问题归结到担保贷款本身，目前各家银行采取了比较严格的限制条款来避免担保贷款的发生。

任何信贷产品都存在风险，金融机构本身就是经营风险的专业机构。本文的研究认为，从专业角度来说，担保圈风险发生的根本原因，是缺乏合适的风险管理工具，没有对担保圈进行正确的风险管理。

目前对于担保圈的量化风险分析存在以下问题。

首先是缺乏担保圈全量的大数据，没有足够的信息支撑。各家银行和当地的监管机构只有局部的企业担保关联数据，构不成完整的担保圈视图，风险信息有缺漏。无法了解整个担保圈相关企业的详细信息，因此处理具有系统性风险特点的担保圈风险具有很大的局限性。

其次是无法对担保圈风险进行建模，对风险进行正确的量化描述。传统的风险分析工具都是对单个企业进行风险建模，适合对企业的贷款金额、贷款质量以及信贷行为建模，对于企业之间的关联关系无法进行量化描述和风险分析。

因此我国有必要借助大数据的复杂系统分析方法，启动对担保圈的深入分析，为化解因担保圈引发的金融风险创造条件。要考虑到如下条件：一是央行征信系统已收集了大量丰富的企业担保关系数据。截至2015年底，中国人民银行征信中心为2146万企业建立了信用档案，有信贷记录的企业超过596万家，关联关系信息（仅限于有贷款卡的用户）超过2亿条。二是复杂网络技术已日趋成熟。复杂网络是由数量巨大的节点（研究对象）和节点之间错综复杂的关系（对象之间的关系）共同构成的网络结构。复杂网络分析技术针对越来越多、越来越复杂的事物之间的关联关系进行非线性建模，可以较好地解决大数据的数据量（Volume）、数据复杂程度（Variety）和处理速率（Velocity）等基本问题。

随着金融市场的创新和发展，金融风险变得越来越复杂，需要更多的数据支撑和复杂的数学模型来量化描述，大数据技术将成为未来金融风险管理的利器。

（二）银行存款保险费率的计算

2015年5月，作为金融市场化进一步深入的重大举措，银行存款保险制度正式开始实施，这不仅有利于稳定宏观金融，也对利率市场化后商业银行的稳健经营和有序竞争有利。存款保险费率的厘定是存款保险制度的一个核心，而保费的估算是设计存款保险方案中的难题之一。保费结构的设计，在很大程度上决定了存款保险对于参保银行的可接受度。想降低道德风险并减少逆向选择，取决于合理的保费结构。国内对于银行存款保险的研究以定性为主，对保险费率计算的量化分析比较欠缺。

从国外信贷数据的应用情况来看，信贷数据有助于银行监管者准确评估监管对象的信用风险状况。对于建立了公共征信系统的国家来说，风险分析技术可以成为有效的监管工具，由于银行业的危机通常和高的不良贷款率相关，信贷数据常常用于信贷市场监控和银行监管，是银行监管统计数据的补充。因此，央行信贷大数据不仅可以帮助商业银行管理信用风险，还可以支持监管和宏观经济分析。未来的研究可以利用信贷大数据，基于预期损失模型来计算银行存款保险费率，从最基础的信贷数据单元开始计算，给保费制定提供更加及时、准确的决策支持。

（三）进行精细化的金融监管

技术进步加上日益复杂的市场，会使得金融监管机构的工作变得艰难复杂，但大数据技术的发展提供了化解之道，让金融市场维持良性运转成为可能。如金融监管机构正利用计算和“机器学习”算法的最新进展，扫描金融市场信息和公司财报，从中找出欺诈或市场滥用行为的蛛丝马迹。这些基于大数据分析技术的新型监管工具是金融交易欺诈侦查的未来，有越多的数据积累，其功能就将越强大。美国证交会几年前就推出了一个被称为“机械战警（Robocop）”的计算机程序（学名“会计质量模型”），用证交会的金融数据库检查企业利润报告，从中搜寻可能隐藏的异常行为——激进的会计手法或赤裸裸的欺诈。“机械战警”的具体情况、手法，透露给外界的信息甚少，但其基本思路是：通过大数据分析，发现多个可能暗示着潜在会计问题的重要指标。

（四）观测产业结构调整的新角度

金融大数据的深入挖掘还可以反映宏观经济变化的规律。例如，可以通过信贷大数据来观测产业结构的调整。截至2015年底，2146万户企业及其他组织被收录进企业征信系统，有596万户拥有信贷记录，该系统累计提供信用报告查询服务6.1亿次。该系统数据有三大特点：

一、全面，数据采集覆盖了国内绝大部分金融机构；

二、真实，所采集数据来自金融机构实际发生的每笔信贷业务，统计结果得自每笔业务数据汇总相加，数据可追溯从而可还原每笔明细；

三、时间跨度长，企业征信系统始自银行信贷登记咨询系统，2005年起提供对外服务，已运行了十年有余，意味着系统收集的数据超过十年，因此，对于分析国内企业的行业行为和行业情况很有价值。例如可以将这些账户级的信贷数据，逐层整合成企业级和行业级，利用大数据挖掘、分析，从信贷市场角度剖析产业结构的变化。

蓝皮书指出，金融大数据分析可以成为宏观金融决策和监管的有力工具，可以在市场化金融发展的过程中发挥重要的作用。与微观金融大数据的应用方面很多金融科技公司没有足够的金融大数据的情况不同，国内的金融大数据都掌握在政府和监管部门的手中，金融大数据的宏观应用有着良好的数据条件，更容易见到成效。

旅游大数据将支持智慧旅游城市建设加快推进

蓝皮书指出，大数据城市建设，核心是要打破信息壁垒，通过信息共享互通，提高效率，将一个个“信息孤岛”有效地串联起来，将信息高速公路转化为现实的产业生态体系建设，形成“线上一条路，线下一个圈”的线上线下联合发展模式，充分体现出“智慧”的特点。依托旅游大数据，形成以智慧城市基础设施为依托，以各级旅游集散中心为枢纽，以旅游大数据平台为信息中枢，以智慧旅游技术产品应用为媒介的分析系统，为旅游者提供导航、导游、导览、导购的全程式旅游服务。同时，通过基于大数据“云+端”的架构处理，确保旅游监管系统、旅游信息发布系统、景区管理系统数据的统一。例如遵义市重点开发了旅游资源基础数据库和旅游大数据分析系统，并在景区的游客中心、宾馆饭店大堂、大型商场影院、机场、汽车站、火车站等客流密集区或重要节点安装智慧旅游多媒体查询显示屏。通过这种面向市场一线的架构处理，监管部门可确保多种系统运营的同步性、统一性和即时性。

旅游大数据平台可以收集互联网，例如论坛、博客、微博、微信、电商平台、点评网等有关旅游评论数据，通过网评大数据库进行分词、聚类、情感分析，了解游客的消费习惯、价值取向，从而全面掌握旅游目的地的供需状况及市场评价，为政府和涉旅企业做决策提供依据。如百度大数据产品百度预测已初步具备类似功能，可以预测景区未来两日的人流及舒适度，为游客出行提供指导。

推荐第4篇：大数据应用实例分析

电信运营商的阳关大道

——大数据应用实例分析

09012208

黄文婷

摘要：

随着全球数据化、网络宽带化，基本的数据量越来越大，由此我们进入了大数据时代。本文探讨了大数据内涵与意义，从电信行业这一大数据应用实例进行分析，介绍了大数据在电信行业的应用、必要性及相关措施。

关键词：大数据

电信

应用

正文：

一、大数据的内涵与意义

（一）大数据的意义

大数据和云计算一样，近两年来越来越多的受到人们的关注。那么什么是大数据呢？大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中，大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据的方法) 对于“大数据”（Big data），研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

（二）大数据的特性

大数据有4V特点：Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。包括网络日志、视频、图片、地理位置信息等等。第三，数据的来源，直接导致分析结果的准确性和真实性。若数据来源是完整的并且真实，最终的分析结果以及决定将更加准确。第四，处理速度快，1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”。

（三）大数据的应用意义

大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

此外，大数据的潮流虽然依赖于信息通信技术的成熟，但它对整个世界的影响绝不仅限于技术层次。它借助信息技术的创新与发展，及数据的全面感知、收集、分析与共用，引导我们以全新的思维看待世界，养成决策思维行为须根据事实与数据的分析判断，舍去凭借经验和直觉的习惯作风。可预见，它将对惯于“差不多”的思维造成巨大的冲击。

很多人一提到大数据，就会不由自主想到那个关于啤酒和尿布的经典案例。事实上，随着移动互联网、智能终端、云计算、物联网技术以及电子商务、社交媒体等应用的飞速发展，大数据已经越来越多的渗透到生活方方面面，宣告着我们已经进入了信息爆炸的大数据时代。电信运营商历经语音、短信、数据三个发展浪潮，积累了大量如文本信息、音频、视频、图片等非结构化数据，在大数据时代无异于拥有了一条发展的阳关大道。而机智的电信运营商也致力于研究如何在这条道路上比别人跑得更快以获得更多的利益。

二、大数据在电信行业的应用

（一）电信行业大数据应用的四个方向

现阶段电信运营商利用其拥有的大数据进行全面、深入、实时的分析和应用，是应对新形势下的挑战、避免运营商沦为管道化的关键。从大数据的具体应用方向来看，当前应主要集中在四个方向：流量经营精细化、智能客服中心建设、基于个性化服务的客户体验提升以及对外数据服务。

1.流量经营精细化

在流量经营精细化上，大数据应用的价值主要体现在深入洞察客户、助力精准营销和指导网络优化三个方面。首先，基于客户终端信息、手机上网行为轨迹等丰富的数据，借助DPI (Deep Packet Inspection，深度数据包检测)技术等，建立客户超级细分模型，为各细分群组客户打上互联网行为标签，可以帮助运营商完善客户的360度画像，帮助运营商深入了解客户行为偏好和需求特征；其次，根据用户行为偏好，推送合适的业务，并根据对客户特征的深入理解，建立客户与业务、资费套餐、终端类型、在用网络的精准匹配，同时也能做到在推送渠道、推送时机、推送方式上满足客户的个性化需求，实现全程精准营销；再次，利用大数据技术实时采集处理网络信令数据、监控网络状况、识别价值小区和业务热点小区，更精准地指导网络优化，实现网络、应用和用户的智能指配。 2.智能客服中心建设

作为运营商与客户接触的第一界面，客服中心(或称客户联络中心)拥有丰富的数据资源，可以称得上是客户信息的“聚宝盆”，利用好客服中心的客户接触数据对于建设智能化客服中心意义重大。利用大数据技术可以深入分析客服热线呼入客户IVR(Interactive Voice Response，互动式语音应答)行为特征、访问路径、等候时长等；同时结合客户历史接触信息、基本属性等可以建立热线呼入客户的智能识别模型；基于客户智能识别模型可以在某类客户下次呼入前预先推测其呼入的需求大体是什么，IVR接入后应该走什么样的节点和处理流程。这样，就可以基于呼入客户习惯与需求的事先预测而设计按键菜单、访问路径和处理流程，合理控制人工处理量，缩短梳理时限，为客户服务中心内部流程优化提供数据支撑，有助于提升热线服务管理水平，加速热线营销渠道资源整合，有效识别客户投诉风险，助力智能客服中心的建设。

3.基于个性化服务的客户体验提升

大数据时代对于运营商为客户提供服务来说更加侧重于“小”，即更加关注每个个体“小我”的个性化需求，而融合了电商、医疗、社交等方面信息的“大”数据正是为了更深入的理解“小我”、服务好“小我”。利用大数据技术，一方面可以建立更全面、丰满的客户画像，另一方面还可以量化分解客户接触信息，识别客户特征与习惯偏好，预测客户可能在何时手机会出现故障、何时会产生换机行为等，为客户提供定制化的服务，优化产品、套餐和定价机制，实现“一户一策”的差异化、个性化服务，提升客户体验与感知。由此可见，大数据将为移动互联网时代的客户服务带来一次变革，给客户服务带来极大的想象空间和无限的发展前景。 4.对外数据服务

对外数据服务是大数据应用的高级阶段，这个阶段电信运营商不再局限于利用大数据来提升内部管理效益，而是更加注重数据资产的平台化运营。利用大数据资产优势，将数据封装成服务，提供给相关行业的企业用户，为合作伙伴提供数据分析开放能力。例如，Telefonica和Verizon已经成立专业化数据公司来运作对外数据售卖的服务。再如，如果将无线城市与物联网、电子政务等方面的信息结合起来，将能为电信运营商的数据和政府的政务数据增值，对于打造一个开放数据平台和民生服务平台有重大意义。让数据在不同行业之间流动起来，实现体外循环将能进一步释放数据的价值。当然，以简单的Data Seller模式售卖数据服务时，需要注意保护客户隐私、打消隐私顾虑。

（二）电信行业大数据应用的效益

网络上的每笔搜索，网站上的每笔交易，敲打键盘、点击滑鼠的每一个动作，都在输入数据，经过整理分析后，它可能显示市场的脉络、甚至更具商业价值的开发着力点。曾有统计，运用大数据的分析，可以让公司增加50%的新客户，让政府减少30%的成本。这些如海潮般涌入的大量资料，正是云端时代的新金脉，已经创造出惊人的效益。

三、大数据在电信行业应用的必要性与措施

电信运营商拥有大量的数据资源，如网络信息、用户终端信息、用户位置信息等，只要对电信网络有深刻的理解和技术积累，具有敏锐的行业发展嗅觉和强大的产业研发能力，基于大数据进行深度挖掘分析，将丰富的网络、用户等数据资源加工抽取后封装为服务，将数据资源在一定程度上货币化，向大客户提供增值服务，就能增加新的盈利模式。这无疑是电信运营商发展盈利的一条阳关大道。

面向大数据时代，运营商的及时转型成为必然，否则将有被互联网企业超越的可能性。理论上讲，运营商拥有颇具优势的大数据资源并不是完全不可替代，例如，用户的位置信息就可以通过多种APP应用获得，用户的网络使用信息也可以通过多家互联网企业合作获取，互联网企业通过泛互联网化收集更多的大数据信息。另一方面，多行业的垂直整合将成为趋势，在数据应用层面，行业企业通过多种手段搜集大量的用户数据，将更贴近用户，更理解用户，为其提供更适当的服务，大数据将成为资产更具有战略意义，各个行业及单位都在关注大数据。

根据大数据数量大、时效性要求高、数据种类及来源多样化等特征，运营商首先获取更多有用的大数据资源，例如，很多的网络运行信息，包含大量有价值的用户行为和位置信息，这样的信息可以加以利用。有了资源应该加以利用，避免大数据资源的浪费。事实上，一些运营商拥有大数据这样的金山，却似乎无奈坐看并逐渐沦为管道，在不断强化传统市场的效益考核，却好像在忽视大数据价值的流失。

大数据在电信行业应用措施主要有三个方面：

1）梳理并整合业务部门对大数据的需求，立足分析需求，做好大数据的IT体系构架的规划。大数据相关技术条件的成熟、大数据分析能力及分析应用经验的积累等多方面因素，都是制约企业建设的建设IT系统的条件，要充分抓住大数据带来的机会并避免“心急吃不了热豆腐，反被热豆腐伤害”的问题。

2）落实基于品质管理资料的经营新模式。面对大数据时代的趋势潮流，学会既然无从抗拒，就积极响应，以共享大数据带来的潜在效益。

3）以职能部门提供整体IT支撑方式向嵌入业务流程实时数据的分散能力支撑方式转变。这种转变趋势又称IT支撑“消费化”趋势。在大数据时代，数据从支撑企业中高层运营管理决策普及到支撑企业的产品运营、市场运营、客户服务，甚至在智能管道运营全流程中涉及从企业中高层运营管理人员到基层生产执行人员，很明显，这种数据获取和分析能力如果集中在IT职能部门，而不是全体人员均结合自身业务需求而具备的话，大数据分析驱动的各项运营管理应用即成为不可能的任务。

四、结语从电脑技术的演进来说，“大数据”是既资料探勘、云端计算之后一项革命性的趋势发展。庞大的数据资源迫使各个领域的运作造成量化的质变，目前全世界无论是学术界、企业界、产业界甚至是政府单位都在积极研究大数据分析。在这种背景下，电信行业也结合自身特征，进行相关的研究与应用，奔跑在大数据铺就的阳关大道上，成为激烈竞争中的新赢家。

参考文献：

[1]黄小刚．电信行业大数据应用的四个方向．业务与运营．2013(6)：26-28 [2]季鸿，张秀凤，柴林麟．大数据在电信行业的应用展望．通信企业管理．2014(1)：76-77 [3]卢云许．电信行业大数据应用浅析．信息工程系统．2013(12)：29-30 [4]潘海鹏．浅谈电信行业大数据的意义与应用．电子世界．2014(3)：21-23 [5]史斌，周双阳．电信行业如何应用大数据．新引擎．2013（7）：47

推荐第5篇：社区大数据应用讨论

社区大数据应用讨论

代收包裹只是开发商利用末端配送优势所提供的新服务之一。深圳开发商某公司早已推出一款名为“彩生活”的app，它集合了社区周边一公里内衣、食、住、行、娱、购、游等商户资源的平台，通过审核把关，构建社区一公里微商圈。比如住户可以随时用app下单叫外卖、预约洗车服务、预约家政上门服务等。一方面是使用方付费，只需要住户往系统的个人账户里预存一部分钱，就有人按约定时间提供老人按摩等，每参与一次扣一次钱。跟百度广告系统一样，按点击（服务）付费。而商户也要缴纳一部分的广告费用。

在传统的房企运营模式里，物管长期以来是以低利润的房企配套服务身份存在，大多数房地产下属的物业管理公司也以博口碑为主，服务水平越高，则利润就会越低，大部分的中小开发商物管是亏损经营，大型开发商的物管利润率很低。比如2012年碧桂园实现了接近6亿元的物业管理收入，但利润约为6,000多万元。

可是在互联网浪潮正在颠覆所有传统商业模式的今天，曾经是“赔钱货”的物管因为其拥有庞大的白领客源数据库，正在变成会下金蛋的鹅。以上述的某公司彩生活为例，目前彩生活收入以及利润占某公司集团整体不足一成，不过已连续三年复合增长超过25%。2012年，彩生活实现收入1.85亿元，同比增长48%；净利润超过4,000万元，净利率达14%，毛利率高达40%以上。远高于同行的水平。在2013年6月，某公司完成了一笔700万美元的融资，这笔融资不是用于买地或还款，其总裁潘军称，这笔钱将主要用于物管平台彩生活业务的运营，主要为“2.1”版的彩生活社区进行光纤到户的投资。

除了利用网络平台营造社区一公里“微商圈”，与电商结合解决“最后一公里”难题外，房企所掌握的社区平台还有着更多的可挖掘空间。

在2013年末，万科入股徽商银行，越秀地产收购香港创兴银行等等事件，普遍被地产媒体认为很可能是为了打通更多的融资渠道，获得更多的低息资金。但其实像万科、越秀地产等资金实力充足，很容易就可以发现低息高等级美元债券的开发商，所谋并不会像常人一眼所见那么明显。

2014年初的将经理人手捧热咖啡，品尝精美餐点，分享了一份中国家庭金融的研究成果。在《万科周刊》上可以看到，这份中国家庭金融研究的ppt，关注了中国不同地区家庭的资产结构、资产管理方面的现状。联想到万科董秘谭华杰在万科入购徽商银行后称，参股商业银行是为了更好地满足公司客户在金融服务方面的需求，可望发挥协同效应，帮助公司率先向客户提供国内领先的社区金融服务，提升公司在全面居住服务方面的竞争力。

对于以小贷为主的徽商银行而言，万科的年轻白领业主群与它的创业类小微信贷客户群有一定重叠。而且开发商可以通过长时间的数据采集，以及房产状况的评估，对业主的诚信度、支付能力等做出较为准确的描述。而且社区金融服务并不止贷款那么简单，还可以包括许多金融延伸服务如开发销售理财产品；进社区开展金融知识与服务讲座；涉足电商经营等。这些宝贵的中产客户资产、行为分析数据可以说是私人银行们梦寐以求的样本。而进一步的话，开发商所掌握的社区平台，还可以成为小微企业孵化平台，帮助社区创业的人做所有不愿做的繁琐事情，比如公司核名，注册，年审，审计，法律援助等各种公共服务，还可以帮助企业引资。

推荐第6篇：大数据的海关应用

大数据是一个相当热门的词。所谓的大数据技术指的数据分析的前沿技术。简言之，大数据技术就是一种从海量数据中快速获得有价值信息的能力。对于“大数据”(Big data)，研究机构Gartner给出了这样的定义：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。上海腾道

作为一项重要的技术革新，大数据技术具有以下几方面特点：一是数据基础必须具备海量特性;二是可以根据设定好的管理或经营目标反向寻找管理中实际存在的关键节点和核心环节;三是数据重新梳理有助于提升决策力和修正决策方案、使既有信息资产爆发更大价值。而这几方面的特点，与海关审计工作的各项需求是相契合的，海关当前林林总总的信息系统的建设，也为运用大数据技术实现审计信息化奠定了良好的基础。

那么对于海关来说这些大数据有着什么样的作用？

1.拓展基础数据资源

一是丰富海关执法相关领域基础数据源，打破部门之间存在数据壁垒，实现海关缉私行政执法数据、稽查数据、监管场所信息、口岸单位数据等的关联比对，尤其要打破目前各关区和海关各业务系统之间的数据壁垒，实现信息互联互通。二是海关预算和财务管理方面，引入海关通用财务管理、固定资产管理等现有信息系统的基础数据，打破现有系统之间数据分散、相互独立、无法互通的现状，实现“财”与“物”的联动比对，实现海关所有信息系统之间数据的对碰分析。三是推动海关有关部门进一步加大对物资采购、基建修缮等领域信息系统的开发建设，为实现财务管理、政府采购、基建修缮、资产管理的横向联动分析以及海关总署-直属海关-隶属海关三级纵向联动分析奠定基础。

2.完善现有海关系统

以海关执法廉政风险预警处置系统为依托整合优化执法领域审计数据分析平台，在充分利用现有系统数据资源和监控功能的基础上，开发定制部分海关审计监控指标，完善构建按照不同系统用户形成涵盖全国海关数据指标集中展示和预警模块。同时引入大数据思维，开发适应海关常规审计和经济责任审计实践需要的功能，一方面突出对被审计单位贯彻落实海关总署党组重大决策、重要政策执行、业务发展动态和变化趋势的整体分析把握，更突出对执法统一性、自由裁量权规制、高风险节点指标等落实情况的监控。另一方面，要充分应用结构分析、多维分析、挖掘分析等分析方法，开展海关横向区域间对比分析、跨业务领域数据结合分析和纵向历史趋势分析，为有效发现系统性、区域性风险提供数据支撑。

3.外购公认的优秀大数据服务

先进的分析技术和大数据工具的进步神速，它们正以前所未有的方式帮助用户获取新的统计角度和结果。Tableau、Qlikview和NoSQL等工具和平台迅速崛起带来了全新的分析视角和机会，基于成熟的分析、视觉化以及数据管理的全新生态系统也以日新月异的速度改变着信息使用者的分析能力。可提供这类工具的供应商不胜枚举，开放资源的开发商数量更是不计其数。作为海关审计的大数据建设，应该不仅仅局限于海关自身的技术开发力量，更为重要的是学会怎么利用现有的比较成熟的数据采集和挖掘手段，以降低成本，提升海关审计监督效益。

推荐第7篇：证券行业大数据应用

证券大数据应用

一、可能获得的数据源

1.投资者信息（实名认证信息、联系方式、证券账户、理财账户等） 2.投资者个人交易数据（股票交易、基金交易、互联网证券交易等） 3.投资者个人行为数据

4.股市交易数据/实时行情等

5.上市公司/准备上市公司数据（基本资料、财报等） 6.宏观经济数据 7.政策法规

8.行业投资案例库 9.行业分析报告

10.互联网金融相关媒体数据

11.互联网金融垂直社区数据（例如雪球投资组合） 12.各行业垂直门户网站数据

13.社会化媒体数据（微博、微信公众号、论坛、新闻资讯门户等） 14.各行业电力运行数据

以上数据有些可直接由券商系统（门店数据、终端APP等）即可获取，有些需要从合作机构获取，有些只能通过垂直爬虫爬取聚合。

二、有了大数据能干什么对投资者（2C）：

投资建议：例如券商官方推荐，类雪球投资组合、京东财谜的去中心化推荐投资社区：雪球、天厚投资社交等在线证券交易在线投资理财财富管理量化投资分析

对公司（2B）：公司投资理财公司投资并购股权众筹

公司舆情监控分析竞争分析/竞争情报行业分析报告

对券商本身：

用户获取/盘活：大券商盘活存量用户、中小券商获取增量用户

用户账户的建立与持续运营：通过有粘性的服务（例如雪球投资组合），引导用户绑定互联网证券理财账户、证券账户，打通用户账户体系，持续运营。综合金融服务：股票、投资、理财、众筹、投行、财富管理投资报告：行业分析报告、投资建议平台基础设施：大数据风控等线上线下渠道一体化客户流失跟踪潜在客户挖掘

三、运营体系

目标用户群分析（2B、2C，线上目标用户群、线下目标用户群）建立有粘性的互联网产品及服务线上+线下获取用户/盘活用户

基于大数据，持续完善产品、持续运营用户

《数据挖掘技术在证券行业中的应用》姚毓才 1.客户关系管理

用客户交易数据统计出每个客户的交易情况，根据客户行为进行聚类。建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据，并通过对这些数据进行挖掘和关联分析，实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类，找出最有价值和盈利潜力的客户群，以及他们最需要的服务，更好地配置资源，改进服务，牢牢抓住最有价值的客户。通过对客户资源信息进行多角度挖掘，了解客户各项指标（如资产贡献、忠诚度、盈利率、持仓比率等），掌握客户投诉、客户流失等信息，通过对客户数据聚类，将客户进行分群，考察每类客户对证券公司的贡献情况，这样可以根据客户的产生类别的交易行为等其他特点知道该类用户是否对公司具有价值，并且证券公司根据客户行为的特点对贡献度大的客户类采取相应的政策照顾，并且还能吸引某些行为类似的贡献度较低类的客户发展为较高贡献的客户。 2.股市基本分析

任何金融资产的“真实”价值等于这项资产的所有者的所有预期收益流量的现值。具体地说，分析家不仅需要预测折现率，而且还必须预测这种证券的每股平均收益和派息率。证券的真实价值一经确定，就可以用来与这种证券的市场价格进行比较，从而鉴别这种证券的定价是否恰当。如果真实价值低于市场当前价格，那么该证券价值是被高估了，应该卖出；如果证券的真实价值高于市场当前价格，那么该证券价值是被低估了，应该买进。具体的分析策略包括宏观经济信息、产业分析、区域分析和公司分析几类。 3.股市技术分析

利用时间序列预测股票价格。数据挖掘是对大量的历史数据进行处理和分析，提炼出有价值的信息（表现为规则、模型等模式信息），其中的时间序列模型，可以用于股票价格的预测。 4.经营状况分析

通过数据挖掘，可以及时了解营业状况、资金情况、利润情况、客户群分布等重要的信息。并结合大盘走势，提供不同行情条件下的最大收益经营方式。同时，通过对各营业部经营情况的横向比较，以及对本营业部历史数据的纵向比较，对营业部的经营状况做出分析，提出经营建议。 5.咨询服务

根据采集行情和交易数据，结合行情分析，预测未来大盘走势，发现交易情况随着大盘变化的规律，并根据这些规律做出趋势分析，对客户针对性进行咨询。 6.风险防范

通过对资金数据的分析，可以控制营业风险，同时可以改变公司总部原来的资金控制模式，并通过横向比较及时了解资金情况，起到风险预警的作用。

推荐第8篇：浅谈大数据的应用

大数据的发展与应用

姓名：吕亚茹专业：信息与计算科学

（二）学号：201100702040 摘要：随着网络信息化时代的日益普遍，移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域，我们正处在一个数据爆炸性增长的\"大数据\"时代，大数据在人类活动中的方方面面产生深远的影响，大数据时代对人类的数据驾驭能力提出了新的挑战与机遇。大数据的应用日益广泛，大数据最具潜力的应用领域也在日益显现。

关键字：大数据发展应用潜力云计算

一、大数据的基本概念

大数据（Big Data）是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息，定制出高度个性化的用户体验，并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。

二、大数据的四个特征

大数据具有四个四个特征：海量性、多样性、高速性、易变性。

海量性：企业面临着数据量的大规模增长。例如，IDC最近的报告预测称，到2020年，全球数据量将扩大50倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。简而言之，存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外，各种意想不到的来源都能产生数据。

多样性：一个普遍观点认为，人们使用互联网搜索是形成数据多样性的主要原因，这一看法部分正确。然而，数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中，部分传感器安装在火车、汽车和飞机上，每个传感器都增加了数据的多样性。

高速性：高速描述的是数据被创建和移动的速度。在高速网络时代，通过基于实现软件性能优化的高速电脑处理器和服务器，创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。根据IMS Research关于数据创建速度的调查，据预测，到2020年全球将拥有220亿部互联网连接设备。

易变性：大数据具有多层结构，这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据，大数据存在不规则和模糊不清的特性，造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式，能够被标准的商务智能软件识别。目前，企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。

三、大数据时代数据的三个特征

除了大数据的四个特征，大数据时代的数据还呈现出其他三个特征。第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

第二个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。

第三个特征是处理速度快，时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

四、大数据对人类的影响

（一）大数据对人类经济社会的影响

大数据对人类经济社会发展影响巨大，归纳起来主要有三个方面：

一是能够推动实现巨大经济效益。据麦肯锡全球研究院测算，大数据将给美国医疗服务业带来3000亿美元的价值，使美国零售业净利润增长达到60，使制造业产品开发、组装成本下降50。而大数据所带来的新的信息技术应用需求，将推动整个信息技术产业的创新发展，预计2013年全球大数据直接和间接拉动信息技术支出将达1200亿美元。

二是能够推动增强社会管理水平。大数据在政府和公共服务领域的应用，可有效推动政务工作开展，提高政府部门的决策水平、服务效率和社会管理水平，产生巨大社会价值。欧洲多个城市通过分析实时采集的交通流量数据，指导驾车出行者选择最佳路径，从而改善城市交通状况。

三是能够推动提高安全保障能力。大数据在国防、反恐、安全等领域的应用，将对各部门搜集到的各类信息进行自动分类、整理、分析，有效解决情报、监视和侦察系统不足等问题，提高国家安全保障能力。总而言之，大数据将为人们认识世界和改造世界提供新的强有力工具，使人们能更加容易地把握事物规律，更准确地预测未来。

（二）大数据对教育的影响

大数据时代推动教育的改革。

“一张试卷，它带给我们的数据是什么？分数的背后，还能读到什么有价值的信息？不得不承认，对于学生，我们知道的太少”——这是卡耐基在梅隆大学教育学院介绍中的一句直白，这同样是美国十大教育类年会中出镜率最高的核心议题。

大数据与传统数据最本质的区别体现在采集来源以及应用方向上。传统数据的整理方式更能够凸显群体水平——学生整体的学业水平，身体发育与体质状况，社会性情绪及适应性的发展，对学校的满意度等等。而大数据有能力去关注每一个个体学生的微观表现，诸如他在一道题上逗留了多久，在不同学科课堂上开小差的次数分别为多少等等。这些数据对其他个体没有意义，但所有学生的数据整合起来就能解答教育过程中的许多疑问。而最有价值的是，这些数据完全是在学生不自知的情况下被观察、收集的，只需要一定的观测技术与设备的辅助，而不影响学生任何的日常学习与生活。

举例来说，数据驱动教育工具已经在美国很大范围内使用了。16个州的学校，使用数据勘探技术去确认处于危险中的学生。通过使用关键因素(如旷课，纪律问题，课堂表现变化)预测模式，教育者可以确认哪些学生最有可能退学。大数据通过对于学生在课堂中点滴微观行为的捕捉，帮助我们了解学生对知识的掌握程度以及感兴趣程度，进而反思我们的教学是否满足了学生的需求。有了大数据，教育工作者们就需要针对分析出来的结果对教育模式进行适时的变更，从而真正做到以人为本、因材施教。

（三）大数据对现实生活的影响

大数据对现实生活的影响

数据产生方式现在已经被极大地改变，因为以前数据的生产都是由专业团体、专业人士，或者是专业公司完成，而现在数据产生更多是个体行为、是个人，每个人都可以使用自己所采集的终端来产生大量的数据。数据传统途径也发生了很大的变革，以前获取信息的来源基本上是报纸等平面媒体，或者电视、广播等传播媒体；现在很多信息来源通过互联网。互联网已经变成了媒体传播的主要途径，这个改变对整个社会也产生了非常大的改变。社交环境网络化变革，以前交朋友更多是生活的圈子，比如说同学、邻居、亲戚，现在更多的通过是互联网这种虚拟的环境。

数据存储习惯发生变化，以前都是把照片和文件备份到自己的电脑或者软盘上。现在这种观念已经改变，除非做保密工作，或者是年纪大一点的另当别论，大多数人就把它放到网上，在云中进行存储。社会安保系统变革，现在还没有真正实现，实现之后会对人们生活有非常大的变化。现在整个社会安保，整个城市里面已经有很多的传感器、摄像头等，通过它们可以使得社会变得更加安定，或者说发生案件会快速破案，这个系统对现在的安保系统会带来非常大的冲击。

2012年图像和视频数据在整个大数据的比例已经占到80%多，今年图像和视频数据在整个大数据的比例已经接近90%，真正的大数据核心是如何进行数据处理、如何挖掘数据，并找到数据的规律。而大数据处理是人们首先要解决的问题。

五、大数据最具潜力的应用领域

大数据在企业商业智能、公共服务和市场营销三个方面拥有巨大的潜力。

（一）大数据在商业智能的应用潜力

过去几十年，分析师们都依赖BI工具分析海量数据并生成报告。

传统BI工具主要用于企业运营，侧重于成本控制和计划执行报告。

而大数据技术最主要的功能/应用是ETL（Extract、Transform、Load）今天计算和存储硬件变得非常便宜，配合大量的开源大数据工具，人们可以非常“奢侈”地先抓取大量数据再考虑分析命题。可以说，低廉的计算资源正在改变我们使用数据的方式。

此外，处理性能的大幅提高（例如内存计算）使得实时互动分析更加容易实现，而“实时”和“预测”将BI带到了一个新的境界——未知的未知。这也是大数据分析与传统BI之间最大的区别。

（二）大数据在公共服务的应用潜力

大数据另外一个重大的应用领域是社会和政府。如今，数据挖掘已经能够预测疾病暴发、理解交通模型并改善教育。

今天，城市正面临预算超支、基础设施难题以及从农村和郊区涌入的大量人口。这些都是非常紧迫的问题，而诚实，也是大数据计划的绝佳实验室。以纽约这样的大都市为例，政府公共数据公开化、以及市民生活的高度数字化（购物、交通、医疗等）等都是大数据分析的理想对象。

客观的市政数据，是消除争端，维系公民社会的最佳纽带。当然，前提是让公民能够访问这些数据。苹果的Siri和谷歌的Google Now都具备成为个人化助理的潜力。当然，我们还需要更多的产品和技术让数据分析结果更容易被公众理解和接受（数据可视化）。此外，IBM的Watson以及Wolfram Alpha这样的人工智能技术还能实现与用户的互动。

（三）大数据在市场营销的应用潜力

大数据的第三大应用领域是市场营销。具体来说，是提升消费者与企业之间的关系。（卖得更多、更快、更有效率）

今天，最大的数据系统是web分析、广告优化等。今天的数字化营销与传统营销最大的区别就是个性化和精准定位。如今，企业与客户之间的接触点也发生了翻天覆地的变化，从过去的电话和邮件地址，发展到网页、社交媒体账户、博客等等。在这些五花八门的渠道里跟踪客户，将他们的每一次点击、收藏、“顶”、分享、加好友、转发等行为纳入企业的销售漏斗中并转化成收入是一个巨大的挑战。也就是所谓的“360度客户视角”。大数据已经与在线营销交织在一起，其应用可以分为两大类：首先，从线上到线下。配备了NFC近场通讯技术的智能手机和基于位置的签到正在成为营销人员的最新利器。他们将能跟踪商场人流，把在线零售的分析优化应用于线下。

其次，数据分析工具将更加容易使用（面向中小企业应用的大数据创业非常火爆），中小企业也许没有BI平台，但他们都有平板电脑和智能手机，移动版客户智能分析将会改变企业使用营销工具的方式。参考文献：

[1] 李建义.数据库原理及开发.北京：中国水利水电出版社， 2005 [2] 维克托·迈尔·舍恩伯格.大数据时代.浙江：浙江人民出版社 2012 [3] 艾伯特-拉斯洛·巴拉巴西 .爆发.[4] 关志刚 IT经理网 2012

北京：中国人民大学出版社 2012

推荐第9篇：大数据的商业应用

大数据的商业应用

对大数据的开放和应用将对社会、商业和个人都产生巨大而深远的影响。目前我们已经观察到或者可以预测到的影响包括但不仅限于以下几个方面。

第一，围绕大数据的应用将激发前所未有的创新浪潮。社交网络的流行和物联网的建设使得对个体和群体（无论是人或物）的实时观察和了解正在逐渐成为可能，这为预测群体行为和了解个体偏好提供了强有力的工具。利用大数据这一特性的应用已经在多个领域展现其惊人的威力和创新能力。

第二，大数据的开放将极大地提升社会的公开透明度和提高政策制定的效率。一方面，多种类型数据的公开大大提升了政府的透明度，通过公众的监督提高民主程度。另一方面，通过为大众提供创新的平台，充分汲取群体的智慧，有效榨取数据的可利用价值，反过来可以提升社会效率和政府效率。

第三，随着大数据时代的来临和深化，在商业、经济及其他领域中，决策行为将日益基于数据和分析而做出，而并非基于经验和直觉。伴随着数据的大量累积和数据处理能力的不断提升，利用数据来进行判断和预测的能力将会得到无限的放大，数据将引领社会前进的方向。第四，个人成为大数据链条中不可或缺的一环，而对数据的依赖将改变人类的生活方式。

对银行的影响

（一）大数据提供了全新的沟通渠道和营销手段

一方面，社交媒体的兴起给银行提供了全新的与客户接触的渠道。已经有多家银行开通了官方微博，通过树立社会化的形象，拉近与客户之间的距离，利用社交媒体的力量，往往能够取得意想不到的效果。光大银行在2011年4月份通过其官方微博发起了“95595酒窝哦酒窝——光大电子银行酒窝传递活动”，向网民征集酒窝照片，并由参与者向好友进行传递，征集的照片会组成一个笑容墙展示，一个月的时间里有超过740000人参与了活动，使得光大银行的客服电话号码一夜走红。

另一方面，通过打通银行内部数据和外部社会化的数据可以获得更为完整的客户拼图，从而进行更为精准的营销和管理。银行本身拥有客户的大量数据，通过对数据的分析可以获得很多信息，从而成为进行管理和营销的依据。但由于银行拥有的客户信息并不全面，这种分析有时候难以得出理想的结果甚至有可能得出错误的结论。比如说，如果某位信用卡客户月均刷卡6次，平均每次刷卡金额500元，平均每年打3次客服电话，从未有过投诉，按照传统的数据分析，该客户是一位满意度较高、流失风险较低的客户。但如果看到该客户的微博，得到的真实情况是：工资卡和信用卡不在同一家银行，还款不方便，好几次打客服电话没接通，客户多次在微博上抱怨，该客户流失风险较高。

（二）大数据滋生了新型金融业态参与市场竞争

大量的数据来源和强大的数据分析工具正催生出很多新的金融业态来直接瓜分银行的信贷市场。在英国，一家叫做Wonga的公司利用海量数据挖掘算法来做贷款业务，他们大量使用社交媒体和其他网络工具，将客户的信息碎片关联起来，预测客户的违约风险，为其信贷业务提供依据。在中国，阿里巴巴旗下的阿里信贷自2012年8月起全面向普通会员开放，提供无抵押、无担保的低额贷款。而其依仗的正是掌握在手中的海量客户经营数据，有了这些数据，阿里巴巴可以说是对客户的资信状况了如指掌，从而最大程度地降低了信贷业务的风险。如果说像Wonga这种需要去网络上搜集数据来进行放贷的公司尚不足为惧，那么像阿里巴巴这种本身拥有雄厚客户基础和海量数据资产的公司介入信贷行业，将对行业格局产生深远的影响。“网络融资”可能成为 20 年后的主流，甚至可能发展到资金供需信息直接在网上发布并匹配，供需双方直接完成资金融通。

（三）利用数据的能力日益成为银行竞争的关键

麦肯锡在其研报中分析了不同行业从大数据浪潮中获利的可能，金融行业拔得头筹。作为金融行业的主要组成部分，银行业利用数据来提升竞争能力具有得天独厚的条件。

第一，银行业天然拥有大量的客户数据和交易数据，这是一笔巨大的财富。第二，银行业面临的客户群体足够大，能够得出具有指导意义的统计结论。

第三，在“小数据”时代，银行业已经在以信用评级模型和市场营销模型为代表的数据分析上积累了大量的实战经验，具备向“大数据”分析跨越的基础。随着“大数据”时代的来临，银行运用科学分析手段对海量数据进行分析和挖掘，可以更好地了解客户的消费习惯和行为特征，分析优化运营流程，提高风险模型的精确度，研究和预测市场营销和公关活动的效果，从每一个经营环节中挖掘数据的价值，从而进入全新的科学分析和决策时代。在这种情况之下，利用大数据的能力将成为决定银行竞争力的关键因素。

（四）从长远看大数据将全面颠覆金融服务形态

从长远来看，随着数据化和网络化的全面深入发展，金融服务将向虚拟化方向发展，从而全面颠覆金融服务形态。一是产品的虚拟化，资金流将越来越多地体现为数据信号的交换，电子货币等数字化金融产品的发展空间巨大。二是服务的虚拟化通过移动互联网、全息仿真技术等科技手段，银行完全可以通过完全虚拟的渠道向客户提供业务服务，现有的实体柜面可能趋于消亡。三是流程的虚拟化，银行业务流程中各类单据、凭证等将以数字文件的形式出现，通过网络进行处理，从而提高处理的便利性和效率。在这样的服务形态下，银行的整体运作就是一个数据的洪流，“数字金融”得以全面实现，银行的管理理念和运营方式也随之得以全面颠覆。

银行的发展方向

（一）促进金融服务与社交网络的融合

商业银行要打破传统数据源的边界，更加注重社交媒体等新型数据来源，通过各种渠道获取尽可能多的客户信息，并从这些数据中挖掘出更多的价值。

一是整合新的客户接触渠道，充分利用社交网络的作用，增强对客户的了解和互动，树立良好的品牌形象。

二是注重新媒体客服的发展，利用论坛、聊天工具、微博、博客等网络工具将其打造成为与电话客服并行的重要服务渠道。

三是将银行内部数据和外部社交数据互联，获得更加完整的客户视图，从而进行更为高效的客户关系管理。

四是创造性利用社交网络数据和移动数据等进行产品创新和精准营销。比如，当银行通过客户的移动定位信息知道该客户正在某商场购物，便自动发送关于该商场的某餐馆的刷卡促销活动的短信；设计新产品的时候在网络上征求客户意见，激发客户参与的热情，在了解客户需求的同时达到良好的宣传效果。

五是注重新媒体渠道的舆情监测，在风险事件爆发之前就进行及时有效的处置，将负面影响降至最低。

实现金融服务与社交网络的融合存在一些现实的困难，只能通过不断摸索的方式前进。首先，银行难以得知客户在社交网络上的用户名，也就难以进行数据整合。可以考虑进行一些针对性的市场活动来收集客户的用户名，或者在将来的客户申请表上添加社交网络用户名的选项。也可以考虑和社交网络进行直接的合作，在实名制的社交网络上，可以利用客户的官方证件号码来实现客户信息的对接。

其次，目前尚缺乏成熟有效的非结构化数据的处理工具。在初期可以采取半人工的方式进行处理。IT业投入在非结构化数据处理工具的研发力量非常强，相信不久的将来就能够有相对成熟的分析工具问世。

第三，目前在银行庞大的客户群体中，热衷于新媒体的毕竟只是一部分。如果凭借对他们的分析来制定针对全体客户的策略，统计样本的偏差可能会导致策略的失效。因此暂时只能用于制定一些针对特定客户群体的策略。随着出生在网络年代的年青一代的成长，这样的偏差会越来越小，最终将能覆盖几乎全部的客户群体。

第四，金融服务对系统安全性和稳定性的要求都远高于社交平台，在实现服务对接的时候可能会影响用户体验。最后，在诸如客户的定位信息之类的数据是否属于隐私，如何使用方面还存在许多法律上的空白。这些问题都有待各行业协调解决。

（二）布局与大数据金融的竞争和合作

这里所说的“大数据金融” 特指类似于阿里信贷这种基于大数据的金融服务商。随着大数据金融的发展，银行与他们的竞争和合作不可避免。一方面，银行可以通过发展自己的大数据平台与其开展直接竞争。在当前的各大电商平台上，每天都有大量的交易发生，但是这些交易的支付结算大多被第三方支付机构垄断，银行处于支付链条的末端，获取的价值非常小。大数据金融的核心竞争力在于其拥有的大量客户经营数据，银行在其产业链中的影响力很小，这也是阿里巴巴可以终止与建行的合作自行开展信贷业务的原因。为应对这种局面，银行可以考虑自行搭建大数据平台，获取属于自己的大数据，将核心话语权牢牢掌握在自己的手中。事实上，已经有不少银行开始了这方面的布局。2012年6月28日，建行的电子商务平台“善融商务”正式上线，包括B2B和B2C，业务范围包括电子商务服务、金融服务、营运管理服务、企业社区服务及企业和个人商城。这可以看作是建行对于阿里巴巴终止合作的直接应对。交行打造的电子商务平台“交博汇” 也开始向客户开放。在为客户提供增值服务的同时获得客户的动态经营信息，成为银行共同的驱动力。

另一方面，银行需要与大数据金融企业加强合作互利。完整和综合的大数据注定难以被某一家企业、机构或政府部门所独自掌控，因此任何想垄断大数据的想法和行为都是不现实的，企业之间的合作互赢是发展的潮流。在认同大数据巨大价值的共识下，银行可与电信、电商、社交网络等大数据平台开展合作，进行数据和信息的共享和利用，全面整合客户有效信息，将金融服务与移动网络、电子商务、社交网络等完美融合。建行与阿里巴巴的信贷合作可以说是在这方面进行了非常有益的探索，可惜由于阿里巴巴要求在信贷利息中分利被拒绝而导致合作终止。但由此可见建立银行与电信运营商、电商、社交网络等参与方的合理的利润分配模式是否合理是合作能否成功的关键因素。

（三）培养面对大数据时代的核心能力一是数据整合的能力。不仅仅是银行内部数据的整合，更重要的是和大数据链条上其他外部数据整合的能力。大数据时代，有能力整合和管理数据的企业才能够主导产业链，作为大数据链条中的一环，银行应当以更加积极的姿态与链条上的其他企业进行数据和信息的交换，越是完整的数据，能够产生的作用就越大。由于各行业的数据标准和格式存在差异，如何逐渐统一数据标准以便进行更方便的数据交换和融合是当前面临的巨大挑战。

二是数据分析的能力。这里要注意区分传统的商业智能和大数据时代的数据分析能力。首先，传统的商业智能所处理的数据大多都是银行自身数据库当中的标准化、结构化的数据，而在大数据时代，更多需要处理的是大量的半结构化和非结构化的数据。其次，大数据时代处理的数据量与现在完全不在一个量级，现有的很多数据处理方法已经不能满足需求。最后，当前银行中常用的数据分析比如信用评级和市场营销模型，都是在建模后再进行系统实施，持续的时间较长。而在大数据时代，对于数据处理的实时性有很高的要求。这些本质上的区别不仅要求银行使用专门的数据储存技术和设备，更要求采用专门的数据分析方法和使用体系。不得不说的是，中资银行在对数据分析的重视程度和能力上与国际先进银行有着巨大的差距，很多中资银行在“小数据”时代的数据分析能力都亟需加强。

三是行动实施的能力。任何对大数据的分析只有转换为实际的商业行动才能够真正为银行创造价值。大数据时代的行动实施具有两个鲜明的特点：精准和快速。精准取决于大数据时代对客户的全面深刻了解，制定的行动方案都非常具有针对性，因此方案将会更加差异化。现在给全体客户统一版本发送的一条促销短信在将来可能需要发送上万个不同的版本。快速取决于大数据时代很多分析和策略都是系统自动完成的特性，更多的营销活动都将由客户的某项行为触发，然后由系统自动执行相应的行动。这些特性对银行的系统和人员都提出了更高的能力要求。

推荐第10篇：大数据在生活中的应用

大数据在生活中的应用

当今世界，正处于一个信息化的重大发展时代。只要你稍有关注热点时事，总能看到“大数据”、“云计算”两个高频词。稍加了解，你会发现，大数据在许多行业中起着至关重要的作用，甚至在我们的生活中也有着非常多的应用。那么什么是大数据呢？大数据的概念到底又是什么？大数据的具体应用又有哪些？

大约从2009年开始“大数据”成为互联网信息技术行业的流行词汇，甚至连普通的网页上都可见到大数据云计算等高大上的字样，但是大数据到底是什么呢？作为一个普通人，并不是展业IT人才，怎样了解大数据？大数据和云计算是不是一样的，它们两个有区别吗？这样那样的疑问很多，可是又听说大数据在生活中的应用很多，随处可见，就连的吃喝住行都有它的影子。那么大数据在我们日常生活中又有哪些应用呢？大数据给我们的生活带来了哪些影响？下面我们就来浅谈一下“大数据”在我们日常生活中的应用和影响。社交网络，为大数据提供了信息汇集、分析的第一手资料。大数据的价值主要就是，从庞杂的数据背后挖掘、分析用户的行为习惯和喜好，找出更符合用户口味或需求的产品和服务，并结合用户需求有针对性地调整和优化自身。简单的说，如果我拥有了客户大量的信息，我就能从收集到的信息中知道客户的消费习惯和消费方向，通过这些数据分析出自身产品有哪些缺失，可以及时改变策略，而不是盲目的生产一些客户并不喜欢的产品增加自身成本。大数据的核心价值就是，提升决策准确性，降低风险，提升运营精准度，降低成本。最简单的例子，每天我们打开一些带有广告性的网页，网页的两侧总会弹出一些商品推荐，而这些推荐正是由于大数据通过你平时在淘宝、天猫等交易网站上搜索过的商品信息，再提供给商家，广告商从而给你推送与你相关的商品。大数据最本质的应用就在于预测，即从海量数据中分析出一定的特征，进而预测未来可能会发生什么。在数据足够“大”的情况下，你生活中几乎所有的需求都可能会被预测出来。例如，从数据分析出你可能会约会，于是会向你推荐衣服；从数据推测出你会出去旅游，于是向你推荐相关装备及旅行方式等。进而言之，这是由于浏览器缓存cookie，你通过浏览器浏览任意网站内容时，都会在你的计算机缓存文件夹内生成一个缓存文件，其记录了你什么时间，通过什么渠道，访问了什么内容，做了些什么，等等一系列的信息。然后当你访问一些特定的网站时，其有广告位，而这些广告位（后台）就会去读取你的缓存文件，根据你的缓存文件内容，广告位就会为你推送相关的内容。实例：你通过百度搜索“贷款”，之后，这个信息就会被记录，当你访问一些网站其带有百度广告位，那这些广告位就会显示和“贷款”相关的内容。

大数据从何而来？美国互联网数据中心指出,互联网上的数据每年将增长50%，每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,全世界的工业设备、汽车、电表上有着无数的数码传感器随时测量和传递

着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，也产生了海量的数据信息。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器，无一不是数据来源或者承载的方式。

大数据的概念及其解释。大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。首先大数据要大，大体现在数据的“海量”上，这个“海量”不仅仅指的是数据的多，还有数据的多种多样，复杂程度等。并不是像我们平常所说的大量数据这么简单。大数据的特点可归纳为4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。第一,数据体量。从TB级别,跃升到PB级别第二数据类型繁多数据来源于各种各样的渠道。第三价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

数据是信息化时代的“石油”。大数据、云计算、物联网等新一代信息科技的普及和广泛运用，已经远远超出科技革命的范畴，成为深刻影响人们生产生活方式、社会经济发展方式、国际竞争方式等的重要变量，带动了经济、政治、军事、文化等诸多领域的巨大进步。为了使互联网更好造福社会，保障群众在互联网领域的各项权益，需要充分发挥大数据的预测、存储、分析功能，为人民群众提供与美好生活需要相匹配的公平、实惠、多元的网络产品和网络信息服务。挖掘被淹没的数据价值要使大数据真正产生价值，就必须要研究数据的关联、数据的聚类以及全样本问题。建立在相关关系分析法基础上的预测是大数据的核心，通过找出关联物并监控它，就能预测未来。大数据产业的发展，离不开两个核心系统工程建设，即稳定、安全、可靠的数据基础系统工程和完善、成熟、领先的应用系统工程。

发展大数据的关键，是要有获得数据的能力和方法，获得的数据不仅要及时、完整、准确地存储下来，而且要及时、完整、准确地传输到数据需求者。有了数据，还必须有足够的计算能力，因此基础系统工程包括了数据采集、汇聚、传输、存储、计算资源、大数据应用平台、云计算平台、数据资源池、数据分析挖掘工具软件、数据产权管理、数据标准体系、数据安全体系等。目前，各行各业的决策正在从“业务驱动”向“数据驱动”转变。通过对大数据的分析，可以使企业实时掌握市场动态并迅速做出应对，可以制定更加精准有效的营销策略，可以帮助企业为消费者提供更加及时和个性化的服务。在公共事业领域，大数据在促进经济发展、维护社会稳定等方面的重要作用已开始得以发挥。因此，大数据应用系统建设，是大数据作为重要资源作用的关键。

现在结合生活例子，来看看大数据在生活中的具体应用。大数据技术离你我都并不遥远，它已经来到我们身边，渗透进入我们每个人的日常生活消费之中，时时刻刻，事事处处，我们无法逃遁，因为它无微不至：它提供了光怪陆离的全媒体，难以琢磨的云计算，无法抵御的仿真环境。前面已经介绍过了大

数据的来源，大数据依仗于无处不在的传感器，比如手机、发带，甚至是能够收集司机身体数据的汽车，或是能够监控老人下床和行走速度与压力的“魔毯”(由GE与Intel联合开发)，洞察了一切。通过大数据技术，人们能够在医院之外得悉自己的健康情况;而通过收集普通家庭的能耗数据，大数据技术给出人们切实可用的节能提醒;通过对城市交通的数据收集处理，大数据技术能够实现城市交通的优化。

对于人们的衣食，大数据也起着很大的作用。人们的生活以及消费方式已经发生了惊天的转变。不光是北京，自淘宝创立以来，大众的消费方式越发多元化，O2O、B2B等方式越来越丰富人们的日常生活。大数据以及地图的基础应用，已经对人们的生活产生了很大的影响。现今类似的网站应用有很多都与数据以及地理信息相关，作为其代表之一，大众点评正是数据与地理信息的相互结合的优质结晶。根据大数据的信息收集，商家后台自动为你推荐与你兴趣相关的商品，自动过滤了自身不感兴趣的商品，在查找物品方面，无疑节约了许多时间。

正如前文所说，精准广告投放便是其最大的作用之一，很多人可能有这样的经历，使用某浏览器在淘宝、京东等购物网站上购买过一本关于某方面的书籍后，在之后十个月左右的时间里，你的浏览器两侧的广告栏里不断出现你可能所需要的东西，等产品广告，登录原来的购物网站，也会在首页向你推荐这类产品。然而，你对这类广告会很欣然地接受,因为它推荐的产品正是你所需要的,这实际上就是大数据应用的一个简单案例。

对于人们出行来说，人们的出行组成了大数据，同时大数据可以实时反应交通状况，因此大数据与交通的辩证关系一直为社会所重视;近年来交通所带来的能耗问题被逐渐重视起来，这不光是对个人资金的节省，更是对自己所在这个环境的一种责任。通过导航软件所用的传感器来感知每个路段的流量和速度，利用环境学经典公式即可算出该汽车的排放量，具体做法是：利用已有GPS数据算出有限道路上的速度，按照单位时间通过车的流量的速度，最终得出某一行车路段的污染指数。可以算出这个城市里每一个区域，每一个时间、每一种污染物的成分和比例。随着时间的变化，各个地方污染程度。给我们带来生活便利的同时，也有很多的弊端。信息安全是一个十分严重的问题，如今用户信息泄露已经成了常态，不法分子利用用户信息进行诈骗，电信诈骗越发成为了不法分子的首要手段。再如火车票实名制，购买火车票是个人与铁路机构之间的信息交换，应该保密个人信息。但是火车票上的二维码作为实名制认证的内容之一，却有可能泄露个人信息。现在读取二维码的应用和设备这么多，电脑手机上都有。现在手段已经不满足大数据时代信息安全的实际要求。大数据时代的到来，导致大量信息泄露。因此，大数据信息安全问题是大数据时代不可不考虑的问题。而且需要从不同角度、不同层次去维护信息安全。除非你拒绝手机、拒绝网络、拒绝信用卡等一切现代科技，否则你将无法逃脱一些合法或非法的“偷窥”者，他们正在无时无刻的“窃取”着你的行为信息，这就是大数据时代的特点。

根据这些行为信息，商家为你制订适合你的服务，政府根据你的行为信息

将你贴上某种标签，甚至有些不怀好意者根据这些信息对你或你的亲人进行有意的伤害„„所以，这些数据信息在大数据时代不可避免的被“窃取”了。但，我们能够阻档的了吗?时代在进步，沟通方式与方法在改变，正如“大禹治水，疏而不导”的原理是一样，在这样的大数据时代，阻碍数据分析的尝试注定要失败，我们让这些数据不流于非法的唯一方法是规范而非全部堵住，因为时代进步的车轮是无法阻档的。

我觉得为了保护信息安全，政府需要出一份力，规范好信息时代的规则，保护大家的隐私。我觉得政府应该做到以下几点

一、规范哪些数据属于隐私数据，不能跟踪，如跟踪则非法。

二、规范能够跟踪的数据仅能用于哪些用途，否则必须经过数据当事人的同意(如肖像权)，否则也是非法。

三、明确立法规范如果出现相关的违法行为应该如何处罚违法当事人。政府只有通过法律的途径来疏导才能够保证即不阻碍技术的发展进步又能够保证广大人民的利益，当然，以上这些的前提条件是政府真正为百姓着想。有人说，有了微博之后，我们更民主了，言论更自由了。我认为恰恰相反，看上去的言论自由恰恰如“引蛇出洞”，你的每一句发言都可能被秘密监视，从而将你打上某种标签，一旦某天要“收网”，你的所有发言都可以作为证据被呈现在桌面上，何等可怕?!这就是网络舆论，人身攻击，人肉搜索的重要资源之一。

所以，在网络充分发展，技术突飞猛进的今天，我们更应该理性的对待这些虚假的繁荣，规范它、引导它、合理利用它，而不是放任或直接否定。辩证的思维是非常有必要的!世界正变得越来越数字化，大数据正在以这种或那种方式影响着每个人的生活。我们在日常生活中所做的一切都会留下数字痕迹，也就是大数据，我们可以利用和分析这些数据来让我们的生活更加美好。在大数据时代，人们的生活方式和思考方式在发生一系列的变化，这种变化同样也使得人们的消费观念发生较大的转变。大数据时代对生活、工作的影响大数据，其影响除了经济方面的，它同时也能在政治、文化等方面产生深远的影响，大数据可以帮助人们开启循“数”管理的模式，也是我们当下“大社会”的集中体现，三分技术，七分数据，得数据者得天下。它赋予消费者更广阔的视野，同时也在提高着消费者的自主意识。这些影响足够消费者不再完全相信传统营销“轰炸式”的传播和灌输，他们更加倾向于受到质疑的品牌和产品，他们能够在基础上发表自己的观点，影响到其他的人群。“大数据”的影响，增加了对信息管理专家的需求。事实上，大数据的影响并不仅仅限于信息通信产业，而是正在“吞噬”和重构很多传统行业，广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。

麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基

础之上的精准选址。在零售业中，数据分析的技术与手段更是得到广泛的应用，传统企业如沃尔玛通过数据挖掘重塑并优化供应链，新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析，为用户提供更加专业化和个性化的服务。

大数据时代的到来，既是挑战也是机遇，虽然其有利有弊，但我们无法阻止时代的步伐，我们唯一能做到的就是利用其作用，方便我们的生活，并且保护好自身的利益，多一个心眼，不给不法分子可乘之机。我想在身处这个数据“大爆炸”时代，大数据的广泛运用带来了很多的弊病，正如科学家们所说，事物都具有两面性，我们应当用好大数据对我们有利的一面，免大数据给我们社会的发展带来不利的因素。

第11篇：大数据学术会议报告

Big and Open Date ：Challenges for Smart City

Victoria Lopez

Victoria Lopez任教于西班牙马德里Complutense大学，其在计算机软件,计算机应用技术,计算机网络,人工智能,管理科学与工程等领域颇有建树，此次学术会议是她在2014年信息学与计算进展国际会议上的关于大数据的一次学术会议报告，她的演讲题目是Challenges for Smart City，以智能城市为研究对象，阐述大数据在智能城市领域内面临的挑战，鞭辟入里，发人深省，引人深思。

据她介绍，在1800年，全球仅有2%的人口居住在城市，到了1950年，这个数字迅速攀升到了29%。到2025年，城市人口预计将增加到20亿。当前全世界范围内的城市化进程大大加剧了气候变化、资源短缺和交通拥堵等问题，为人类城市生活带来一定的挑战。但同时智能城市建设面临诸多挑战：一是概念不清、外延不明。没有考虑到物联网、云计算、三网融合、无线宽带等新一代信息技术应用，仍然采用以前的技术思路和模式。二是进一步加剧了业务系统的信息孤岛局面，条块分割问题是全球信息化建设的顽疾。三是信息网络安全问题继续受到冷落。大量应用到物联网、云计算等技术，其信息网络安全问题将会更多。

既是挑战又是机遇，虽然面临问题较多，但是在大数据这个领域中，理论性的预见已经在相关行业成功实现，例如车联网，车联网促城市交通转型，随着车联网等新兴产业的兴起，智能交通已为世界各国在高新技术发展中争夺的一个重要领域。它加快了城市交通向低碳绿色交通的转型，是智慧城市建设不可或缺的一部分。大数据助力交通智能化，据介绍，在目前的城市交通体系中，公交、地铁、出租车以及公共自行车为主要出行方式，通过GPS定位、视频监控以及超声波传感等技术，在单一某个领域，智能交通已经进行了初步开发。比如，在某些公交站，乘客已经能提前预知下一趟公交到来的时间，乘客在打车时，通过部分手机软件已经能够查询到周边的空出租车，这些均基于一定的数据采集和分析。

她的中心思想在于，云计算要建平台，要有庞大的数据中心做支撑，其上是重要的关键业务的运营和服务，而大数据就是构建在云平台上的一种‘杀手锏’的应用，云计算是一个全新的时代，和PC时代完全不同。如何将我们的文化，我们的技术和业务模式更快的转移到云计算，构建起生态系统将是最大的挑战。虽然很高兴已经有了一些发展，但是还需要相当长的过程才能实现。

从此次学术会议报告中我学到了如何听取报告的相关主旨和核心思想，在这次报告中也体会到了西方学者和本国学者思考问题的异同点，当然更需要的是加强英语学习能力和本专业的学习能力。

第12篇：大数据课程报告

摘

要

流形学习方法作为一类新兴的非线性维数约简方法，主要目标是获取高维观测数据的低维紧致表示，探索事物的内在规律和本征结构，已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性，使得它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果，然而它们本身还存在着一些普遍性的问题，比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此，本文从流形学习方法存在的问题出发，在算法设计和应用（图像数据与蛋白质相互作用数据）等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析，然后针对流形的泛化学习和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究，提出了三种有效的流形学习算法，并和相关研究成果进行了理论与实验上的比较，从而验证了我们所提算法的有效性。

关键词：流形学习，维数约简，正交局部样条判别投影，局部多尺度回归嵌入

目录 .................................................................................................................................................II 第1章研究背景 .......................................................................................................................1

1.1 流形学习的研究背景 ...................................................................................................1 1.2 流形学习的研究现状 ...................................................................................................2 1.3 流形学习的应用 ...........................................................................................................4 第2章流形学习方法综述 .......................................................................................................5

2.1 流形学习方法介绍 .......................................................................................................6 第3章流形学习方法存在的问题 ...........................................................................................9

3.1 本征维数估计 ...............................................................................................................9 3.2近邻数选择 .................................................................................................................10 3.3 噪声流形学习.............................................................................................................10 3.4 监督流形学习.............................................................................................................11 第4章总结 .............................................................................................................................11

第1章研究背景

1.1 流形学习的研究背景

随着信息时代的到来，使得数据集更新更快、数据维度更高以及非结构化性等问题更突出。在科研研究的过程中不可避免地遇到大量的高维数据，这就需要一种技术能够使在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据，满足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生，引起越来越多机器学习和认知科学工作者的重视。而在海量的高维数据中，往往只有少量的有用信息，如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息，这就需要一些关键技术的支持，即是必须采用相应的降维技术。而流形学习正是在数据降维方面有着重要的贡献。然而，降维的过程与《矩阵分析》中的内容有着密切的关系。

基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息，进一步提高检索性能。Seung从神经心理学的角度提出“感知以流形的形式存在，视觉记忆也可能是以稳态的流形存储”，为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析（PCA）、多维尺度化（MDS）、基于局部切空间排列法（LTSA）和基于等度规映射（ISOMAP）、局部线性嵌入算法（LLE）、拉普拉斯特征映射（LE）等。另外，流形学习方法在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互等众多学科中有着广泛的应用。

线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系，把高维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构，或者在一定程度上可以近似为全局线性结构，则这些方法能够有效地挖掘出数据集内在的线性结构，获得数据紧致的低维表示。在线性维数约简方法中，使用最广泛的算法有主分量分析（Principal Component Analysis, PCA）(Jolliffe, 2002; Turk and Pentland, 1991)

1 和线性判别分析（Linear Discriminant Analysis, LDA）(Duda et al., 2001)。

主分量分析（PCA）主要是根据高维数据在低维空间重构误差最小的原则，来寻找一组最优的单位正交向量基（即主分量），并通过保留数据分布方差较大的若干主分量来达到降维的目的。然而，众所周知，由于 PCA 算法没有利用数据样本的类别信息，所以它是一种非监督的线性维数约简方法。与 PCA 算法不同，LDA 算法考虑到样本的类别信息，它是一种有监督的方法。基于各类样本服从高斯分布且不同类的协方差矩阵相同的假设，LDA 算法在 Fisher 准则下选择最优的投影向量，以使得数据样本的类间散度最大而类内散度最小。由于 LDA 算法利用了样本的类别信息，而样本的类别信息通常有助于改善识别率，因此 LDA 算法更适用于分类问题。

1.2 流形学习的研究现状

流形学习假定输入数据是嵌入在高维观测空间的低维流形上，流形学习方法的目的是找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索，人们提出了大量的流形学习理论与算法。经典的流形学习方法有等距特征映射算法（ISOMAP）(Tenenbaum et al., 2000)、局部线性嵌入算法（LLE）(Roweis and Saul, 2000; Saul and Roweis, 2003)、Laplacian 特征映射算法（Laplacian Eigenmaps，LE）(Belkin and Niyogi, 2002; Belkin and Niyogi, 2003)、Heian特征映射算法（Heian-based Locally Linear Embedding，HLLE）(Donoho and Grimes, 2003)、最大差异展开算法（Maximum Variance Unfolding，MVU）(Weinberger et al., 2005; Weinberger and Saul, 2004; Weinberger and Saul, 2006; Weinberger et al., 2004)、局部切空间排列算法（Local Tangent Space Alignment, LTSA）(Zhang and Zha, 2004)、黎曼流形学习算法（Riemannian Manifold Learning, RML）(Lin and Zha, 2007; Lin et al., 2006)和局部样条嵌入算法（Local Spline Embedding，LSE）(Xiang et al., 2006; Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多维尺度分析（Multidimensional Scaling, MDS）(Cox and Cox, 1994)在流形框架下的非线性推广，其核心思想是用测地距离代替欧氏距离来表征流形上数据点的内在几何关系。对于样本

2 点和它的近邻点之间的测地距离用它们之间的欧氏距离来代替；对于样本点和近邻点之外的点之间的测地距离用它们之间的最短路径来代替。Bernstein 等人证明了只要样本是随机抽取的，在样本集足够大且选择适当近邻参数k 时，近邻图上两点的最短路径可以逼近它们的测地距离(Bernstein et al., 2000)。当应用于内蕴平坦的凸流形时，ISOMAP 算法能够忠实地捕获数据内在的低维流形结构(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺点在于：① 对样本点的噪声比较敏感；② 对于具有较大曲率或稀疏采样的数据集，不能发现其内在的本征结构；③ 需要计算全体数据集的测地距离矩阵，因此算法的时间复杂度较高。围绕 ISOMAP算法，已经出现了许多相关的理论分析与研究工作。

Balasubramanian 等人对ISOMAP 算法的拓扑稳定性进行了深入探讨 (Balasubramanian and Schwartz, 2002)。对于数据分布所在的低维流形具有较大的内在曲率情况，de Silva 和Tenenbaum 提出了保角等距特征映射算法（conformal ISOMAP）(De Silva and Tenenbaum, 2003)。为了减小 ISOMAP 算法的计算复杂度，de Silva 和 Tenenbaum提出了带标记的等距特征映射算法（Landmark ISOMAP）(De Silva and Tenenbaum, 2003)。

针对 ISOMAP 算法对于数据集噪声敏感的问题，Choi 等人通过观察图中的网络流提出了一种消除临界孤立点的方法以加强 ISOMAP 算法的拓扑稳定性(Choi and Choi, 2007)。在构建近邻图方面，Yang 提出通过构造k 连通图方式来确保近邻图的连通性，以提高测地距离的估计精度(Yang, 2005)。

2009 年，Xiang 等人提出了局部样条嵌入算法（LSE）(Xiang et al., 2006; Xiang et al., 2008)。Xiang 认为，对于嵌入在高维输入空间的低维流形，非线性维数约简的任务实际上是寻找一组非线性的复合映射，即由局部坐标映射（Local Coordinatization Mapping）与全局排列映射（Global Alignment Mapping）复合而成的兼容映射（Compatible Mapping）。在兼容映射的概念框架下，LSE 算法首先通过主分量分析计算每个样本点局部邻域在切空间上的投影获得该邻域所有样本的局部坐标，从而保持流形的局部几何结构信息；然后采用Sobolev 空间的一组样条函数把每个样本点的局部坐标映射成

3 全局唯一的低维坐标。它们均是利用每个样本的局部切空间来捕获流形的局部几何，样本点在切空间的投影来表示样本点的局部坐标。然而它们的主要区别在于全局排列，LTSA 算法是利用仿射变换来进行全局排列，而 LSE 算法是利用样条函数来获得全局唯一的坐标。因此相对于 LTSA 而言，LSE 算法能够实现更小的重构误差。LSE 算法的主要缺点在于：一是无法保持全局尺度信息；二是不能学习具有较大曲率的低维流形结构。除此，如何选择满足要求的样条函数也是一个值得考虑的问题。

不同流形学习算法的区别在于所尝试保持流形的局部邻域结构信息以及利用这些信息构造全局嵌入的方法不同，与以往的维数约简方法相比，流形学习能够有效地探索非线性流形分布数据的内在规律与性质。但是在实际应用中流形学习方法仍然存在一些缺点，比如本征维数估计问题、样本外点学习问题、监督流形学习问题和噪声流形学习问题等。为了解决这些问题，相关的算法也不断涌现出来。Freedman 等提出了一种基于简化单纯复形的流形重构方法来自动估计流形的本征维数(Freedman, 2002)。

为了解决样本外点学习问题，研究人员分别在流形学习的线性化、核化和张量化等方面作了有益的探索(Yan et al., 2007)。Geng 等将样本的类别信息融入到 ISOMAP 算法，提出了一种用于可视化和分类的有监督的等距特征映射算法（S-ISOMAP）(Geng et al., 2005)。Zhang 等提出了一种基于局部线性平滑的流形学习消噪模型(Zhang and Zha, 2003)。这些方法的提出在一定程度上缓解了目前流形学习方法中存在的一些问题，但是还需要进一步充实和完善。

1.3 流形学习的应用

目前，流形学习方法的应用可归纳为以下几个方面：

1) 数据的可视化。流形学习方法在高维数据的可视化方面有了广泛的应用。人不能直接感知高维数据的内部结构，但对三维以下数据的内在结构却有很强的感知能力。由于流形学习方法可以发现高维观测数据中蕴含的内在规律和本征结构，而且这种规律在本质上不依赖于我们实际观测到的数据维数。因此我们可以通过流形学习方法

4 对高维输入数据进行维数约简，使高维数据的内部关系和结构在低于三维的空间中展示出来，从而使人们能够直观地认识和了解高维的非线性数据的内在规律，达到可视化的目的。

2) 信息检索。随着多媒体和网络技术的迅猛发展，图像和文本信息的应用日益广泛，对规模逐渐庞大的图像和文本数据库如何进行有效的管理已成为亟待解决的问题。灵活、高效、准确的信息检索策略是解决这一问题的关键技术之一。这些图像和文本信息呈现出高维、大规模、非线性结构，利用流形学习方法来处理这些信息，在大大降低时间和空间计算复杂度的同时，能够有效地保留这些信息在原始高维空间的相似性。

3) 图像处理。流形学习给图像处理领域提供了一个强有力的工具。众所周知，图像处理与图像中物体的轮廓以及骨架等密切相关。如果我们把图像中物体的轮廓以及骨架等看成是嵌入在二维平面中的一维流形或者由一组一维流形构成，那么显然流形学习方法凭借其强大的流形逼近能力可以应用于图像处理领域。

第2章流形学习方法综述

流形学习方法作为一种新兴的非线性维数约简方法，主要目标是获取高维观测数据的低维紧致表示，探索事物的内在规律和本征结构，已经成为数据挖掘、模式识别和机器学习等领域的研究热点。本章首先探讨了流形学习的基础性问题，即高维数据分析的流形建模问题；然后依据保持流形几何特性的不同，把现有的流形学习方法划分为全局特性保持方法和局部特性保持方法，并介绍了每一类方法中有代表性的流形学习算法的基本原理，对各种流形学习算法进行性能比较和可视化分析，最后就流形学习方法普遍存在的本征维数估计、近邻数选择、噪声流形学习、样本外点学习和监督流形学习问题等进行了分析和讨论。

5 2.1 流形学习方法介绍

流形学习的定义：流形是局部具有欧氏空间性质的空间。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。

流形学习用数学语言描述是：令Yyi且: Y是一个光滑的嵌套，其中D >>d。那么流形学习的目标是基于上的一个给定被观测数据集合xi去恢复Y与 ，也就是在Y 中随机产生隐藏的数据yi，然后通过 映射到观测空间，使得xifyi。

从流形学习的定义中可以看出，这是一个把数据从高维映射到低维的过程，用到了线性变换，当然少不了矩阵的分解及其基本运算。 2.1.1 多维尺度分析（Multidimensional Scaling, MDS）

多维尺度分析（Multidimensional Scaling, MDS）是一种经典的线性降维方法，其主要思想是：根据数据点间的欧氏距离，构造关系矩阵，为了尽可能地保持每对观测数据点间的欧氏距离，只需对此关系矩阵进行特征分解，从而获得每个数据在低维空间中的低维坐标。

DDDxx设给定的高维观测数据点集为YU，i，观测数据点对i,

Tyj间的欧氏距离为ijxiyj，传统MDS 的算法步骤如下：

a) 首先根据求出的两点之间的欧氏距离

ij构造n阶平方欧式距离矩阵Aij2 nn。

6 b) 将矩阵A进行双中心化计算，即计算

B1HAH2（其中H 为中心化eeTHIn，将矩阵H左乘和右乘时称为双中心化）矩阵，。

c) 计算低维坐标Y。即将B奇异值分解，设B的最大的d个特征值diag1,2,...,dYUT。

u1,u2,...,ud则d维低维坐标为，对应特征向量，U虽然作为线性方法，MDS在流形学习中不能有效发现内在低维结构。但是从这一基本的算法中我们可以清楚的看出矩阵分析在流形学习研究中的应用。在这个MDS算法中，运用到了矩阵中的线性空间变换、矩阵特征值和特征向量的计算、矩阵的中心化计算、矩阵的奇异值的分解等相关知识点。想象一下，如果没有这些知识点做基础，这些算法如何进行。 2.1.2 等距特征映射（ISOMAP）

（1）基本思想:Tenenbaum等人提出的等距特征映射算法（ISOMAP）是建立在多维尺度分析（MDS）基础上的一种非线性维数约简方法。ISOMAP算法利用所有样本点对之间的测地距离矩阵来代替MDS算法中的欧氏距离矩阵，以保持嵌入在高维观测空间中内在低维流形的全局几何特性。算法的关键是计算每个样本点与所有其它样本点之间的测地距离。对于近邻点，利用输入空间的欧氏距离直接得到其测地距离；对于非近邻点，利用近邻图上两点之间的最短路径近似测地距离。然后对于构造的全局测地距离矩阵，利用MDS算法在高维输入空间与低维嵌入空间之间建立等距映射，从而发现嵌入在高维空间的内在低维表示(Tenenbaum et al., 2000)。

（2）算法流程构造近邻图G

计算最短路径

计算 d 维嵌入 (3)算法分析

7 ISOMAP算法是一种保持全局几何特性的方法，它的低维嵌入结果能够反映出高维观测样本所在流形上的测地距离。如果高维观测样本所在的低维流形与欧氏空间的一个子集是整体等距的，且与样本所在流形等距的欧氏空间的子集是一个凸集，那么ISOMAP算法能够取得比较理想的嵌入结果。但是当流形曲率较大或者流形上有“孔洞”，即与流形等距的欧氏空间的子集非凸时，流形上的测地距离估计会产生较大的误差，导致嵌入结果产生变形。

从算法的时间复杂度来看，ISOMAP算法有两个计算瓶颈(De Silva and Tenenbaum, 2003)。第一个是计算n×n 的最短路径距离矩阵DG。当使用Floyd算法时，计算复杂度为O(n3) ；若采用Dijkstra算法，可将计算复杂度降低到O(kn2log n) （ k 为近邻数大小）(Cormen, 2001)。第二个计算瓶颈源于应用MDS时的特征分解。由于距离矩阵是稠密的，所以特征分解的计算复杂度为O(n3) 。从中我们可以看出，随着样本个数n 的增大，ISOMAP算法计算效率低下的问题会变得十分突出。 2.1.3局部线性嵌入（LLE）

1、基本思想

与ISOMAP和MVU算法不同，局部线性嵌入算法（LLE）是一种局部特性保持方法。LLE算法的核心是保持降维前后近邻之间的局部线性结构不变。算法的主要思想是假定每个数据点与它的近邻点位于流形的一个线性或近似线性的局部邻域，在该邻域中的数据点可以由其近邻点来线性表示，重建低维流形时，相应的内在低维空间中的数据点保持相同的局部近邻关系，即低维流形空间的每个数据点用其近邻点线性表示的权重与它们在高维观测空间中的线性表示权重相同，而各个局部邻域之间的相互重叠部分则描述了由局部线性到全局非线性的排列信息(Roweis and Saul, 2000)。这样就可以把高维输入数据映射到全局唯一的低维坐标系统。

2、算法流程

LLE算法的基本步骤分为三步：（1）选择邻域

8 （2）计算重构权值矩阵W （3）求低维嵌入Y

3、算法分析

通过前面算法描述我们不难发现，LLE算法可以学习任意维具有局部线性结构的低维流形。它以重构权值矩阵作为高维观测空间与低维嵌入空间之间联系的桥梁，使得数据点与其近邻点在平移、旋转和缩放等变化下保持近邻关系不变。而且LLE算法具有解析的全局最优解，无需迭代。在算法的计算复杂度上，选择邻域的计算复杂度为O(Dn2) ，计算重构权值矩阵的计算复杂度为O((D+k)k2n) ，求解低维嵌入Y 的计算复杂度为O(dn2) 。因此与ISOMAP和MVU算法相比，LLE算法的计算复杂度要小得多。

但LLE算法也存在一些缺点：① 由于LLE算法只是保持局部近邻的重构权值关系，并不是保持距离关系，因此，LLE算法通常不能很好的恢复出具有等距性质的流形。② LLE算法希望样本集均匀稠密采样于低维流形，因此，对于受噪声污染、样本密度稀疏或相互关联较弱的数据集，在从高维观测空间到低维嵌入空间的映射过程中，可能会将相互关联较弱的远点映射到局部近邻点的位置，从而破坏了低维嵌入结果。

第3章流形学习方法存在的问题

流形学习相对于传统的线性维数约简方法来说，它能够更好地发现高维复杂非线性数据内在的几何结构与规律。但其各种算法本身还存在着一些普遍性的问题，比如本征维数估计问题、近邻数选择问题、噪声流形学习问题、泛化学习问题和监督学习问题等。本小节将对这些问题进行简要的分析和讨论。

3.1 本征维数估计

本征维数估计是流形学习的一个基本问题(赵连伟 et al., 2005)。本征维数一般被定义为描述数据集中所有数据所需要的自由参数（或独立坐标）的最小数目。它反映了隐藏在高维观测数据中潜在低维流形的拓扑属性。在非

9 线性维数约简过程中，本征维数估计的准确与否对低维空间的嵌入结果有着重要的影响。如果本征维数估计过大，将会保留数据的冗余信息，使嵌入结果中含有噪声；相反如果本征维数估计过小，将会丢失数据的有用信息，导致高维空间中不同的点在低维空间可能会交叠。因此，设计稳定可靠的本征维数估计方法将有助于流形学习算法的应用和性能的改善。

目前现有的本征维数估计方法大致分为两大类：特征映射法和几何学习法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998; Fukunaga and Olsen, 1971)和多维尺度分析方法(Cox and Cox, 2000)，它主要利用了数据分布的本征特征是数据的局部特征的基本思想，对局部数据进行特征分解，选取对应特征值最大的特征向量作为本征特征。显然，这类方法所估计的本征维数大小在很大程度上取决于数据的局部邻域划分和阈值的选择，因此特征映射方法不能提供本征维数的可靠估计。几何学习法主要基于最近邻距离（Nearest Neighbor Distances）或分形维（Fractal Dimension）(Camastra, 2003)来探索数据集所蕴含的几何信息，这类方法通常需要充足的样本数，因此，对于样本数少、观测空间维数较高的情况，经常会出现本征维数欠估计的情况。

3.2 近邻数选择

流形学习探测低维流形结构成功与否在很大程度上取决于近邻数的选择(Zeng, 2008)，然而在构造近邻图时如何选择一个合适的近邻数是一个公开的问题。如果近邻数选择过大，将会产生“短路边”现象（“short-circuit” edges），从而严重破坏原始流形数据的拓扑连通性。

3.3 噪声流形学习

当观测数据均匀稠密采样于一个理想的低维光滑流形时，流形学习方法可以成功地挖掘出其内在的低维结构和本质规律。但是在实际应用中，我们经常发现高维采样数据由于受各种因素的影响，一般总是存在着噪声和污染，这将势必影响流形学习算法的低维嵌入结果。

10 3.4 监督流形学习

现有的流形学习方法多数用于无监督学习情况，如解决降维与数据可视化等问题。当已知数据的类别信息，如何利用这些信息有效地改进原始流形学习算法的分类识别能力是监督流形学习所要解决的问题。从数据分类的角度来看，人们希望高维观测数据经过维数约简后在低维空间中类内差异小而类间差异大，从而有利于样本的分类识别。原始的流形学习算法都是无监督学习过程，一些引进监督信息的改进算法纷纷被提出来(Li et al., 2009; Zhao et al., 2006)。这些方法的基本思想是利用样本的类别信息指导构建有监督的近邻图，然后利用流形学习方法进行低维嵌入。尽管这些方法能够获得较好的分类结果，但是这种通过类别属性构建的近邻图往往会被分割成多个互不相连的子图，而不是一个完整的近邻图，这就给原始流形学习算法的最终应用带来了很大的不便。

第4章总结

流形学习是一个具有基础性、前瞻性的研究方向，其研究成果和技术已经立即应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化；基于内容检索的模型；视频中三维对象的跟踪和检测；从静态二维图像中进行三维对象的姿态估计和识别；二维和三维对象的形状重构；从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域，特别是在基因表达分析中，用于检测和区分不同的疾病和疾病类型。

尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果，但是由于其数学理论基础较为深厚复杂，以及多个学科之间交叉融合，所以仍有许多亟需研究和解决的问题，尤其在下述几个方面：

1.目前已有很多流形学习算法，但很多算法只是建立在实验的基础之上，并没有充分理论基础支持，所以我们一方面要进一步探索能够有效学习到流形局部几何和拓扑结构的算法，提高流形投影算法的性能，另外更重要的是要不断完善理论基础。

2.各支几何都是研究空间在变换群下的不变性，微分几何亦是如此。而很多情况下我们正需要这种不变性，所以研究局部样本密度、噪声水平、流形的正则性、局部曲率、挠率结构的交互作用对流形学习的研究有积极促进作用。

3.统计学习理论得到充分发展并逐渐成熟，流形学习理论在其基础上发展自然可以把统计学中有用的技术应用于流形学习中，如流形上的取样和Monte Carlo估计、假设检验，以及流形上关于不变测度的概率分布密度问题，都值得进一步研究。

4.目前大部分学习算法都是基于局部的，而基于局部算法一个很大缺陷就在于受噪声影响较大，所以要研究减小局部方法对于噪声和离群值的影响，提高学习算法鲁棒性及泛化能力。

5.谱方法对噪声十分敏感。希望大家自己做做实验体会一下，流形学习中谱方法的脆弱。

6.采样问题对结果的影响。

7.一个最尴尬的事情莫过于，如果用来做识别，流形学习线性化的方法比原来非线性的方法效果要好得多，如果用原始方法做识别，那个效果叫一个差。也正因为此，使很多人对流形学习产生了怀疑。

8.把偏微分几何方法引入到流形学习中来是一个很有希望的方向。这样的工作在最近一年已经有出现的迹象。

参考文献

[1] R.Basri and D.W.Jacobs.Lambertian reflectance and linear subspaces.IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003.[2] R.Vidal.Subspace clustering.IEEE Signal Proceing Magazine, 28(2):52–68, 2011.[3] J.Shi and J.Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000.[4] G.Liu, Z.Lin, S.Yan, J.Sun, Y.Yu, and Y.Ma.Robust recovery of subspace structures by low-rank representation.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013.[5] E.Elhamifar and R.Vidal.Sparse subspace clustering: Algorithm, theory, and applications.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781,

12 2013.[6] Y.Wang, Y.Jiang, Y.Wu, and Z.Zhou.Spectral clustering on multiple manifolds.IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011.[7] B.Cheng, G.Liu, J.Wang, Z.Huang, and S.Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011.[8] C.Lang, G.Liu, J.Yu, and S.Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Proceing, 21(3): 1327–1338, 2012.

第13篇：大数据读书报告

大数据读书报告

网络13-1戴崇卓

大数据的概念

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。

大数据的5V特点（IBM提出）

Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）。

大数据的意义

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到，未来的时代将不是IT时代，而是DT的时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是赢得竞争的关键。

大数据的结构

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它

保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

其次，想要系统的认知大数据，必须要全面而细致的分解它，我着手从三个层面来展开：

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

大数据的应用

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。 Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。

梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。

大数据的趋势

趋势一：数据的资源化

何为资源化，是指大数据成为企业和社会关注的重要战略资源，并已成为大家争相抢夺的新焦点。因而，企业必须要提前制定大数据营销战略计划，抢占市场先机。

趋势二：与云计算的深度结合

大数据离不开云处理，云处理为大数据提供了弹性可拓展的基础设备，是产生大数据的平台之一。自2013年开始，大数据技术已开始和云计算技术紧密结合，预计未来两者关系将更为密切。除此之外，物联网、移动互联网等新兴计算形态，也将一齐助力大数据革命，让大数据营销发挥出更大的影响力。

趋势三：科学理论的突破

随着大数据的快速发展，就像计算机和互联网一样，大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术，可能会改变数据世界里的很多算法和基础理论，实现科学技术上的突破。

趋势四：数据科学和数据联盟的成立

未来，数据科学将成为一门专门的学科，被越来越多的人所认知。各大高校将设立专门的数据科学类专业，也会催生一批与之相关的新的就业岗位。与此同时，基于数据这个基础平台，也将建立起跨领域的数据共享平台，之后，数据共享将扩展到企业层面，并且成为未来产业的核心一环。

趋势五：数据泄露泛滥

未来几年数据泄露事件的增长率也许会达到100%，除非数据在其源头就能够得到安全保障。可以说，在未来，每个财富500强企业都会面临数据攻击，无论他们是否已经做好安全防范。而所有企业，无论规模大小，都需要重新审视今天的安全定义。在财富500强企业中，超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据，所有数据在创建之初便需要获得安全保障，而并非在数据保存的最后一个环节，仅仅加强后者的安全措施已被证明于事无补。

趋势六：数据管理成为核心竞争力数据管理成为核心竞争力，直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后，企业对于数据管理便有了更清晰的界定，将数据管理作为企业核心竞争力，持续发展，战略性规划与运用数据资产，成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外，对于具有互联网思维的企业而言，数据资产竞争力所占比重为36.8%，数据资产的管理效果将直接影响企业的财务表现。

趋势七：数据质量是BI(商业智能)成功的关键

采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是，很多数据源会带来大量低质量数据。想要成功，企业需要理解原始数据与数据分析之间的差距，从而消除低质量数据并通过BI获得更佳决策。

趋势八：数据生态系统复合化程度加强

大数据的世界不只是一个单一的、巨大的计算机网络，而是一个由大量活动构件与多元参与者元素所构成的生态系统，终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今，这样一套数据生态系统的基本雏形已然形成，接下来的发展将趋向于系统内部角色的细分，也就是市场的细分;系统机制的调整，也就是商业模式的创新;系统结构的调整，也就是竞争环境的调整等等，从而使得数据生态系统复合化程度逐渐增强。

大数据的IT分析工具

大数据概念应用到IT操作工具产生的数据中，大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了„所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作‟的绝对记录。

大数据分析的产生旨在于IT管理，企业可以将实时数据流分析和历史相关数据相结合，然后大数据分析并发现它们所需的模型。反过来，帮助预测和预防未来运行中断和性能问题。进一步来讲，他们可以利用大数据了解使用模型以及地理趋势，进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为，大数据轻松地识别业务影响；随着对服务利用的深刻理解加快利润增长；同时跨多系统收集数据发展IT服务目录。

大数据分析的想法，尤其在IT操作方面，大数据对于我们发明并没有什么作用，但是我们一直在其中。Gartner已经关注这个话题很多年了，基本上他们已经强调，如果IT正在引进新鲜灵感，他们将会扔掉大数据老式方法开发一个新的IT操作分析。

第14篇：大数据对教育的应用

大数据对教育的应用

魏慧娟

大数据时代的来临对各行业都产生了深刻的影响，教育领域也不例外。学员的学习行为、思维方式，教师的授课理念、教学方法，学校的教育管理、教学评价无一例外都受到大数据的影响。教育领域必定会在大数据技术的推动下发生深层次的、多元化的创新与变革。

一、大数据对教育领域的影响

1.教育理念与教学评价被迫革新。教育作为社会子系统的重要组成部分深受社会形态影响，现代的教育体系几乎是伴随着工业社会发展同步发展的。市场的扩大与提高，对劳动者劳动技术与经验的要求远远高于个体层面的文化修养，合格劳动力的衡量标志是能不能解决问题。这一实用主义特点对教育领域的影响是巨大的。传统的教学评价不论对学生还是对教员，总是依赖能力测试，通过考试分数的数理统计分析来评价学生与教师。在大数据时代，则是跟踪记录教师与学生教与学的长期行为并对之进行分析，采用过程性、归纳式、多元化的方式进行评价。

2.个性化教学得以真正实现。运用大数据技术，在线平台能实时记录每一位学生的学习行为，教员获得全面丰富的数据内容后利用数据挖掘技术加以整合分析，不但能掌握学生个体的学习状态、知识接受水平，还能了解哪种教学方法对该学生最有效，以及该学生具体的薄弱点。教师根据这些数据就可以针对学生个体因材施教，制定个性化的教学方案、教学活动和学习计划，教学工作真正从共性化的群体教学转向了个性化的个体教学。个性化教学的实现能大幅提高教师的教学质量和学生的学习效果。

二、大数据在教育领域的应用模式

大数据在教育领域的应用模式本质上就是数据的生命周期，即数据获取、数据存储、查找与分析、可视化、决策。

1.教育者角度的应用，即教学领域知识模型构建。大数据教育系统对现有的教学内容建模后通过数据挖掘、学习分析和在线决策各子系统，所必须掌握的教学知识点、教学单元与教学课程之间的逻辑关系，最终重新构建领域知识结构，对现有的教学内容与方法进行改革，达到提高学生学习效果和教师教学效率的目的。

2.学习者角度的应用。（1）个性化课程分析。大数据教育系统首先获取某个学生以前的学习表现，从已毕业学生的成绩库中匹配与之相似的学员，分析已获得的成绩和待选课程表现之间的相关性;然后通过学习满意度调查问卷分析评估学生个人情况;再结合专业课程的重要性，为学生列举课程清单。并向其推荐有可能取得优秀成绩的课程。（2）助学需求预测。大数据教育系统可以通过收集校园卡的生活与消费记录，以一日三餐为主要权重指标对生活必要开销进行计算评估，当发现某学员的消费明显低于预警线时，会主动通知学校相关管理方，由相关部门与学生进一步沟通，并进行相应调查，判断该学员是否需要助学帮助。

3. 其他应用。当大数据教育系统与其他领域的大数据系统互联互通后能发挥的作用不可估量。比如，与社保、医疗、金融、公安、政府等大数据实现安全共享后，教育系统内所有学校与学区内的情况可以从各个角度可视化地展现在出来。大数据系统既能帮助学员从选择学习合作小组到职业规划的制定等各个方面进行辅助指导，也能帮助国家层面的教育管理者制定宏观教育政策、调整教育改革方向、分配教育资源。

总而言之，大数据在教育领域的应用惠及该系统内学生、教师、教育管理者、教育研究者等所有人员，它是未来教育发展的必然趋势。但作为新生事物，大数据具体的应用还不成熟，需要在实践探索中不断改进完善。

第15篇：课堂中的大数据应用

一、课堂中的大数据应用

课堂中生成的大数据：

1.教师教学行为数据：教师教学行为的数据主要是教师在授课过程中的言行。

2.学生学习行为数据：学生学习行为的数据主要是学生在课堂中的反应、作业完成情况以及对知识点的掌握情况。

课堂大数据的用途

1.分析和评价教师教学行为，促进教师教学行为的改善 2.为学习分析提供依据，促进教学干预和个性化学习3.发现教育教学问题，为学校和管理部门提供决策依据

随着平板电脑等移动终端设备在课堂中的应用，采用智能手段获取学生学习的数据也成为可能。典型的应用是收集学生对知识点的掌握情况，如将课堂练习与教学知识点相关联，在移动终端上做课堂练习时，运用软件实现课堂练习的智能分析，自动获得学生对教学知识点掌握情况的数据。

二、关注学生课堂数据，挖掘信息课堂亮点

教师要敢于直面自己的课堂，看看录像，听听录音，及时反思自己的课堂，优化教学引导，课堂教学的时间观念就会强很多，课堂效率也会提高不少。

三、基于 PADCla 模型的数字化课堂学习过程数据挖掘与分析研究信息的单向性和数据的不可跟踪性使得课堂学习过程只能依靠教师的经验进行分析，在学习过程中的多维信息交互数据不能得到即时处理与分析，导致个性化学习缺乏实际基础。

一方面，通过数据挖掘和数据分析以及可视化等技术可以实现对课堂上教师和学生的教学行为和随堂测试数据信息的采集、处理、存储以及可视化呈现;另一方面，通过基于数据的教学策略优化，可以减轻教师教学负担，激发学生学习兴趣，实现教育资源合理配置，促进信息技术与教学过程的深度融合。可以把课堂数据分析分为四个方而，即教师分析、学生分析、活动分析和资源分析。其整体分析结构如图。

其中教师分析根据教师的课前备课、课上授课和课后评价等行为分为备课分析、导学分析、互动分析、评价分析、教学目标分析和课后分析;学生分析根据学生课上行为和作业测试情况分为互动分析、评价分析、作业分析、测试分析和学习结果分析;活动分析根据活动的类型和时长分为活动类型分析和活动时长分析;资源分析根据资源的类型、大小和使用情况可分为资料分析和使用频率分析。它们为分析教师与学生的行为和教学目标的完成情况提供了科学精确的数据依据。

可以把数据分为单节课和阶段性两个维度来分析。单节课就是在某一节特定的课上，对教师和学生的交互信息和学生的测试成绩进行精确的处理，并最终用图形化的形式展示出来。阶段性就是在某一阶段内，对某个班级或某个学生进行阶段性分析.用图像化的形式直观展示。

图4为测试时题目正确率及交卷人数实时状态，该图由两部分组成:左侧为“题目正确率统计图”，显示当前已交卷学生的单个题目的答题正确率;右侧为阳寸序图”，显示当前已交卷学生的人数。

图5为测试时每个学生实时作答情况，答对的选项填充为绿色，答错填充为灰色，未选为空白。S-P表用来实时显示学生的正确率及每个题目的作答情况。

图6为单日随堂考成绩分析，是该教师某天在某班的某门课上进行随堂考试成绩的分析。图7为单日作业提交率分析.是该教师所教的某一班级某天提交某门课的作业情况分析。教师通过“实时分析图”能够了解每个题目的正确率和学生的交卷情况。

第一，教师通过“举手”能够及时了解学生对知识的掌握情况。

第二，教师通过“实时分析图”能够了解每个题目的正确率和学生的交卷情况。第三，教师通过S-P表能够详细的了解每个学生的学习情况。

第四，教师通过“单题选项分布统计图”能够了解每个题目学生整体的掌握情况。

第五，教师通过“成绩等级分布图”能够了解学生成绩等级的分布情况。

第六，教师通过“过程分析图”能够“看到”学生的过程分析图给教师呈现了学生做每个题目做题过程。

四、面向课堂教育信息的数据挖掘研究

维度二学生信息的挖掘“ (1)参与状态:一是观察学生是否全员参与学，二是看有的学生是否参与教，把教与学的角色集于一身。没有学生积极参与的课堂教学，是谈不上开发学生潜能的。 (2)交往状态:一看课堂上是否有多边、丰富、多样的信息联系与信息反馈，二看课堂上的人际交往是否有良好的合作氛围。

(3)思维状态:看学生是否对教师的提问，提示信息作出积极的反馈;学生是否主动提出问题、发表见解。

(4)情绪状态:一看学生是否有适度的紧张感和愉悦感，二看学生能否自我控制与调节学习情绪。有时课堂会突然爆出笑声又嘎然而止，会从激烈的争论转人专注的聆听，就是一种自发并能自控的良好情绪状态。

(5)生成状态:一看学生是否都各尽所能，感到踏实和满足，二看学生是否对后继的学习更有信心，感到轻松。

维度三教师、学生课堂交互信息的挖掘：

五、课堂数据可视化的价值与教学应用

基于网络智能设备的课堂数据可视化，一方面继承了数据可视化“一图胜千言”的表达优势，另一方面又通过技术将已构建教学关联的课堂数据，以即时反馈、全局展示、动态累积、趣味呈现的方式应用于课堂教学各环节和活动中，在支持课堂管理的同时，着重突出“可视化”的教学互动及教学的动态生成，促进了教学过程的不断改进。

课堂数据可视化的内涵：数据可视化借助图表、图像形象地呈现数据，支持用户直观了解数据本身，分析蕴含在数据背后的信息与数量关系，其主要目标在于“通过图形化的手段清晰有效地传达信息”，帮助人们“揭示趋势、探索来源、获取新知”。研究表明，大脑要处理的信息多跟视觉有关，超过 80%的大脑细胞是处理视觉信息的，人们在加工视觉信息时认知负荷很低，所需努力极其微小（Sibbet，2010）。数据可视化充分应用“一图胜千言”的可视化表达方式，具有显著的沟通力、呈现力与吸引力，在课堂教学中常被用于呈现教学信息，通过图形图像的方式增进学生对教学内容的理解与认知，支持学生学习过程中的认知建构，或是对已记录的教学数据加以可视化，便于后期的比较与分析。

其应用主要包括获取课堂表现数据、呈示可视化结果、自主调整反馈三个基本流程。各流程间顺序并不固定，可根据教学实际灵活调整，通过这些流程的不断应用促成教学改进的良性循环，如图

其中“获取课堂表现数据”，通常指通过应用智能设备获取学生课堂表现数据，主要有行为表现、认知表现和情感表现三类。

1.课堂数据可视化应用带来课堂形态的新变革

首先，课堂数据可视化的应用使课堂交互真正得以“实时实地”。如使用课堂应答工具Socrative可即时了解学生对某一知识点的掌握情况，从而减少师生间反馈所需的时间，促使课堂交互真正实现“实时实地”。

其次，课堂数据可视化应用可自主设置课堂交互的透明度，在充分尊重学生的同时增进课堂交互的自由度。如 Socrative 可在不同测试题型如简答题中设置是否匿名，为课堂中的学生创设毫无压力的表达空间，使其更愿意且更真实地表达自己。

第三，课堂数据可视化应用可使课堂交互充分面向个体和全体学生。如 Cla Dojo 将全体学生行为表现信息置于单一界面中，教师可以通过这种可视化的方式即时了解个体和全体学生的行为表现情况。

2.课堂数据可视化应用是教师数据素养发展的重要内容课堂数据可视化一方面将数据应用渗透于教师教学与沟通交流的各环节和各层面，另一方面在技术应用上简化了教师数据统计与分析的工作，使教师能够切实关注基于数据的教学发展而非数据本身。

3.课堂数据可视化应用推进教师技术应用的优化变革

课堂数据可视化应用实则是基于数据的技术应用，这种基于数据的技术应用在教学整合的“相对优越性”、教师教学的“兼容性”、教学效果的“可观察性”上均较传统的技术应用更能激发教师应用技术的积极性与主动性。一是数据与教学切实关联，二是数据具有动态性特征，三是数据具有一定的指示作用。

课堂数据可视化教学应用案例 1.Cla Dojo简介

Cla Dojo是一款免费的基于学生行为数据可视化的课堂行为管理网络工具，旨在帮助教师管理课堂和改进学生行为表现。这项功能主要通过四个环节实现：（1）量化学生行为，（2）评估学生行为，（3）呈示学生行为得分，（4）生成学生“行为报告”。

3.基于Cla Dojo的课堂数据可视化教学应用（1）激发全员共同参与（2）创设游戏化课堂可将学生课堂行为管理作为游戏机制，通过将数据应用和趣味呈示的色彩、声音、时间乃至学生个人形象相关联，从个性化形象设置、评估过程到竞争机制、互动反馈等方面。具体可从以下三方面考虑：一是为所有学生设置独特的卡通人物形象。二是重视学生行为评估过程的游戏化。三是充分应用 Cla Dojo 所提供的随机抽取、计时器和倒计时等功能，开展各种各样的趣味活动，有效提高学生的课堂参与。

（3）展开即时、全面、自主的教学互动（4）增进教育利益相关者间的协作交流 Cla Dojo 除了在课堂教学中作为学生行为的即时评价与管理工具外，还会对学生的行为表现加以记录和存储，并以“行为报告单”的方式动态呈现出“整个班级”或单个学生在某一段时间内的发展变化情况。Cla Dojo根据教师、家长和学生的应用特征为各自提供了不同的应用界面，方便教师、家长和学生即时查看学生的行为表现。

六、学习仪表盘：大数据时代的新型学习支持工具

学习仪表盘基于信息跟踪技术和镜像技术，对学习者的学习行为、习惯、情绪、兴趣等信息进行记录和追踪，通过分析与可视化、个性化的显示，为在线教育的学习者、教师、研究者、教育管理者等提供多层次的学习支持，帮助学习者实现自我认知、学习反思以及意义建构，促进学习新方法或模式的产生。

应用案例

（1）可汗学院学习仪表盘在这一学习仪表盘中，要学的知识被精细切割为上百个知识点并可视化为由

549 个小格组成的“任务进度”图，其中每个小格代表并链接一个知识点要完成的学习任务，其颜色深浅表示了学习者对该知识点的掌握程度。学习者可以设计个性化的学习路径并自由选择想要学习的知识点，还可以通过练习或测试提升对某一知识点的掌握程度

（2）“快乐学”学习仪表盘

学生入口的仪表盘页面能够显示学生在练习过程中的错题类型与数量，并通过分析学生在学习中的弱点与盲点生成个性化练习题，帮助学生强化和提高。教师入口的仪表盘页面既能够支持师生间一对一的交互，又能基于对学习者的数据分析辅助教师生成个性化试卷，从而实现个性化教学。家长入口的仪表盘页面在可视化子女总体学习指数（如图4所示）的同时，还可以显示某类知识点的具体学习情况

多对象学习支持

学习者。学习仪表盘可以追踪学习者的学习过程与结果并提供多种反馈信息，包括对课程参与情况的反馈，如学习材料使用情况、在线活动参与度、论坛参与率、在线测试成绩、作业及考试成绩等;学习者在学习共同体内的学习情况反馈，如学习进度的比较与推荐、学习策略建议等;学习者学业进步的总体反馈，包括学习情况总结、参与各种学习活动及使用各种信息技术工具的情况总结等。

教学者。学习仪表盘具有可定制性与可扩展性，可以满足教师多方面的教学需求。( Siemens et al.,2011)首先，教师可以通过学习仪表盘更深刻地了解学习者个体与群体的学习情况，如学生对于个人进步的感知、学习中的情绪情感体验、话题讨论的参与程度、实时学习检测情况以及与检测内容相对应的在线学习活动参与情况等，使教师可以获取学习情境中更为全面但却不太有形(Le Tangible )的信息，从而追踪并掌握影响学习者持续学习参与度(Sustained Learner Engagement)的因素。其次，学习仪表盘提供了一些便捷的插件，可以让教师选择和定制对信息和数据的分析角度，从而帮助教师及时发现和预测“处于危险状态”的学生并进行干预，如个性化谈话、学习方法建议、学习材料补充等。另外，学习仪表盘具有良好的开放性，教师可以方便地与同校或外校的教师共享信息资源。

第16篇：大数据应用惠及万千农户

大数据应用惠及万千农户

说起“大数据”“云计算”等科技新名词，云南省曲靖市的不少农民还颇感陌生；谈起“惠农e贷”“农银e管家”，他们却津津乐道，喜上眉梢。近年来，农行曲靖分行找准定位，调整结构，充分利用互联网、大数据等新技术，创新推出一系列惠农新产品，做强做大了“三农”零售领域的扩户提质工程。

牵住“牛鼻子” 狠抓“烟农贷”

享誉中外的云烟（云南卷烟）就产自云南，曲靖市就是云烟原料的主产地之一。5月中旬，记者来到这个市辖的富源县腰站社区北村采访，只见广袤的田野上，烟农们正顶着炎炎烈日忙着移栽烤烟。我们走进一块烤烟地，一位约50岁左右的中年男子迎了上来。他告诉记者，他叫温绍四，今年家里种了40亩烤烟，育苗、买薄膜和肥料以及请工需要花销5万多元。今年3月中旬，正当他急需这笔资金时，农行上门服务，仅10多分钟，他的“惠农e贷―烟农贷”4万元就到账，不仅贷款速度快，而且年利率仅5%，期限一年，三年循环使用。他说：“等到10月我把烤卖了就立即还清贷款。好借好还，再借不难嘛！”

在这个村，像温绍四这样得到农行扶持的农户还真不少，农行曲靖市分行行长刘国强告诉记者，2016年省分行安排他到曲靖农行当行长时，正值我国经济进入中高速增长的“新常态”时期，国家继续限制火电上网，云南省煤炭资源整合重组力度加大，煤炭市场持续低迷，导致曲靖市煤电支柱产业大幅下滑，经济呈“断崖式”下跌，农行贷款不良率上升。如何尽快调整信贷结构，扭转被动局面？这让分行领导班子成员颇伤脑筋也颇费思量。2017年以来，农行曲靖分行紧紧围绕农总行互联网金融服务“三农”“一号工程”，逐渐找准了业务发展定位，决定采取政府增信模式，以“惠农e贷”产品为抓手，做实小额扶贫贷款。农行曲靖分行领导班子成员分头深入各县乡镇调研，与乡镇党委政府对接沟通，了解区域烤烟种植、烟农收入以及农户信贷需求等情况。通过调研，大家达成共识：曲靖是全国烤烟主产区之一，烟农的信贷需求大，但由于农户生产融资难、申请周期长、融资成本高等原因严重制约了烟农的生产发展，分行党委决定，充分利用大数据模型，推出一款方便快捷的烟农贷款产品，通过与曲靖市烟草公司进行对接并取得支持。在烟草公司提供的烤烟订单数据的基础上，于2017年12月末成功推出了免担保抵押、方便实惠的烟农贷款产品“惠农e贷-烟农贷”。为主动、快速地营销烟农贷款，市分行成立帮扶督导工作组，压实工作责任，从市分行本部抽调业务骨干27人，组成9个帮扶督导工作组分别到市辖8个县支行和分行营业部进行督导帮扶。工作组深入基层，与支行团队融合起来，分头到偏远山区、烤烟主产区走村入户，做真做实线下工作，线上操作快速放款。

农行曲靖分行三农金融部副总经理欧文海介绍说，“惠农e贷-烟农贷”是充分利用大数据模型，以烟草公司提供的近三年烟农种植烤烟面积及交售烤烟的数据为基础，将近三年连续种植、履约情况良好的烟农纳入贷款白名单管理，将白名单导入信贷管理系统，然后结合烟农的3年烟叶结算资金、种植面积和种植成本等信息进行综合授信。每亩烤烟根据成本和收益综合授信额度为2500元，授信总额度为3000元―10万元不等，实现农户贷款线上申贷、线上办贷、线上放贷，推动农户贷款向批量化、线上化、自动化作业方式转变，有效提升农户的获贷途径和获贷速度。目前，全市导入白名单户数已达17余万户。欧文海深有感触地说：“过去我们放一笔贷款要走流程，最快也得3天，现在白名单农户只需提供申请表、征信授权书、身份证，一笔贷款从提交申请到贷款发放不超过5分钟。而且一次申请，三年内随还随贷，循环使用。今年执行年利率为5.0025%，减少了农户的利息成本”。

对此，刘国强也深有同感，他说，借助互联网金融科技推出的“惠农e贷-烟农贷”，有效解决农行服务网点不足、服务半径不够、服务人员紧缺等问题，实施后显现出一系列好处。截至今年4月末，该行农户贷款余额9.15亿元，较年初净增3.04亿元，累计发放惠农e贷18150笔，余额6.09亿元，惠农e贷取得了突破性进展，在满足农户贷款可得性、提效率、降成本方面发挥了巨大的优势，促进了业务的快速转型。在今年省分行“春天行动”综合营销考核中，曲靖分行在农户业务方面取得了较好业绩。

依托“政府增信” 做实精准扶贫

自称是“老扶贫”的曲靖市扶贫办主任许云华，在任上工作已10年，是云南省16个州市中任职最长的扶贫办主任。说到全市扶贫工作，他如数家珍：截至2017年底，曲靖市还有5个贫困县，43个贫困乡，973个贫困村，43.4万贫困人口，贫困人口占全省的12.2%，全省每八个贫困人口中曲靖就有一个，扶贫任务十分艰巨。说起金融扶贫，许云华更是兴奋：过日子，办产业须臾离不开金融支撑；实施精准扶贫脱贫工程，更是离不开金融业的精准扶助。运用大数据开发金融新产品，就是金融业投身精准扶贫的创新行动。他回忆说，刘国强到曲靖农行当行长后，多次主动到扶贫办来对接，希望与政府部门携手解决贫困户担保抵押难的问题，联合进行金融扶贫。双方多次协商达成了共识，都认为农行提出的运用大数据分析加快扶贫小额信贷工作的意见切实可行。经曲靖市金融扶贫领导小组和市扶贫领导小组审议决定，最终形成了《曲请市人民政府扶贫开发办公室与中国农业银行曲靖分行推进扶贫小额信贷服务方案》。

《方案》要求，曲靖各地农业银行分支机构与当地政府密切合作，围绕全市精准扶贫、精准脱贫目标任务，充分发挥财政扶贫资金杠杆和引导作用及金融机构的融资优势，积极提供贷款支持，力争在“十三五”期间，通过政府增信方式发放的扶贫小额信贷余额达30亿元，扶持建档立卡贫困户发展地方特色产业，实现增收致富。在工作中，坚持政府主导原则。强化各级政府推动扶贫开发金融服务工作的主体责任，人民银行、银监等相关部门在规模上和小额信贷不良贷款率容忍度方面给予适当放宽，引导金融资源向建档立卡贫困对象倾斜；坚持专款专用原则。扶贫小额信贷风险补偿基金在脱贫攻坚期专项用于扶贫到户小额信贷的损失补偿。坚持精准扶贫原则。扶贫小额信贷使用对象锁定建档立卡贫困户，贷贫不贷富，贷勤不贷懒。采取“以社带户、以企带村”的方式，组织贫困农户参与扶贫特色优势产业建设，拓宽建档立卡贫困户获得贷款的途径；坚持风险共担原则。扶贫小额信贷风险补偿基金由各县（市、区）管理。发生坏账损失，由县级政府和农业银行按协定比例共同承担；坚持诚信引导原则。对建档立卡贫困户因家庭特殊原因产生的坏账由扶贫小额信贷风险补偿基金予以代偿，各级扶贫、财政部门及农业银行应加强监管，采取相应措施，引导借款人树立诚信意识。遵守诚信公德，确保贷诚不贷赖；坚持发放信用贷款原则。农业银行对贫困户进行评级授信，每户贷款额度最高5万元（含），累计贷款期限不超过3年（含展期、续贷），利率按人民银行同期同档次贷款基准利率执行。

《方案》还要求，采用“政府增信”推进方式，即“贷款风险补偿基金+贷款对象”方式发放建档立卡贫困户扶贫小额信贷，各县（市、区）建立扶贫小额信贷风险补偿机制，按贷款规模比率筹集贷款风险补偿基金存入在农业银行开立的专户，专项用于弥补承贷金融机构因发放扶贫小额信贷产生的风险，农行对政府风险补偿基金放大倍数最高不超过10倍。对于已合作2年（含）以上、履约情况较好的政府风险补偿基金担保放大倍数最高不超过20倍。

农行富源县支行分管“三农”业务的副行长朱焦向记者介绍，2017年以来，农行富源县支行根据市级多部门签订的精准扶贫贷款合作协议，采用政府增信模式，通过大数据分析，利用“互联网+”思维，开始办理惠农e贷业务。截至目前，支行共计发放惠农e贷建档立卡贫困户小额扶贫贷款6554.6万元，覆盖全县1个街道办及10个乡镇，支持1312户建档立卡贫困户脱贫摘帽。

实施《方案》的实效如何？记者决定一探清楚。我们从富源县城出发，汽车沿着山间小路走了近20公里，来到后所社区者黑村张家地的一座山头上，只见山头已被削平，在一块约20亩左右的平地上，农民们正忙碌着建盖猪舍。该社区农民专业合作社法人肖阔告诉记者，他们和温氏养猪集团合作建两组猪舍，每组约需资金340万元，两组共需资金780万元。温氏集团出资80万元，他们吸收了36户建档立卡贫困户参加合作社，每户可向农行贷款5万元，共贷180万元投入合作社，其他资金由合作社投入。猪舍月底可建成，6月10号开始进猪，一次存栏养4000头猪，全年可养8000头，温氏集团保底收购。入股建档立卡贫困户根据效益进行分红，每年最少可保底分红3000元。合作社里的建档立卡贫困户肖国强，今年50岁，原在煤矿打工，由于煤矿生产不景气，肖国强失去了工作，近年他又患上肝积水，加上媳妇残疾，两个小孩上学，家里经济十分困难。肖阔告诉我们，肖国强家是踊跃加入合作社的农户之一，在农行小额扶贫贷款的支持和合作社的帮扶下，他家今年脱贫应该没问题了。

农行曲靖分行围绕脱贫攻坚，做实建档立卡贫困户惠农e贷。至4月末，全辖采用惠农e贷方式精准对接贫困户，批量化、线上化操作，累计发放小额扶贫贷款4.6亿元。对于该行的这一做法，人民银行曲靖中心支行行长蔡永林给予高度评价。他说：“农行曲靖分行站在讲政治的高度加大服务‘三农’力度，在全市经济不景气的形势下，运用新理念，采用大数据技术，调整信贷结构，寻找到新的突破口，在短期内取得实质性成效，农行的做法对完善农村金融市场发挥了很好的作用。”

探索新模式扩大覆盖面

从“烟农贷”入手，尝到大数据应用好处的农行曲靖分行的员工，不断摸索前行，先后推出一系列惠农新产品，惠农覆盖面从单纯的烟农，扩大到建档立卡贫困户；从一个个农户，扩大到一批农业产业化龙头企业。为此，农行曲靖分行利用互联网和大数据建立起来的惠农平台，内容也更为充实，使用也更为便捷，从而惠及农村千家万户。

依托曲靖市农村、农业、农民成长起来，集粮食收购、加工、储存、销售为一体的云南精粮坊农业科技开发有限公司，如今已成为曲靖市粮食企业的旗舰。这家民营企业发展为何如此迅速？公司董事长丁五积给我们解开了这个谜：企业没有花一分钱投入，就快速实现了电商化，其原因就是加入了“农银e管家”。“农银e管家”是中国农业银行利用强大的网络、客户资源以及金融服务优势，面向城市和农村两个市场，通过平台为供应链上、下游各级入驻商户提供含供应链销售管理、多渠道支付结算、商品管理、店铺管理、销售管理、采购管理、财务管理、库存管理、经营分析、多维度报表分析等一体化、全流程、可定制、综合化的“商务+金融”服务。如今，公司利用这一平台，做活了整个产业链。

丁五积眉飞色舞地一一道来，传统方式过去都是通过打电话、发传真等进行订货，用手工统计订单，经常造成发货不及时，收款也拖沓。现在手指点点，付款发货，交易效率大为提高。收款渠道也实现了多样化，“农银e管家”平台支持全渠道支付，企业的下游经销商可以通过农行柜台、网银、POS、转账电话、掌银等进行货款支付。与此同时，他们还将店面开到“农银e管家”网上商城，突破地域限制，辐射全国。“这就是互联网的魅力，就是农行‘农银e管家’的魅力，实在是太好了！”丁五积说，在公司领导和全体员工的共同努力下，企业业务不断拓展、规模不断壮大，去年销售额达6亿元，实现销售利润1600余万元，上缴国家税费400余万元，被云南省人民政府认定为第六批“农业产业化经营省级重点龙头企业”，被中国粮食行业协会授予“示范加工企业”称号。

另一家加入“农银e管家”平台的云南博浩生物科技集团股份有限公司，在农行曲靖分行的大力支持下，生意越做越大。该公司的主导产品万寿菊干花颗粒、叶黄素漫膏等产品销往欧、美等国家和地区。目前，公司万寿菊种植面积近20万亩，种植农户近10万户，带动产业从业人员近20万人，已发展成为全球规模最大的万寿菊种植和万寿菊叶黄素产品生产企业，叶黄素产品占国内市场份额的50%左右、全球市场份额的40%左右，在叶黄素国际市场上具有一定的话语权。

“农行曲靖分行的创新实践，给予我们在农村金融工作中如何推广应用互联网、大数据、云计算等新科技诸多的启发，目前，人行曲靖市中心支行按照‘政府主导、人行牵头、多方参与、互联互通、共建共享’的原则，提出了建设曲靖市农村信用信息服务共享平台的构想。”蔡永林说，平台将统筹政府涉农部门、各金融机构信息需求，建立以“数据库+网络”为核心、涵盖农村各类经济主体信用信息的共享共用服务平台，实现采集信息共享、查询使用更新、扶持政策发布、金融产品推介、融资服务对接、成效分析评估一体化，努力构建“政府+银行+农村经济主体+征信+信贷”线上线下相结合的新型政银农合作关系，客观、真实反映农村各类经济主体的发展现状、潜力趋势，为金融部门和其他组织更好服务“三农”及精准扶贫，从决策、实施、纠偏、统计分析等方面提供及时、准确、精细的信息服务和技术支持。

悉，在人行曲靖市中心支行的牵头下，目前一批专业人员正在紧张地推进此项工作。

第17篇：汽车行业大数据应用案例解读

汽车行业大数据应用案例

在未来，各个产业都将成为数据产业，汽车也将如此。目前，互联网所掌握的消费者喜好、生活习惯等数据信息如果应用到汽车行业，将使汽车产品更加智能，大数据的应用甚至能够影响到汽车产业的生产制造，帮助汽车企业生产出更加符合消费者需求的产品。

凯文凯利认为：“在未来，各个产业都将成为数据产业，汽车也将如此。目前，互联网所掌握的消费者喜好、生活习惯等数据信息如果应用到汽车行业，将使汽车产品更加智能，大数据的应用甚至能够影响到汽车产业的生产制造，帮助汽车企业生产出更加符合消费者需求的产品。”

在贵阳大数据论坛上，马凯副总理提出：大数据是国家战略资源，部分公共数据资源也将逐步开放，让企业用互联网+更好的服务社会。

基于汽车行业超长的产业链，从不同的层面看，汽车大数据必然是多维度的，有不同的理解和看法，我们试从各行业角度试加分析：

先看一组数据：

中国有3亿驾驶员，1.5亿车主，100多个品牌6000多款车，24000多家4S店，44万家维修厂，600万家洗车行......

主机厂：汽车大数据的顶层和基础

主机厂是汽车的制造者，他们领先的设计、技术及制造能力和知识产权，使其在整个汽车生态链中起绝对主导作用——所有的零部件设计及软件系统，都由主机厂主导，所有衍伸产品都以主机厂的产品设计规格为标准（适配软件、模具、型号、规格尺寸乃至汽车改装和汽车电子产品以及汽车用品等等）。

同时，主机厂有完善的零部件配套、物流配送、销售体系，所有该体系内的企业都要按照其标准化模式运行；原始汽车维修技术资料以及CRM和ERP系统：4S店的后台管理系统由主机厂提供，能够调取车主的姓名、住址、行驶证数据及通联、保险、维修保养记录（车主脱离4S店体系之前）。

主机厂零部件数据包括包括字段：配件名称、配件代码、品牌、型号、年代、替代配件、替代关系、图示、价格等等。

机动车整车信息及价格数据：车型代码、车型名称、车型分类、排量、核定载客、核定载质量、整备质量、厂商名称、品牌名称、车系名称、价格、上市年份、备注等全面的车辆信息。

大数据在主机厂的角色定位是在生产制造领域提升生产效率，降低成本。在客户需求层面，打造未来C2B模式的电商平台，4S店需要做针对性更强的精准营销：即利用现代计算机技术搜集、处理、分析企业的客户资料，包括现有客户情况、产品购买和使用情况分布(客户购买时间、方式、金额，以及维修保养频率和花费等)，还通过对数据库信息的分类、筛选、匹配和运算等技术手段，实现销售线索挖掘、客户价值细分和客户管理等功能，寻找销售线索、找到最有价值的客户群体，通过个性化营销策略，配合直复营销的手段，在降低大众传播营销成本的同时，与客户建立稳定、长期的关系，从而达到企业商业目标的实现以及企业利润的增长。

零部件厂

作为技术和资本密集型的生产性企业，传统的零部件企业成功的模式，是产品质量达到主机厂要求，成功进入主机厂的配套体系。

例如对车载电子企业来说，就是车机或云后视镜进入前装系统。零部件配套企业在生产的同时也得到了主机厂的数据支持。由于历史原因和主机厂的垄断，相当多的配件厂只为主机厂配套，甚至没有销售部门。

《关于征求促进汽车维修业转型升级提升服务质量的指导意见》明确规定，鼓励原厂配件生产企业向汽车售后市场提供原厂配件和具有自主商标的独立售后配件，允许4S店向非授权维修企业或终端用户转售原厂配件。

对零部件厂的而言，借助关键数据的取得，建立独立的售后体系以及完善的销售网络，自建或与第三方电商平台合作打通汽车零部件的O2O销售环节正当其时。

配件商：链接配件的生产者和使用者

作为最终与维修厂直接打交道的配件商来说，其数据包括两个范畴，私有云—电脑中的的进销存和销售渠道或平台。

对于动辄数万种库存的配件商来讲，汽配城开店+在线QQ模式的传统营销模式必然被取代，移动互联网时代，需要结盟或连锁，依靠第三方电商平台或建立完善的数据检索平台，将私有云转化为能被维修厂快速检索的公有云平台是必须经历的过程和唯一途径。

配件电商：零部件和价格数据库（非常有前景的大数据）

需要能提供包含6000余款车型、千万条配件和价格数据，特别是常用车型易损件，需要全面覆盖。配件价格数据库需要要具备以下特点：

（一）配件数据量大

将庞杂的汽车配件数据进行标准化管理，将配件名称、编号、图片进行对照，涵盖进口、合资、国产全部品牌能够满足维修厂日常查询需求。

（二）专业性强

1、配件信息：配件分类、配件属性、配件图，与原厂匹配和同步。

2、配件价格体系：正厂参考价、4S店参考价、同质配件价。

3、配件价格时效强：配件价格实时维护，与市场同步，能够做到有价有货。

4、覆盖面广：系统使用者包括配件商、修理厂，需要在双方建立简单易查询和交易的逻辑关系平台。

5、易用性强：提供了定型查询、简易查询、易损件查询、模糊查询等多种查询方式。

智能引擎：智能标准化引擎需要有智能化自动名称匹配。可将零配件的各种名称进行识别及标准化处理：通过多维度智能化处理手段，解决配件查询的复杂性和瓶颈。提高数据管理效率和准确性。

商业价值的实现：建立完善的数据库，仅仅是服务汽车后市场O2O的基础，而最终用配件编码直接关联到当地的配件商且能实现在线下单、支付乃至配送并且有质量保证和追溯体系才是汽配大数据商业价值转化的终极核心。

维修厂

作为直接与车以及车主打交道的维修厂包括4S店，能够记录车辆的维修、保养情况，行驶里程，其数据对未来进入二手车交易时，起精准评估的作用。

除配件查询，维修厂还需要使用汽车维修技术数据以及工时数据库。数据库包含大部分常见车型的标准工时、工时单价、拆装逻辑及总成包含关系。支持实际使用过程中，各类影响因素的动态参数较正。能够准确计算事故维修中的拆装、钣金、喷漆等主要工时项目金额。

除了使用第三方数据，维修厂在汽车维修中，也记录了大量数据：以高端豪华车维修的华胜和中鑫之宝为例，通过大量维修数据，可以精准的做出某款车型的养护成本及使用可靠性的数据分析报告。

保险公司

希望通过大数据分析了解车主的车价、年龄、性别、车型、住址、驾龄、历史赔付记录、历史违章记录、个人消费信用、安全气囊等保护装置和防盗装置等多个维度，他们甚至愿意免费送OBD给车主，目的是读取车辆行驶轨迹、行驶里程、驾驶习惯、油耗、速度，，以便对车险进行评估。

车险经营将从保额定价过渡到车型定价，对保险业而言，是一个很大的挑战。甚至驾驶员的驾驶习惯和性格，都对保险定价有很大的影响，“零整比”的研究报告，告诉汽车消费者，不同品牌车辆的零整比最高达到了12.7倍，不同车型，不同的年代同样都数据支持对车险进行精算，再比如事故查勘时，也需要有原厂配件的数据做一个价格比对进行理赔估算，保险的行业内部数据都相对有限，所以，需要更多利用外部数据。

车联网

车与车、车与路、车与人、车与传感设备等交互，实现车辆与公众网络通信的动态移动通信系统。它可以通过车与车、车与人、车与路互联互通实现信息共享，收集车辆、道路和环境的信息，并在信息网络平台上对多源采集的信息进行加工、计算、共享和安全发布，根据不同的功能需求对车辆进行有效的引导与监管，以及提供专业的多媒体与移动互联网应用服务。

第一层（端系统）：端系统是汽车的智能传感器，负责采集与获取车辆的智能信息，感知行车状态与环境；是具有车内通信、车间通信、车网通信的泛在通信终端；同时还是让汽车具备IOV寻址和网络可信标识等能力的设备。

第二层（管系统）：解决车与车（V2V）、车与路（V2R）、车与网（V2I）、车与人（V2H）等的互联互通，实现车辆自组网及多种异构网络之间的通信与漫游，在功能和性能上保障实时性、可服务性与网络泛在性，同时它是公网与专网的统一体。

第三层（云系统）：车联网是一个云架构的车辆运行信息平台，它的生态链包含了ITS、物流、客货运、危特车辆、汽修汽配、汽车租赁、企事业车辆管理、汽车制造商、4S店、车管、保险、紧急救援、移动互联网等，是多源海量信息的汇聚，因此需要虚拟化、安全认证、实时交互、海量存储等云计算功能，其应用系统也是围绕车辆的数据汇聚、计算、调度、监控、管理与应用的复合体系。

汽车联网后产生的大量数据，最终数据的使用和分析者：

保险公司（用于风险和价格评估）

主机厂（用于智能驾驶）

政府（用于智慧交通乃至智慧城市的管理）

附上中汽协信息委员会的一份文件，目前商用车已经有了车联网的强制要求，乘用车方面，中汽协信息委目前在联合电信运营商、保险公司、主机厂和车联网企业制定行业标准，将北斗应用推广到汽车前装市场。重点开发高清视频。电子后视，卫星导航，卫星通讯广播，安全引导，无线宽带，多屏互联，智能语音和集成ETC等功能。

咨询公司（舆情分析）

对某一时段互联网搜索量进行分析，确定市场人气、关注车型、地域关注度等信息，同时，通过对论坛、微博、微信等社交媒体的分析，判断出这款汽车在市场上的受欢迎程度。运用工具建模，做舆情分析和用户画像，提供给4S店导流以及主机厂做评估参考，同时兼具营销的功能，例如销售线索挖掘，帮助企业获得新客户：通过客户数据分析，找出客户的共同的特征，再利用这些特征到潜在客户数据库里去筛选出可能成为目标客户的名单，作为营销人员推销的对象。营销人员就可以针对这些名单发送定向窄众广告资料或进行营销活动，既可以降低成本，又提高了营销的成功率。

最后提到后市场的O2O及洗车和上门养护企业等等。

汽车后市场的O2O互联网公司，经过积累，有了相当的底层数据，但不是数据公司，其商业模式仍是通过各种方式集客和导流及线下服务，从增加车主黏性出发增加服务性收入。

政府是所有的大数据最顶层的记录者和管理者：

1）公安部交管局

交管局有3亿驾驶员，1.5亿车主数据，出行轨迹，违章记录，每月车辆上牌数据等等，例如做数据分析，可以分析出每月的200多万台新上牌车的概况：国产车、进口车乃至二手车，车辆品牌、型号、颜色、车主年龄、性别、地域分布，由此可以对车主与车型的关联情况进行精准画像：

各品牌车主的地域分布和年龄、空间地理位置、消费习惯，二手车或进口车的交易量和品牌型号分布等等多个维度。

2）海关

海关的进出口数据包括了汽车及零部件的进出口国别、数量、型号、价格。

3）税务总局

汽车全产业链价格信息和成交记录

4）高速公路管理局

车辆的出行记录

基于汽车的大数据应用场景很多，未来，汽车联网后的从出厂到报废的全生命周期，都将时时产生和上传数据，车辆的：空间位置、速度、时间、影像等等，

总而言之，在不同的维度，从汽车的生产销售、维修保养、金融服务需要大数据支持，未来的智能交通、智慧城市管理更离不开大数据的支持，随着互联网+战略的推进，一个个信息孤岛的联通，相信未来，大数据将成为更多企业的营销利器、在带来效率提高的同时，也带给普通百姓更多的出行便利！

移动互联网，把我们从IT时代带到DT时代，汽车作为互联网时代的第四块屏幕，未来改变的将不仅是汽车行业的商业模式，还将改变很多消费类行业的营销渠道。

读书的好处

1、行万里路，读万卷书。

2、书山有路勤为径，学海无涯苦作舟。

3、读书破万卷，下笔如有神。

4、我所学到的任何有价值的知识都是由自学中得来的。——达尔文

5、少壮不努力，老大徒悲伤。

6、黑发不知勤学早，白首方悔读书迟。——颜真卿

7、宝剑锋从磨砺出，梅花香自苦寒来。

8、读书要三到：心到、眼到、口到

9、玉不琢、不成器，人不学、不知义。

10、一日无书，百事荒废。——陈寿

11、书是人类进步的阶梯。

12、一日不读口生，一日不写手生。

13、我扑在书上，就像饥饿的人扑在面包上。——高尔基

14、书到用时方恨少、事非经过不知难。——陆游

15、读一本好书，就如同和一个高尚的人在交谈——歌德

16、读一切好书，就是和许多高尚的人谈话。——笛卡儿

17、学习永远不晚。——高尔基

18、少而好学，如日出之阳；壮而好学，如日中之光；志而好学，如炳烛之光。——刘向

19、学而不思则惘，思而不学则殆。——孔子

20、读书给人以快乐、给人以光彩、给人以才干。——培根

第18篇：《大数据：技术与应用》学习心得

4月1日上午，“新时代学习大讲堂”第二期时代前沿知识专题讲座贵阳举行。中国科学院院士，北京理工大学党委常委、副校长，贵州省大数据产业发展研究院院长梅宏围绕大数据技术与应用作专题报告。

本次讲座上，梅宏院长从“大数据是什么”、“如何应对大数据”、“如何应用大数据”、“大数据现状和思考”等多个方面，全方位、多角度、立体式地解读了大数据的技术与应用，语言生动、内容详实，既传达了党中央的精神，又谈了自身学习体会，既解读了大数据发展的规律，又提出了学习领会的意见建议，为贵州省各级领导干部、国家机关、公职人员学习互联网知识，熟练掌握大数据知识指出了路径、传授了方法。

通过学习，我们知道信息时代的到来，感受到的是技术变化日新月异，随之而来的是生活方式的转变，我们这样评论着的信息时代已经变为曾经。如今，大数据时代成为炙手可热的话题。

今天，信息是一个高度概括抽象概念，是一个发展中的动态范畴，是进行互相交换的内容和名称，信息的界定没有统一的定义，但是信息具备客观、动态、传递、共享、经济等特性却是大家的共识。数据是描述事物的符号记录，是可定义为意义的实体，它涉及到事物的存在形式。它是关于事件之一组离散且客观的事实描述，是构成信息和知识的原始材料。数据可分为模拟数据和数字数据两大类。数据指计算机加工的“原料”，如图形、声音、文字、数、字符和符号等。从定义看来，数据是原始的处女地，需要耕耘。信息则是已经处理过的可以传播的资讯。信息时代依赖于数据的爆发，只是当数据爆发到无法驾驭的状态，大数据时代应运而生。

在大数据时代，大数据时代区别与转变就是，放弃对因果关系的渴求，而取而代之关注相关关系。也就是说只要知道“是什么”，而不需要知道“为什么”。数据的更多、更杂，导致应用主意只能尽量观察，而不是倾其所有进行推理。小数据停留在说明过去，大数据用驱动过去来预测未来。数据的用途意在何为，与数据本身无关，而与数据的解读者有关，而相关关系更有利于预测未来。大数据更多的体现在海量非结构化数据本身与处理方法的整合。大数据更像是理论与现实齐头并进，理论来创立处理非结构化数据的方法，处理结果与未来进行验证。大数据是在互联网背景下数据从量变到质变的过程。小数据时代也即是信息时代，是大数据时代的前提，大数据时代是升华和进化，本质是相辅相成，而并非相离互斥。客户数据、交易数据、管理数据等海量数据不断增长，海量机遇和挑战也随之而来，适应变革，适者生存。我们可以有更广阔的学习空间、可以有更精准的决策判断能力这些都基于数据的收集、整理、驾驭、分析能力，基于脱颖而出的创新思维和执行。

李再勇副省长在主持讲座时指出，此次专题讲座既是一次培训辅导，也是一次了解大数据、弄懂大数据、运用大数据的好机会，大家要认真学习、深刻领悟，将大数据知识运用到实际工作中。并要求，广大党员干部一是要精准把握习近平总书记关于大数据发展系列重要讲话精神的核心要义，要利用大数据在商用、政用、民用等多方面“聚通用”协同发展；二是要以大数据发展重构经济体系，努力实现贵州经济高质量发展，要以供给侧改革为主线，以大数据发展加快对传统产业结构和产业体系的重构、重组，实现质量、效率、动力三大变革；三是要以大数据发展提升治理体系、治理能力，不断推进政府管理和社会治理模式的创新，要在数据重构中找到适合人类社会管理的规律。四要以大数据发展促进民生发展，不断提升公共服务均等化、普惠化、便捷化，要通过大数据进一步推动共享发展，共享发展的平台和路径以及技术，加快共同富裕的步伐。

第19篇：大数据产业发展应用思考

加快贵州大数据产业发展应用的思考

当前，对于贵州省来讲，大数据产业的发展，既是新时期全省经济社会建设的崭新内容，也是政府部门电子政务管理的一项重要工作。在全国和全省经济发展的大视野下，如何按照国家大数据产业的战略部署，对加快贵州大数据产业的发展和应用进行深入研究和思考，已成为政府部门、高等院校、研究机构、产业部门乃至社会公众日益关注的热点问题，具有十分重要的现实作用和战略意义。

一、加快大数据产业的发展和应用

1、大数据的定义及基本特征

大数据是通过快速获取、处理、分析后，从中提取价值的海量、多样化的交易数据、交换数据与传感数据。同时，大数据是一项有价值的国家资本，应对公众开放，而不是把其禁锢在政府体制内，因此积极倡导政府数据开放, 使公众可以通过任何数据平台了解和获取政府开放的数据信息和公共服务。所以，大数据具有数据体量(volumes)大、数据类别(variety)大、数据处理速度(Velocity)快、数据真实性(Veracity)高、巨大的数据价值和数据低密度(Value high and Lowdensity)成反比的基本特征，这些特征表明了大数据不仅体现在如何处理巨量数据从中获取有价值的信息，也体现在如何加强大数据技术研发，抢占经济社会发展的前沿，意味着随着市场交易与应用数据等新数据大量生成，传统数据的局限被打破，将为企业提供有效的信息并确保其真实性及安全性。所以，大数据不仅指其数据本身的规模，也包括采集数据的工具、平台和数据分析系统。对国家和地区来讲，只有加强大数据技术研发，才能抢占时代发展的前沿和先机。

2、加快大数据产业的发展和应用

大数据产业是指一切与大数据的产生于集聚、组织与管理、分析与发现、应用与服务相关的经济活动的集合，以挖掘分析服务为核心，包括数据中心、宽带网络等基础设施服务，数字内容服务、物联网服务、位置服务等信息服务，智能终端制造、电子元器件制造等电子产品制造，以及智能交通、互联网金融和智慧城市等应用服务。实践表明，继云计算、物联网和移动互联网之后，大数据正成为信息技术的新热点，产业发展的新方向，将对整个人类的生产与生活产生巨大影响，对国家和地区的经济与社会带来深刻变革。对目前经济尚不发达的贵州省来讲，加快大数据产业的发展和应用，把握大数据发展方向，推动大数据开发应用，发展大数据服务产业，是推进贵州省信息技术产业集聚发展和经济社会跨越发展的重要抓手，对推动贵州工业结构调整、加快新型工业化和城镇化进程、打造贵州经济社会发展升级版，具有十分重要的战略意义和现实作用。

二、贵州发展大数据产业的优势和存在问题

1、贵州发展大数据产业的优势

2014年2月，贵州省人民政府印发了《关于加快大数据产业发展应用若干政策的意见》和《贵州省大数据产业应用规划纲要(2014—2020年)》，为我省发展大数据产业指明了方向。为实现到2020年我省大数据带动相关产业规模达到4500亿元的目标，应对当前我省大数据产业的发展优势进行分析。

一是气候环境优良的生态优势。贵州省属热带季风湿润气候，夏季平均气温低于25℃，全年风速以微风为主，没有明显沙尘天气，空气质量常年优良。地质结构稳定，远离地震带，灾害风险低。优良的生态环境为发展大数据基础设施提供了独特的优势。

二是水煤资源丰富，电力价格低廉的能源优势。贵州水能蕴藏量居全国第六位，平均106千瓦/公里2，为全国平均的1.5倍。煤炭资源储量居全国第五位，煤气层资源量列全国第二位，全省火电装机容量超过2000万千瓦。电力价格具有竞争优势，贵州省工业用电平均价格明显低于国内其他地区。能源优势能够为大数据企业提供廉价、稳定的电力资源，降低企业运行成本。

三是地理位置和交通便利的优势。贵州省位于我国中部和西部地区的结合地带，连接成渝经济区、珠三角经济区、北部湾经济区，是我国西南地区的重要经济走廊。近年来，贵州省抓紧建设以龙洞堡国际机场为核心的“一干十三支”民航系统，以黔桂、成贵等铁路干线和贵广高铁、沪昆高铁为代表的铁路运输网络正在形成，2014年进入“高铁时代”。贵州省公路路网结构日趋完善，高速公路通车里程3261公里，2015年通车里程突破5100公里，实现“县县通高速”的目标。持续优化的交通条件，使贵州省经济走廊的地位进一步凸显。

四是具有西部重要增长极、内陆开放新高地的战略优势。党中央、国务院高度重视贵州省的发展，先后出台的《全国主体功能区规划》、《国务院关于进一步促进贵州经济社会又好又快发展的若干意见》、《西部大开发“十二五”规划》和《黔中经济区发展规划》等政策规划，都明确了对贵州省的支持政策。2014年1月6日，国务院批复贵安新区作为西部地区重要的经济增长极、内陆开放型经济新高地和生态文明示范区的战略定位，进一步加大了对贵州省发展的支持力度。

2、贵州发展大数据产业中存在的主要问题

贵州省在发挥产业优势的同时，应十分重视目前存在的以下重要问题：

一是大数据产业基础薄弱。从全省和地区来看，大数据产业基础还比较薄弱，如大数据产业的结构不够完整，缺少具有较大规模、掌握核心技术、能够带动数据产业发展的行业龙头企业，对全省和地区的产业带动效果有限，由于高端产业链资源不足，在产业链的发展上，各个环节尚未形成上下游能够协作发展的模式。

二是传统企业对大数据认识不足。由于传统企业对大数据加快企业转型升级的运营理念认识不足，缺乏对企业的创新技术，企业内部的数据“孤岛”现象严重，不能对其数据价值进行充分挖掘和利用，加上对数据的管理技术和架构落后，导致不具备对大数据的处理能力，不仅数据安全和防范意识差，而且存在数据泄漏的问题。

三是大数据应用方面人才匮乏。贵州省由于处于中西部地区，经济发展相对落后，与发达地区相比，大数据人才缺乏，特别是高层次、复合型的大数据科学家、首席数据分析专家短缺严重。尽管2014年贵州省成立了大数据研究院，贵州大学、贵州师范大学也分别成立了大数据学院，但培养的人才需要四年之后才能毕业，加上技术创新服务体系不健全，各类创新创业孵化平台建设不足，所以，大数据应用方面的人才匮乏已成为当前大数据产业发展的“短板”，如何集聚人才，是迫切需要解决的问题之一。

四是信息产业边缘化和产业结构不合理问题比较突出。当前，贵州省信息产业规模总量小，缺乏大型龙头企业，企业之间没有形成有效的产业链，加之信息产业根基不牢，配套产业缺失、关联度不高，尚未形成有效的产业链集群发展模式，在全国信息产业布局中，处于相对边缘化的地位。2013年，贵州省电子信息制造业产值、软件和信息服务业主营业务收入、电信业务总量分别仅占全国的0.23%、0.32%、2.17%。另外，大数据产业结构也不合理，主要集中在电子元器件领域，新一代移动通信系统、智能终端，计算机、服务器等产业高端、新兴领域基本处于空白;且多数企业处于价值链低端，核心竞争力弱，高速增长缺乏动力引擎。针对存在的问题，应采取卓有成效的对策措施加以解决。

三、加快贵州大数据产业发展的对策措施

1、培育市场需求，加强需求端引导

一是当好需求拉动发展的中介人。大数据产业发展统筹机构应增设专门的管理职能，负责进行行业应用及产品和服务供给匹配，在应用企业和供给企业之间当好需求拉动发展的中介人。同时，负责协调解决对接过程中出现的重大问题，因此机构中应吸纳大数据产业专家智囊团作为外脑辅助机构。

二是开展行业应用示范。借鉴国外成功经验，加快政府相关部门数据开放进度，引导和推动大数据行业应用试点示范项目开展。面向电信、金融、流通、医疗、能源、文化科技融合等数据量大的领域，为大数据产业发展和推广运用提供范例和借鉴。

三是求效做实政府采购引导。制定政府部门和公用事业单位大数据应用采购目录，将“云上贵州”系统平台、数据安全、数据分析和云服务等大数据服务纳入政府采购目录，各级政府要安排专项资金支持政府采购。

2、提升核心技术，打造行业优势

一是加强同北京中关村技术合作，尽快形成贵州省大数据产业自有核心技术。通过建立联席会议制度，加强两地干部的挂职与交流。落实中关村企业落地项目优惠政策，鼓励贵州本地企业与中关村大数据企业进行多层次的合作，对在理念交流、管理输入、人才引进、市场合作等多方面的项目给予资金资助。

二是积极争取国家支持。积极参与工信部、科技部大数据科技攻关和产业发展规划实施工作，加强和深化产学研用合作，完善自主创新体系建设。积极参与国家973光存储重大科研项目，开展国际合作，提升NVD光存储产品技术，加快光盘阵列技术及其产业化进程。

三是加快推进创新成果转化。引进大数据研发中心、工程技术(研究)中心等技术创新和产业化机构。组织实施大数据关键技术产品产业化项目，用于整合、处理、管理和分析大数据的关键技术产品产业化。加快推动以北斗导航为核心的地质灾害预报预警、交通运输监管、智慧旅游等应用示范，支持位置信息服务业务发展。

3、加快招商引资，引进国内外强势企业落户贵州

一是通过引进产业中具有核心地位的龙头企业，培育有竞争优势的大数据产业集群。在产业特色、技术水平、产学研结合等创新要素整合上有所突破，弥补产业链发展的短板。通过注入科技、信息化和品牌元素，促进现有产业不断精细化，提升现有企业的质量效益，将优势产业打造具有竞争优势的产业集群。

二是围绕“7+N”云工程应用和产业链培育，组建专门招商团队，采取精准招商和专业招商，大力引进世界500强和国内电子100强企业落户贵州。进一步巩固和扩大招商引资成果，形成大项目带小项目，主体项目带配套项目、上游项目带下游项目产业集聚的良好局面。

三是认真贯彻落实《关于加快大数据产业发展应用若干政策的意见》、《贵州省大数据产业发展应用规划纲要(2014—2020年)》，及时兑现财政扶持、金融支持、用地保障、电力供给等方面的优惠政策措施。同时，加快政府职能转变，增强服务意识，提高服务效率，积极营造招商引资和产业发展环境。

4、战略运营本地企业，提升核心竞争力

一是引进国内外大数据产业链龙头企业作为战略投资者开展合作，大力孵化培育本地云计算大数据领先企业。并以其为龙头，带动行业中第一梯队其余企业做大做强。通过向重点支持的企业、第一梯队其余企业提供市场、品牌、人力资源、财务、法律、行政等孵化服务，帮助其发展壮大。

二是重点推进贵阳云计算大数据创新孵化基地建设，吸纳云计算、大数据的外源资本、前沿技术和人才，有效提升本地企业核心竞争力，推动更多的企业成为创新主体，力争在一些关键领域切实掌握自主知识产权，进而增强区域产业发展整体竞争力，培育更多创新型企业参与到产业链条中高附加值产业环节。

三是发挥本地企业集中大数据产业信息分析人员和业务应用人员的智慧，以贵州省内数据资源丰富的政府部门为切入点，以智慧交通、智慧医疗、商业零售业为重点，探索推广关系挖掘和沉淀价值利用模式，尽快推广数据托管和交易平台商业模式，探索占领周边省份市场。

5、拓宽融资渠道，夯实产业基础

一是加大政府资金投入力度。设立大数据产业发展专项资金，建立大数据产业财政投入长效增长机制。各级政府要加大财政预算支持力度，把大数据产业发展专项资金列入年度预算。成立省大数据产业引导资金联席会议，共同研究资金支持导向和重点项目支持方式。

二是积极吸引社会资金参与。引导各类风险投资机构加大对大数据发展的投资力度，鼓励金融机构为符合条件的大数据企业提供贷款。加快担保体系建设，积极探索借鉴“风险池”资金管理方式，推行联合担保，分担融资风险，扩大融资担保能力，拓宽大数据企业融资渠道。支持担保机构加大对大数据产业知识产权质押贷款的担保支持力度。

三是创新产业发展融资模式。建立大数据产业发展专项投融资平台，封闭运行，由各市(区)政府按一定比例注入资本金，提高平台的融资能力。根据项目具体情况，探索采用“特许经营”、“公私合营(PPP模式)”、“建设移交(BT模式)”等融资模式。加强要素市场与资本市场的有效融合。

6、强化人才支撑，促进持续发展

一是以大数据领域研发和产业化项目为载体，积极引进和培养一批领军人才和高端人才。聘请国内顶级专家学者作为产业发展顾问。鼓励符合条件的国内外大数据领军企业家、海外高层次人才、院士、国家级专家学者、“千人计划”专家、知名大数据高端创新人才和创新团队创立大数据企业。

二是推动省内外高校与行业企业、科研院所深度合作，为贵州省培养大数据技术研发、市场推广、服务咨询等应用型人才。与北京大学、清华大学、中科院等重点高校科研院所签订协议，定向培养和输送信息技术类人才。鼓励企业与大专院校建立订单式人才培养机制，与花溪大学城、清镇职教城合作，为大数据企业提供订单式培训，就地解决大数据企业发展所需的中初级人才。

三是着力培养“业务+数据+技术”专业化人才。大数据应用最关键的部分是数据分析和挖掘数据价值。贵州省在进行人才引进和资源培养时，数据科学家是目前大数据产业发展急需的专业化人才，他们能够建立高级分析模型，发现趋势和隐藏的模式，使大数据真正发挥作用。

7、统筹数据资源，保障数据安全

一是尽快制定信息安全法、反垃圾电子邮件法、手机垃圾短信治理法及网络和新媒体广告法，为个人数据保护提供全面的立法支持框架。在立法完成之前，通过政府规章性文件的方式规范数据资源共享交换、开发利用、隐私保护等关键环节，在法律层面避免信息泄露和信息滥用等问题，保障大数据产业发展环境。

二是制定相关标准规范。面向大数据平台建设和应用服务需求，制定大数据采集、管理、共享、交易等标准规范，明确收集数据的范围和格式、数据管理的权限和程序以及开放数据的内容等。明确大数据采集、管理、交换等标准，制定数据开放目录并及时更新。

三是完善信息安全保障机制。加强大数据环境下信息安全认证体系建设，做好信息安全顶层设计，有效保障数据采集、传输、处理等各个环节的安全可靠。围绕信息系统安全、基础设施安全、云平台安全、网络通信安全、数据安全、身份认证与管理等方面，开展全面系统的信息安全保障试点工作，探索建立信息安全保障体系。

8、完善服务保障，为产业保驾护航

一是组织产业发展统计体系与监测基础性研究。一方面，尽快明确大数据产业在行业分类中的具体范围，制订关键技术和产品目录。根据《贵州省大数据产业发展应用规划纲要(2014-2020年)》确定的重点方向和任务，梳理现有行业分类标准，尽快明确贵州省大数据产业发展的具体范围。分行业制订产业发展的关键技术和产品目录，以便提高宏观管理能力，加强对具体工作的指导，确保财税、金融政策有针对性地扶持重点技术和产品。另一方面，选择典型优势领域，尽快做好与现有统计口径的衔接。优先选择具有比较优势基础的领域，积极开展“大数据产业分类基础指标”理论研究，面向省内行业组织、企业广泛征求意见，在工作层面完善形成对应的统计指标和统计渠道。以此为基础，尽快建立大数据产业统计监测制度和动态调整机制。

二是建立大数据产业发展政府平台。组织专业人员进行大数据产业应用研究，汇总大数据产业应用案例，在共享平台上及时动态公布。同时，组织专业人员对大数据产业发展运行进行研究，筛选构建大数据产业发展监测指标体系，在共享平台上及时动态公布;对大数据数据重大项目进行汇总整理，在共享平台上及时动态公布项目进展，以及对大数据产业资金使用情况进行汇总整理，在共享平台上及时动态公布，接受专业机构和社会公众监督。

三是创新政策扶持。首先，将大数据产业发展优先纳入新型城镇化发展规划、新兴产业发展规划和科技专项，围绕大数据硬件、软件开发生产到产品、服务，从基地建设、资源供给、人才开发、企业培育、国际合作、产业基金、运营合作、财税政策、试点建设、协调推进等方面制定有利于产业启动和发展的政策和措施，给予重点支持。其次，将大数据产业与潜力应用行业进行政策设计统筹考虑，通过政策创新鼓励应用行业与大数据产业发展有效对接，重点探索促进大数据产业信息共享平台的鼓励政策，在产业发展中更多引入市场机制;探索应用行业与大数据产业资金“一揽子使用”鼓励政策，增强产业发展融资能力。第三，社会资本支持产业发展也应有明确的规章制度进行权利设定和责任约束。通过制定民间资本进入大数据产业发展实施细则，明确准入标准、主体资格、主体责任与权利、享受的优惠政策、进入流程、责任和惩罚机制等事宜。并及时向政府有关部门共享信息和向社会公开，以接受全方位监督，确保资金参与时效。

四是加强组织保障，优化管理体制。按照“一办一中心一企业”的格局，加强大数据统筹管理力量。整合现有信息数据管理资源，设立副厅级事业编制的贵州省大数据产业发展中心，承担全省数据资源管理和技术支撑工作。适时成立国有控股的云上贵州大数据产业发展有限责任公司，作为投融资平台对贵州省大数据企业及项目进行股权投资，牵头募集资金建立省大数据产业风险投资基金，负责承担系统平台建设和运营，参与政府数据资源管理和开发应用。有效发挥贵阳市大数据产业专家咨询委员会职能，积极引进国内外大数据领域的优秀专家学者，参与拟定相关技术标准，协助拟定推进大数据产业发展的相关政策，为贵阳市推进大数据产业提供决策咨询。

建议由省经济和信息化委牵头，建立跨部门、跨地区、跨行业的大数据发展协同推进机制，加强重大问题协调力度。设立贵州省数据资源管理办公室、产业发展专家委员会，为大数据产业发展与应用提供决策支持。明确数据资源管理机构，指导省直各部门开展数据资源登记和分级，统筹管理各部门之间的数据交换和交互需求，推动政府数据资源整合、公开共享、开发利用。各地各部门要强化服务意识，加强协调配合，建立跨地区、跨部门和跨层级的政府信息交换和共享机制，为大数据管理和商业应用创造条件、提供方便。各地区要及时制定配套措施，抓好政策落实，形成政策叠加效应和强大合力，推动全省以大数据产业为重点的信息产业实现跨越发展。

第20篇：大数据在物流方面应用

大数据时代在物流方面的应用

学院：经济管理学院专业：市场营销123班学号：2012016314 姓名：李燕

“大数据时代来了!”两年，从业内到业外，这句口号见诸网媒、报端的频率与日剧增。直至今天，从政府高管到行业巨头，从商界大鳄到微企老板，关于数据创业，他们中有没有直接参与已然不是那么重要了，重要的是现在谁都不敢不重视大数据。更值得期待的是已有先驱驮负大数据颠覆行业规则的构想，开始试水国内物流行业。

“物流业是一个产生大量数据的行业，在货物流转、车辆追踪等过程中都会产生海量的数据，这么多资源如果不用就浪费了。”申通信息技术部总监邱成在接受本报记者采访时说。目前，业内对大数据并没有统一的定义。不同厂商、不同用户，站的角度不同，对大数据的理解也不一样。麦肯锡报告中对大数据的基本定义是：大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。毋庸置疑的是，大数据的价值在于从海量的数据中发现新的知识，创造新的价值。越来越多的企业也意识到了大数据的价值，对数据分析与挖掘的需求与日俱增。

“物流业之所以做大数据，主要是因为：第一，快递走入民生的势头越来越猛，对每一个节点的信息化需求也越来越多，这就需要通过大数据把信息化对接起来。第二，从企业自身角度来讲，信息化对企业管理者的重要性也越来越突出。第三，提高对数据的加工能力，通过‘加工’实现数据的‘增值’。”邱成说。

长期以来，备受指责的行业中总少不了物流业，其对仓储运输车空间的利用不科学、安全性差、燃油效率低下、周转时间随路径而浮动等，这些是导致中国物流业占GDP总量约18%远高于欧美发达国家的最主要原因。

整个物流业尤其电商领域已经几近爆发式成长，若应用大数据分析技术，仓储运输的空间将被系统化布置，物流车行程路径也将被“最短化”、“最畅化”定制。两年前，把一吨蔬菜从广州运到北京比从北京运到美国洛杉矶物流成本都高，今天，当大数据时代到来的时候，物流行业规则能否因其改变，只能拭目以待。因为大数据试水物流行业，“游戏”才刚刚开始。

“现在我们在做淘宝、商业客户的一些数据采集，在构成基础数据网络之后，再做第三方的增值应用。”邱成说。在前不久召开的“京交会”上，申通快递展示了其最新的“信息化智能平台”。该平台通过对数据的归纳、分类和整合，可以清楚地查看申通网络任何一个网点的经营现状和业务构成等。

在百世汇通，通过技术人员运用科技手段进行分析、提炼，大数据正在为企业战略规划、运营管理和日常运作提供重要支持和指导。据百世物流科技（中国）有限公司副总裁张砚冰介绍，百世汇通尝试运用大数据来管理、分析、判断加盟网点的运营行为，通过网点在系统内的足迹建立数据分析模型，成功地预测了几次网点的异动，使工作方式由被动式变为主动式、前置式，减少了大量客户投诉，把问题消灭在萌芽阶段。

不仅仅是物流业，电商企业也越来越关注大数据。早在今年年初，京东商城就已启动云计算研发基地，并成立“京东商城——中国人民大学”电子商务实验室，着力电子商务大数据的分析与合作；在“京交会”上，阿里巴巴集团与中国邮政集团、“四通一达”等十家快递公司合作，核心内容仍以打通物流数据为基础，重点将转向“数据整合与分析”。

“淘宝做大数据是以订单为核心，快递企业做大数据是以快递为核心。以申通为例，我们的客户不只是淘宝，还有很多商业客户。而且不少商业客户都有与快递企业在IT方面合作的想法，未来我们也希望能挖掘更多的数据价值，通过大数据给商业客户提供信息化服务。”邱成说。

物流行业树大根深，大数据在此行业内的应用也是非常广泛的。物流中除去淘宝商城、京东商城、苏宁易购等企业产生的包裹、快递等小部件中短距离之间物品流通的小物流;还有与之相对应的重量大、体积大、长距离运输的物品流通，如港口货物运输、大货车集装箱运输等的大物流。

在亟待改进的物流行业，大物流领域利用大数据分析应用技术其实质就是利用地理信息、位置服务、物联网在物流行业里做信息系统化，将现有的粗放、零散、低效、高耗的物流企业数据资源加以整合，建设成可以依据空间地理信息来统一协调监管的现代化物流。逐步利用大数据驱动信息化物流建设，在信息化的现代物流模式下，大物流领域的任何物流车船归属企业的名称、物流车队的整体油耗、车船的位置信息、车船的行程轨迹、车船的运行周期等这类空间地理数据通过系统智能化处理。

大物流领域成功应用大数据，无非是让物流车队效率提高、流程精简。物流车队本身的管理、设备等条件优化改善了，才有望使得中国物流运输成本降低。理想的前景是联合一个大型物流车队，为其免费装载上一台设备，这种设备搜集的车队车辆所有空间地理位置信息都即时反馈到监视后台。怎样获取这些大数据也就是物流车队提高管理效率的关键所在。然而，在刘俊伟来，这种期望的信息智能化的现代物流模式可能需要3-5年时间方可成熟。怎样获取这些大数据是一个问题，这需在资金投入、研发团队打造方面的决心和魄力。

“随着市场的发展，在未来，快递企业会不断加大在大数据方面的投入。”邱成表示。大数据的核心是发现和预测，利用其这个特点，可以提升快递行业的整体服务水平。此外，对于快递业做大数据的未来发展趋势，也有业内人士指出，快递员获取的数据已不只是企业内部信息，还包括大量的外部信息。大数据则让厂商能够有的放矢，甚至可以做到为每一个客户量身定制符合个体需求的产品和服务，从而颠覆整个商业模式。

尽管企业已熟知大数据所带来的价值和优势，但由于数据规模和种类的增加，处理速度的加快，以及易受攻击的特点，随之而产生的成本和复杂性给企业的IT资源和基础设施带来了更大的压力。如何在降低成本的同时提高IT效率，成为快递企业不得不面对的一大难题。

在邱成看来，投资、技术手段等并不是最大的难点。“快递企业做大数据面临的最大难题在于：一是基础数据的采集。因为到现在为止，不少快递企业的操作及信息传输并不是很规范，这给基础数据的采集带来了不小的困难。二是未来大数据的应用方向。比如我们现在有一些淘宝数据，首先要想好怎么用。”邱成说。

此外，也有业内人士建议，在大数据时代，企业要想用数据制胜，就必须尽早建立数据资产管理策略。只有拥有战略性视野和专业技术，才能更好地获得商业洞察力，才能将数据资产转换成战略资产和竞争力。

对于物流行业而言，必须能够更好地利用大数据，这样就可以更好地为客户提供服务，降低成本，提高燃油效率。与刘俊伟观点大同小异，Teradata天睿公司运输物流业总监肖恩也认为，大数据在大物流领域的应用是一个主要的技术潮流。即目前已经积累下的大数据需要以更加智能的方法加以利用，同时还要开发新技术来更便捷的获取多样化大物流数据。

《大数据应用调研报告.doc》

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档