人人范文网 范文大全

大数据(推荐)

发布时间:2020-03-03 10:23:38 来源:范文大全 收藏本文 下载本文 手机版

《新技术讲座》论文2012-2013(1)

XXXX大学—

《微软新技术系列讲座》论文

大数据

一、背景及发展趋势

1.1.背景

大数据(BigData),或称巨量资料,指的是所涉及的资料规模巨大到无

1 / 7

《新技术讲座》论文2012-2013(1)

法透过目前主流软件工具,在合理的时间内撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据作为时下最火热的IT行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

随着云时代的来临,大数据也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数

十、数百或甚至数千的电脑分配工作。

1.2.发展趋势

斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍 。FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。

“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自

2 / 7

《新技术讲座》论文2012-2013(1)

身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。

大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,目前已进入大数据时代,但现在的硬件明显已跟不上数据发展的脚步。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

3 / 7

《新技术讲座》论文2012-2013(1)

未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

二、实施应用

大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”———哈佛大学 社会学教授加里·金

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce 、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等 对于大数据的存储问题,以下问题不可忽视:

容量问题

4 / 7

《新技术讲座》论文2012-2013(1)

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB1的持续吞吐能力,非常适用于大数据分析。 延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraCla™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。

成本问题

对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,

5 / 7

《新技术讲座》论文2012-2013(1)

数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

数据的积累

许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

灵活性

大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

应用感知

最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。

针对小用户

依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。

实际应用

6 / 7

《新技术讲座》论文2012-2013(1)

包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务 。

三、心得体会

听完此次王老师的《大数据》讲座,让我受益匪浅。不仅充分了解了大数据的概念,大数据时代的起源、发展及实际应用产品的问世,而且对大数据的神奇很是惊讶。的确,未来的世界需要科技创新,需要技术变革,而大数据就是改变世界的助推器之一,作为即将进入IT行业的我们来说,这既是机遇,也是挑战!

7 / 7

大数据

大数据

大数据学习体会

《大数据》读后感

大数据观后感

大数据人才培养

大数据心得体会

大数据心得体会

大数据时代

大数据试题

大数据(推荐)
《大数据(推荐).doc》
将本文的Word文档下载到电脑,方便编辑。
推荐度:
点击下载文档
相关专题 网优大数据 数据
点击下载本文文档