大数据读后感

发布时间：2020-03-03 00:48:19 来源：范文大全收藏本文下载本文手机版

假设你要测量一个葡萄园的温度，但是整个葡萄园只有一个温度测量仪，那你就必须确保这个测量仪是精确的而且能够一直工作。反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，可能会更加混乱，但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据，而它不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。

现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度，我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话，不仅读数可能出错，连时间先后都可能搞混掉。试想，如果信息在网络中流动，那么一条记录很可能在传输过程中被延迟，在其到达的时候已经没有意义了，甚至干脆在奔涌的信息洪流中彻底迷失。虽然我们得到的信息不再那么准确，但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。在第一个例子里，我们为了获得更广泛的数据而牺牲了精确性，也因此看到了很多如若不然无法被关注到的细节。在第二个例子里，我们为了高频率而放弃了精确性，结果观察到了一些本可能被错过的变化。虽然如果我们能够下足够多的工夫，这些错误是可以避免的，但在很多情况下，与致力于避免错误相比，对错误的包容会带给我们更多好处。(小微金融创新，也可借鉴此思想，然后做好对数据收集与存储的支撑成为首要完成的事务，然后是对数据的正确运用是重点)

我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。我们都知道，如摩尔定律所预测的，过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认为，每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更快速了，存储空间更大了。大家没有意识到的是，驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示，在很多领域这些算法带来的进步还要胜过芯片的进步。然而，社会从“大数据”中所能得到的，并非来自运行更快的芯片或更好的算法，而是更多的数据。（数据本身的价值，及数据的价值的体现）

容忍错误带来的是更多数据吞吐（大数据），容忍风险带来的大量业务的涌现（小微金融）大量业务的涌现带来的收益需要大于其风险带来的损失，最好办法就是从他处大量收集这些数据，并容忍这些数据存在错误，再基于大数据分析（同业数据收集，依托互联网中搜索等进行收集，阿里可以根据淘宝进行收集）

一致性多样性

Hadoop的输出结果没有关系型数据库输出结果那么精确，它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务，它就比其他系统运行得快很多，比如说把顾客分群，然后分别进行不同的营销活动。信用卡公司VISA使用Hadoop，能够将处理两年内730亿单交易所需的时间，从一个月缩减至仅仅13分钟。这样大规模处理时间上的缩减足以变革商业了。也许Hadoop不适合正规记账，但是当可以允许少量错误的时候它就非常实用。

ZestFinance，一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司，用自己的经验再次验证了“宽容错误会给我们带来更多价值”这一观点。这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。传统的信用评分机制关注少量突出的事件，比如一次还款的延迟，而ZestFinance则分析了大量不那么突出的事件。2012年，让ZestFinance引以为豪的就是，它的贷款拖欠率比行业平均水平要低三分之一左右。唯一的

得胜之道还是拥抱混杂。

梅里尔说：“有趣的是，对我们而言，基本没有任何一个人的信息是齐备的，事实上，总有大量的数据缺失。”由ZestFinance创建的用来记录客户信息的矩阵是难以想象得稀疏，里面充满了数据的空洞，但ZestFinance在这些支离破碎的数据中如鱼得水。举个例子，有10%的客户属性信息显示“已经死亡”，但是依然可以从他们身上收回贷款。梅里尔一脸坏笑地说：“显然，没有人会企盼僵尸复活并且主动还贷。但是我们的数据显示，放贷给僵尸是一项不错的生意。”

所以有时候，通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”，这些指数是用来预测一个人的支付能力的。

数据化

必须收集所有信息（包括被否掉的信息和被忽略的信息）,所有跟行业接触的客户的信息，甚至没有需求的客户信息。所以可以分四步来走，第一步所有达成交易客户的全面信息（*只要能收集到能接触到的），第二步收集所有跟公司有接触的客户的全面信息，第三步收集跟整个行业有接触的客户的全面信息，第四步所有跟客户相关的人或法人的全面信息，第五步所有人的全面信息。

一切给冯·安这位家里经营糖果厂的危地马拉人带来了相当高的知名度，使他能够在取得博士学位后进入卡内基梅隆大学工作，教授计算机科学；也使他在27岁时获得了50万美元的麦克阿瑟基金会“天才奖”。但是，当他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母，而随后大量的信息被随意地丢弃时，他并没有感到自己很聪明。

于是，他开始寻找能使人的计算能力得到更有效利用的方法。他想到了一个继任者，恰如其分地将其命名为ReCaptcha。和原有随机字母输入不同，人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过，从而可以从该用户的输入中判断注册者是人；另一个单词则是有待辨识和解疑的新词。为了保证准确度，系统会将同一个模糊单词发给五个不同的人，直到他们都输入正确后才确定这个单词是对的。在这里，数据的主要用途是证明用户是人，但它也有第二个目的：破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可，2009年谷歌收购了冯·安的公司，并将这一技术用于图书扫描项目。

我们所处的时代之所以与众不同，是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度，大量信息可以被廉价地捕捉和记录。数据经常会得到被动地收集，人们无须投入太多精力甚至不需要认识这些数据。而且，由于存储成本的大幅下降，保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。

大数据创新可以有两个方向：

1、更适合于已有大量数据在手的进一步数据价值挖掘。

2、或打造向大数据收集方向靠拢的模式，建立一种好的收集机制。

数据创新1：数据的再利用

数据创新2：重组数据

数据创新3：可扩展数据：可扩展数据

数据创新4：数据的折旧值

数据创新5：数据废气

数据创新6：开放数据

这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值，而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量，而且将其应用于许多其他服务中，如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。

容错，包容能带来新的价值

一位谷歌的员工说：“我们喜欢从大的‘噪音’数据集中吸取教训。”

很多企业都开始设计他们的系统，以这种方式收集和使用信息。在Facebook的早期，数据科学家们研究了数据废气的丰富信息，发现人们会采取某种行动（如回帖、点击图标等）的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着，Facebook重新设计了它的系统，使每个用户的活动变得可见并广播出去，这为网站的良性循环做出了新的贡献。逐渐地，这个想法从互联网行业传播至可以收集用户反馈的任何公司。

数据本身、技能与思维

数据来源，信用卡匿名信息

手/网游公司。。。

大数据只是科技发展的一个阶段，人类卓越的才华才是人类最大的优势（相比较于机器）,是我们行进道路上可能用到或可以说必定会用到工具，工具就需要擅用的才华与技巧。如果存在超越或近似于人类才华的能力，那它就具备人类同样的智慧。

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档

相关专题大数据时候读后感读后感

相关范文推荐