漫画:什么是大数据?
<p style="text-align: center;"><img src="https://simg.open-open.com/show/9ca9b1e261bccd447f48a9cdd26c9ae2.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/a46c92dadf7a176a726a69b9743bb6a0.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/0124e01692f3c860d74adcab73e7025e.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/a1ae9e8466b07c186a38326abb04419e.jpg"></p> <p>大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。</p> <p>Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/005b56ba55dd60f1d930dbdaffcb5ee9.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/e2631cca4ec47e27236aa06166312985.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/cd04a378d3a14577aa04b900dac87214.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/88de701a8812f501966f72ba872e140c.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/121279044475c2924f9ce3b1cfc95341.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/1a275300b04be9a220425cdd30c9822c.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/f407659ae39abf7ee18ce02ebb9a107d.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/087bef491aa4dde510ad1cc6a437199b.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/e28b10b49cfe22dac5e2fbf33b2d6fc5.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/ec6630a166f6eefa564bd949b127a2ca.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/f1848d0865a2e7c6b3b46e5ae9270afb.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/442de6f441449e9192e3d69e93454dea.jpg"> <img src="https://simg.open-open.com/show/6f51e0b3fc44ca8ba2f3a6606ba43234.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/ec6630a166f6eefa564bd949b127a2ca.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/009da8c1b53ad5dc479a5bc9005a312b.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/182aa1bef8c89090ecf78a53556209f8.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/35c12be739ab773edc390dd953f2e8a5.jpg"></p> <p>大数据通常都拥有海量的数据存储。仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。</p> <p>面对这样规模的数据存储量,依靠单台数据库服务器显然是不够的,需要以分布式文件系统(例如 HDFS)作为基石。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/dd9909f4f203a86fa6f2be417cea15b8.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/d30efab5829529229cb7afcf97cd686a.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/d2ecdce07a6d25127601177313433e43.jpg"></p> <p>在传统的关系型数据库中,所存储的数据都是 <strong>结构化</strong> 的,例如:</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/3f1b4d80e173cf98cbc6551ba71d6b79.png"></p> <p>但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为:</p> <p>用户张三, 于某某时间在商品搜索栏搜索了“苹果手机”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以6000元的价格购买了 iPhone 7 “钢琴黑”款式手机一部。</p> <p>诸如此类的用户行为数据属于 <strong>非结构化数据</strong> ,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 HBase)成为了存储大数据的更好选择。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/82440493e249d03cea745c486a429206.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/5d617cda6d42de0bfb0edc4db3efe0dd.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/d4bb67cec82d426247bdfc2ced4c5a31.jpg"></p> <p>如果没有更加快速有效的海量数据解决方案,那么如此大量多样的数据不但没有带来更多价值,反而成为了系统的负担。关于这一点,谷歌公司率先提出的MapReduce模型为我们带来了新的道路。</p> <p>MapReduce可以简单的理解成一种分治方法:把庞大的任务分成若干小任务,交给多个节点进行并行处理,然后再把所有节点的处理结果合并起来,从而大大提升了数据处理效率。(关于MapReduce的详细流程,将会在以后的文章中进行讲解。)</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/c7f2a23bee3500f73bceb6f9781e7564.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/4f152a57733b48fe0b773353d0f4bc98.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/5c4143dd5c3f6df6b1dcff6ea3117c3f.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/b51fd2681e8a3c4fd594785627a21bcc.jpg"></p> <p><strong>人工智能:</strong></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/22692ce47d140b23605ee5920cccbf40.jpg"></p> <p>以大数据作为机器学习的训练集,从而训练出拥有一定决策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通过大量围棋棋局的学习,最终拥有了打败围棋世界冠军的能力。</p> <p><strong>商业分析:</strong></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/213d2b9383c10875a7d499ace36a3547.jpg"></p> <p>从大量的用户行为数据中挖掘出有价值的商业信息。典型代表是著名社交公司LinkedIn,他们通过用户之间的关联关系,绘画出学校、公司、人才之间庞大而复杂的信息网络。不仅如此,LinkedIn还通过大量求职者和招聘方的信息,分析出哪些公司正在迅速扩张,哪些公司正在流失人才,哪些公司之间正在展开人才市场的争夺。这些对于客户公司来说,都是无价之宝。</p> <p><strong>犯罪预测:</strong></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/33c27d55efb14c71369f55a0adc30231.jpg"></p> <p>洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型,把过去80年内的130万个犯罪记录数据输入进去,结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进,已经成为了当地警局重要的参考依据,大大降低了当地的犯罪率。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/ce7adad5be793f514fc8c163eaf705e4.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/f6b355e8cef9e1645ac30ef76a012ebe.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/6bddf5ad7dc9d90e0dd02e72c1bf0720.jpg"></p> <p>这里所介绍的相关知识,只是作者对于大数据领域的浅层次理解。通过这篇漫画,希望没有从事过IT行业,或者不了解大数据的朋友们能够对大数据有一些初步的认知。</p> <p>!</p> <p> </p> <p> </p> <p> </p> <p>来自:http://blog.jobbole.com/107507/</p> <p> </p>
本文由用户 ShePedigo 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!