来源:36大数据 刘金玲
前言:
在以往的演讲过程中,我总是在强调一件事——“大数据的群主基础不好”,换句话说,普通大众用户接受大数据这个概念和事实是需要很大的成本的,我们不要和他们讲大数据有多高大上,也不要为了显得自己牛X用大量的专业术语,把复杂的事情简单化,把复杂的事务用简单通俗的语言说出来,本身就是一种能力。所以这篇文章中,我将用简单的话语来和大家介绍大数据和大数据的行业现状。希望给那些对大数据感兴趣的朋友能有所帮助。
为什么会产生大数据呢?大数据之前难道我们都处于“暗黑时代”?
如果你去搜索“为什么会产生大数据?”这个问题,专家、学者都会给出不同的答案。面对大量的答案,大众该如何去理解?所以我用最简单的方式进行了一个归纳,我认为,产生大数据最大的三个因素是“计算”,“存储”和“智慧”,下面逐一来讲解。
在云计算出现之前,数据存储的成本是非常高的。比如说,我之前供职的是客户端网络游戏公司,那时候游戏每次要开新服,都需要去购置和部署新的服务器,还需要安排几个人去维护服务器的安全,保证数据存储的安全性和数据传输的畅通性。而且,机房还会定期进行数据清理,把部分历史数据清理出去,以便存储新的数据。在那个时代里,互联网公司各自为政,机房部署的人力和管理都是非常高的。
云计算出现后,数据存储服务衍生出了新的商业模式,集中建设数据中心大大的降低了单位计算和存储成本,比如说36大数据,我们要建设网站,现在根本不用去买服务器硬件,也不需要在雇佣人员来管理,使用阿里云的全套服务就解决了我们的问题。而且存储成本的下降,也改变了大家对数据的看法,因为存储成本不高,所以我们愿意把3个月、6个月甚至更久远的历史数据保存下来,有了历史数据的沉淀,才会想着如何把这些数据利用起来,通过不同时间的对比,来发现数据之间的关联和价值。
存储成本的下降,为大数据搭建好了最好的基础设施。
这一点可能从98年开始上网的朋友就能明显的感觉到。随着互联网的普及及网络技术的发展,加上硬件性价比的提高以及软件技术的进步 ,数据的运行、计算速度越来越快。98年你要传个10MB的文件给我,可能需要一天,放到现在,可能也就是几分钟的事情。分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了并行计算,从而大大提高了计算效率。现在还有在计算方面比Hadoop更快的框架Spark、Storm等等。
海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,那么很多事情是无法实现的。所以,在大数据的发展过程中,计算速度是非常关键的因素。
18世纪-19世纪,第一次工业革命开创了以机器代替手工劳动的时代,从而解放了部分劳动力。
19世纪七十年代,电力的发明和广泛应用,从而进入第二次工业革命,推动人类进入了电气时代。电气时代的最大影响就是增强了人们的生产能力,使交通更加便利快捷,进而改变了人们的生活方式。
那么在21世纪,我们最渴望的是什么?我们渴望解放脑劳动力,实现信息对等,让机器拥有人的智慧。
大数据带来的最大价值就是“智慧”。今天我们能看到的AlphaGo围棋人工智能程序战胜李世石,阿里云小Ai成功预测出《我是歌手》总决赛歌王,iPhone上智能化语音机器人Siri、微博上大家常年调戏的微软小冰等等,背后都是由海量数据来进行支撑的。换句话说,大数据让机器变得有智慧,大数据为机器灌输了人类的潜意识,大数据是变形金刚的Matrix和Cube。
美国CNN商业市场分析师Ben Rooney曾开玩笑说:“The data scientist was called, only half-jokingly, a caped superhero 数据科学家曾经被誉为戴着披风的超级英雄”。
我觉得一点都不夸张,大数据的确是我们这个时代的超级英雄。
所以,存储成本的下降,计算速度的提高和我们对智慧的渴望,是产生大数据的三个重要因素。
当然,要问大数据为什么一下子在全球风靡起来,维克托·迈尔·舍恩伯格的那本《大数据时代》确实起到了很大的推动作用,但并不是因为那本书才有大数据,这个逻辑一定要缕清楚。
我们一定要去问这个问题,谁在关注大数据吗?是习大大和李克强总理?是马云还是李彦宏?又或者是整天高谈阔论的专家学者?
错!
大数据的其中功能之一就是可以进行用户画像,我们完全可以用用户画像来画出大数据的关注人群图谱。
下面是36大数据根据百度指数、微博微指数、36大数据3年来沉淀的用户做得一个简单画像。
事实上,在关注大数据的人群中,有62%的人群为年龄30-49岁、本科以上学历的传统行业人员,他们来自房产、生活服务、建材家居、商务服务、金融财经、旅游酒店、餐饮美食、教育培训、医疗健康、大众消费、航天、政府公共服务等多个领域;
关注大数据的人群中,25%的用户为年龄20-29、大专以上学历、IT科技、互联网相关从业者 ;
9%的用户为垂直数据行业从业人员,这群人最大的标签是高文凭、高技术、高收入、宅、技术控、少社交、不爱传播 ,理性、理工男。
剩下还有4%是19岁以下,50岁以上这一部分人群。他们绝大部分是通过新闻宣传后,怀着对大数据的好奇心才来关注的。
所以,基于大数据关注人群的画像,可以更好的指导大数据未来的发展方向。我认为大数据未来要实现爆发式的增长,拥抱传统行业,渗透人们生活是必经之路。
我承认,大数据近年来是被炒得有些过头了,但不代表它是一个“炒作词”。大数据的背后,的确有着实实在在的数据,实实在在的技术和是实实在在的应用。大数据确实能够产生商业价值。
下面基于我个人对大数据的理解画出的一个示意图。
对于大数据企业来说,大数据涵盖了公司内部数据和外部数据两大方面。
公司内部数据包括:
1、公司使用BI(Business Intelligence)、CRM系统、ERP系统、邮件系统等产生的数据;
2、财务数据。其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据;
3、注册用户数据。无论是网站、APP还是游戏,用户注册都会填写邮箱、电话、身份证号码等数据,这些数据其实非常有价值,此外还要加上用户使用公司产品留下的行为数据。
4、历史数据。公司沉淀下来的其他各种数据,这些数据一定要整合起来。
外部数据包括:
1、社交网站数据。包括微信、微博、人人网、Twitter、Facebook、LinkedIn等社交媒体上的数据。社交数据部分是可以爬取的,另外一部分是需要运营方授权的。
2、线下采集数据。这一块目前做的公司比较少,但同时也比较有价值,比如说Wifi热点数据、地图数据等;
3、政府开放数据。目前在中国,已有多个省市不同程度的开放了部分数据,如果你想要找的话,可到相关政府网站下载。
4、智能设备、传感器数据。最典型的案例就是智能手机了,我们使用手机留下的行为数据,传感器数据,都可以整合到外部数据中来。你知道吗?一部智能手机,至少拥有8个传感设备。
5、网络可爬回的数据。除了文字之外,视频和图片也是可以爬回来的。视频和图片其实也是数据,而且是非结构化数据。
6、交易数据。这一块就比较难的,比如说商家流水数据、支付宝交易数据、信用卡消费数据等等,目前这一部分数据是最难获取的。
7、数据接口API数据。这个就不做细说了,据我所知,微博开放了商业数据API,腾讯开放了腾讯云分析SDK上报的应用数据,高德地图开放了LBS数据等等。如果你想找更多的数据API,我推荐你去数据堂、聚合数据这两家网站上看一下,上面有大量的API接口。
8、其他。其他范围就更大了,天气数据、交通数据、人口流动数据、位置数据等等。我们可以整合的外部数据种类很多很多。
整合完公司内部外部数据进行大数据存储,然后通过清洗,标注、去重、去噪、关联等过程可以将数据进行结构化,也可以进行大数据挖掘和数据分析,再以数据可视化呈现结果,打通数据孤岛形成数据闭环,将数据转换成“石油”和“生产资料”,最后应用到我们日常的生活、学习和工作中去。
当然,大数据应用到日常生活、学习和工作中,往往不是以“大数据产品”自居的,普通人能够使用到的大数据,已经是大数据加上业务场景的产品化应用和服务了。比如,百度搜索引擎、高德地图、乐思网络舆情系统其实就是基于大数据和业务场景产生的大数据产品化应用。