网络信息数据采集在大数据应用搭建中承担什么角色

什么是大数据?

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。数据内容涉及网络日志、视频、图片、地理位置等等各类网络信息。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。

大数据开启企业商业行为新模式

大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,已进入大数据时代。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

例如淘宝现有一种运费保险,即淘宝买家退货时产生的退货运费原本由买家承担,如果买家购买了运费保险,退货运费由保险公司来承担。这种购买的结果是保险公司经营亏损很严重,直接导致它们不愿意再发展和扩大运费保险。运费保险真的必然亏损吗?答案是No。

如果以信息数据抓取为基础为运费险做一套大数据智慧应用解决方案,就能很好的解决问题。因为退货发生的概率,跟买家的习惯、卖家的习惯、商品的品种、商品的价值、淘宝的促销活动等都有关系,所以,使用以上种种数据,利用数据挖掘获取此类信息,建立退货发生的概率模型,植入系统就可以在每一笔交易发生的时候,给出不同的保险费率,使保险费的收取,与退货发生的概率相匹配,这样运费险就不会亏损了。

信息数据采集决定大数据应用基础信源

从大数据的概念我们可以知道,大数据的数据源主要为网络日志、视频、图片、地理位置等等各类网络信息,而这些数据的汇集是实现大数据实施的基础,所以大数据应用建设离不开网络信息数据采集这一核心环节。

不管是政府还是企业,浏览器里的搜索、点击、网上购物、其他数据(比如气温、海水盐度、地震波)、新闻信息、网友留言、网友个人信息、产品信息、人事信息等等都是大数据应用的重要目标,这些信息数据是政府企业战略决策的重要依据。

信息数据采集需要考虑其采集量、采集速度和采集面的效果。现在常用的软件如乐思信息采集系统是功能比较全面的。系统支持的采集面涉及微博、论坛、博客、新闻网、电商网站、分类网站等各种网上可见页面;而采集类型囊括文本、数据、URL、图片、视频、音频等各种呈现类型;信息数据采集速度可以达到秒及以上。互联网是大数据信息的主要来源,能够采集什么样的信息、采集到多少信息以及哪些类型的信息,着直接影响着大数据应用功能的最终发挥效果。

深圳乐思舆情监测:www.knowlesys.cn转载请注明,谢谢!