Intel研究院院长吴甘沙在其最近的演讲“大数据分析师的卓越之道” 中特别提到了外部数据采集问题, 原文如下:
第二个,数据采集,这里我非常夸张地强调“数据!数据!数据!”为什么?因为大数据碰到的第一个问题就是数据饥渴症。我们有一次跟阿里聊,他们说也缺数据,只有网上的销售记录,而缺乏无线的数据。所以我们强调全量数据,我们尽量不采样。
同时现在我们企业已经从小数据到大数据,有人说数据改变太困难了,太贵了,其实它强调的是问题还没存在的时候。传统的数据仓库是,我先有一个问题,然后根据这个问题搜集和组织数据。从现在的大数据来说,需要先把数据送进来,然后再不断的提问题,这就是一种新的思维。我们需要大量的外部数据源,而且你要从传统的结构化数据到半结构化、非结构化数据。
对于外部数据饥渴症,最好的方法之一就是采用乐思网络信息采集系统,可对任意外部Web数据加以采集整合,解决“巧妇难为无米之炊”的问题。例如,我们的一个客户采集整合了大量法院的判决信息,资产信息,从而可在3秒钟内提供特定实体的资产与负债情况,很受律师界相关人士欢迎。