网络大数据挖掘如何促进防灾减灾工作?
2014年8月3日,云南鲁甸发生6.5级地震,造成617人死亡、112人失踪、3143人受伤的重点伤害,这是继2008年汶川地震、2010年玉树地震之后的又一次有重大人员伤亡的地震灾害,其给社会生命财产造成的巨大损害让人们记忆犹新。面对地震、洪涝、暴雨等灾害的袭扰,我们是否应该坐以待毙? 发生重特大自然灾害时,及时有效地采取救灾措施至关重要,这其中获取的灾情数据和分析是决定救灾措施是否有效的关键。然而现实是,灾区现场实时信息纷繁复杂且高度动态变化,人工灾情数据统计在客观上存在极大困难,并且人工灾情数据统计存在着数据量小、时效性弱的缺点,这种灾情数据对达到救灾预期有第一定的局限性。在数据成为信息时代的基础背景下,如何利用灾情数据促进防灾减灾工作值得政府部门思考。
网络大数据如何运用于防灾减灾?
互联网技术的创新和发展实现了网络信息分享的便捷性和数据传播的海量化,仅依靠这两种特性就促进了自媒体的空前繁荣,使网络大数据变得更加受重视。一方面,信息实时交互便捷、及时和低成本充分调动了网民参与的积极性,网民们不再满足于只做社会事务的旁观者,而是借助网络枳极分享及参与各项社会事务。他们在微博、微信、博客、播客、维基、在线论坛等自媒体平台,通常以文本、图像、音乐和视频等形式来分享自己意见、见解、经验和观点,或者只是单纯的事实反馈。这些传播于网络的信息数据成了网络大数据重要部分,在某些环境中对于事件情报分析有无可比拟的作用。
拿地震灾害来说,地震发生后,身在灾区的每个人都有可能成为一名灾情预报员,这时关于地震事实、震感强度、现场情况、地震时间、破坏程度、危机预警、伤亡情况,避难场所、请求救援、寻找亲人、需求物质、救灾效果评估、救灾进度看法、救灾意见等反映灾区灾情的信息数据随处可见,这些信息数据以一种没有提前规划却及时有效的方式在网络上分享和传播,这些海量文本、数据、视频、音频、图片信息内容之间上下呼应,相互关联,由此产生了地震灾情大数据。作为救灾指挥部门,则可以通过收集这些海量数据进行分类聚类分析,将灾情大数据化繁为简,从海量、分散、实时变化的灾情数据中挖掘出有价值的信息,如研判出震级、区域灾情等级、救灾物质需求区域分布状况、人员伤亡情况、救灾效果评估等情报,为救灾防灾减灾工作的有效推进提供指导,减少因灾情不准造成的救灾人员、物质分配浪费的现象。
例如2008年汶川地震时,网络上便迅速汇集了来自全国各个角落的描述震感的帖子(含时间、空间和震感描述的信息),据乐思网络舆情监测系统的采集数据显示,当时有关地震描述的帖子和博文超过100万条,地震10分钟后网友关于震感强度描述的贴文大量出现。通过网民群体的自查,迅速将震中锁定到四川绵阳附近,从地震感知、信息辨识、信息分类到确定震中和灾情,均在很短时间内同步完成,比中国地震局和政府公布信息要快速和有效得多。而在救灾过程中,有一名女大学生在网络上发布了一条非常有价值的空降坐标信息——这个位置原本是打算修建大禹祭坛的地方,非常适合直升机空降,为使这条信息不被淹没,大量网民持续不断地自愿投入时间和精力来“顶”这份帖子,终使其为大众所关注,引导了相关救灾行动。
这一不自觉应用在2010年青海玉树地震和2013年四川芦山强烈地震灾难中,表现得更为充分。当时新浪、腾讯等微博客上每天都涌现出海量灾情、救助需求、捐款等信息,有些网友甚至专门制作可视化地图来展示灾情现状。百度、谷歌、360、搜狐、人人网等在芦山地震发生后第二天,便相继推出了寻亲与报平安的寻人平台,网友通过这些平台发布寻亲信息,这很好帮助了救灾部门统计灾区人员伤亡情、失踪情况。而在防灾层面上,发生在2011年美国弗吉尼亚州的地震就是一个很好的例证。据报道,当时地震发生后,距离几百公里外的纽约州居民首先在推特上看到弗吉尼亚地震的消息,纷纷跑出屋外,几秒钟之后才感受到震感——信息传播的速度比地震波还快。
网络灾情数据挖掘存在哪些瓶颈?
网络大数据的多源、量大、内容复杂、实时性等特征能帮助政府部门预测灾害的发生发展,决定救灾的轻重缓急,在防灾减灾救灾中,网络大数据技术应用发挥着作用越来越大。然而,面对“多源、量大、内容复杂、实时性”的网络灾情数据,摆在政府救灾部门面前的的关键问题是难以获取大数据。同时,受动态社会群体与自然灾害特有的复杂性演变方式、快速蔓延、广泛影响和可能的爆炸性影响力等特征影响,传统的数据获取和处理技术难以满足现实需求,这些问题已成为灾情精准研判的瓶颈。网络灾情数据挖掘的瓶颈主要表现在两个方面:看得见大数据,抓不到大数据;抓得到大数据,又无从处理大数据。
首先,看得见大数据,抓不到大数据,其主要反映的是灾情数据的获取和收集问题。在线下,灾情发生后,特别是地震、洪涝等灾害其破坏力极强,灾后带来的往往是人员伤亡、道路阻塞、通信中断、物质匮乏、次生灾害不断,这时人们还处在悲伤的心理阴影期,一些行政组织完整性遭到破坏,人们把更多的精力重心放在抢救和自救上,其结果造成政府组织指挥效力被削弱,很多指令难以及时快速下达和落实。因此,如此极端环境下不仅难以快速收集到大量有效数据,甚至有时还夹杂着很多不准确数据。在线上,灾后网上灾情数据通常具有瞬时爆发、快速传播、大范围扩散与海量数据积聚等特点,而传统的人工数据收集方式显然很难做到及时反应、快速跟踪,全量采集,其收集的数据量一般只是整个灾情数据量的冰山一角。这种人工数据采集造成的数据量缺失对于灾情的精准研判会有很大的局限性,对有效救灾工作的推进很难发挥科学指导作用。因此,面对海量的网络灾情数据,我们只能“望网兴叹”。
其次,抓得到大数据,又无从处理大数据,其主要反映的是灾情数据的研判处理能力问题。灾情大数据具有多源性、混杂性、个体倾向性、数据分散、语义模糊和非结构化等特点,同时海量数据还存在噪音多、混杂、质量差和可信度低的问题,这都增加了灾情大数据的分析和处理难度。灾害发生后,尤其是在救助生命、抑制次生灾害时,对救灾时效性要求非常高,干预越及时,效果越显著,灾区现场数据的使用价值随着时间流逝会急剧降低。而面对问题多多的百万甚至千万灾情数据,仅仅依靠人工形式来实现数据的分类聚类、数据提取、语义分析、报告展现等,显然不切实际,第一点就很难满足信息的时效问题。如果如此数量的灾情数据,通过人工一条一条的去删选分类,大概救灾结束了信息处理还不见得完成。
自动数据处理在灾情数据获取上的应用
灾情发生,救助生命、抑制次生灾害成为第一要务,这时候救灾投入的时效性、资源数量等影响着救灾的效果,而如何快速从网络上获取灾情大数据,迅速分析研判出灾情动态,是科学指导救灾指挥的重要一环。只有解决了“抓不到大数据,无从处理大数据”的问题,我们才能发挥灾情大数据的最大潜能,真正实现大数据促进防灾救灾减灾工作。而从上文我们不难看出,破解灾情数据挖掘瓶颈的核心是怎么解决数据抓取和数据分析的时效性,这一点基于自动化的信息采集数据处理系统可以实现,下面以深圳乐思的信息采集系统和舆情监测系统为例。
在网络数据采集方面。成立2003年的深圳乐思软件,依托其互联网海量信息精确监测与垂直挖掘领域丰富的实践经验与领先优势,研发出了网络信息采集系统产品。该网络信息采集系统根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。它可以实现固定网站、页面的信息实时自动化采集,对目标网站上可见的文本信息、URL、数字、日期、图片、视频、音频信息实时抓取入库,采集平台覆盖微博、微信、论坛、博客、新闻、视频、社交等多种平台,并支持多种语言信息数据抓取,其抓取速度高达每秒上万条数据,同时实现抓取过程中的无关内容去除。如在灾情发生后,可以通过乐思网络信息采集系统,在极短时间内采集到微博、微信、论坛、新闻评论等平台上的网友贴文和跟帖,并根据不同需求要素对数据进行入库,解决人工采集难以实现的信息量、覆盖面和收集速度问题,为下一步的数据分析研判提供足量及时的数据。
在数据处理分析方面,乐思舆情监测系统则具有很好的数据处理和分析能力。该系统可以通过系统的分析浏览子系统把采集到的数据按照需求设置进行自动分类、聚类,自动提取信息数据摘要,实现人名识别、地名识别和机构识别聚集,对数据信息实施一定语义情感判别,最终实现对数据背后反映的问题的研判,形成各种丰富数据列表和数据走势图表,为指挥中心提供最直观的数据报告。最主要的是系统可以再30分钟内同时分析几十万条甚至几百万条数据,很好提高数据处理的效率,保证数据分析的时效性。比如想要掌握灾区各地物质需求情况,救灾部门可以抓取微博或者论坛上跟“灾情描述”相关的海量数据信息,利用系统的聚类功能以地名、物资名等要素来对数据进行分类,然后通过处理后的数据量来研判哪些地方救灾物质紧缺,那种救灾物质缺口最大,最终依此实现救灾资源的配送,减少对灾情不了解造成的资源分配浪费问题。
推荐阅读
政府舆情监测如何实现预警负面、危机公关和反馈民意?
互联网时代 企业如何从网络大数据中挖掘市场新需求
网络舆情监测系统在打击网络色情上的应用
如何实现网络舆情信息的快速准确抓取
如何推进消防负面舆情监测工作化解消防舆情危机