
大数据如何收集舆情信息?目前,我国的互联网站已达100万个,互联网用户达1.6亿户,网民达2亿多人。由于网络的虚拟性、隐蔽性、发散性、随意性等特点,网络已成为反映社会舆情的主要载体,网络舆情也对政府部门决策产生了影响。由于网络舆情是“自由超市”,不可避免敌出现鱼龙混杂、良莠不齐的局面,其内容的虚假性、爆发的威胁性都对社会稳定构成了严重影响。要建立一个基于互联网环境下的舆情预警系统,积极开展网上不稳定因素排查,全面收集、有效甄别网络舆论,定期进行分析研究,掌握民众思想状况,了解群体的倾向和意愿,对重大舆情形成预警报告。有针对性的进行引导和教育,防止舆论激化,控制不良信息引起的群体非理性行为,将危害降低到最低程度。重点围绕意识形态领域趋向性舆论、重大突发事件跟风舆论、煽动破坏性舆论,及时通过网上解答、跟帖、引导,澄清事实,以正视听,把网上炒作制止在萌芽状态。从根本上讲,网络舆情监测要求达到实时性、全面性和准确性。
乐思舆情能满足系统舆情信息服务市场三个要素,实时性:舆情获得越早,给应对和处置留下的余地就越大,而网络舆情的发展往往是爆发式的,机会稍纵即逝,一旦错失最佳时机将追悔莫及;
全面性:网络舆情容易攻其一点,不及其余,信息量大,容易使很多重要信息被忽略;
准确性:海量信息条件下,如何准确地掌握问题核心,不为纷扰所困,是得出正确判断的关键。
目前舆情监测的现状存在很多待改进的地方。
首先,手工监测存在天然局限性。通过安排固定人手24小时值班,不间断地浏览目标站点并搜索目标关键词,是在缺少自动化系统时最直接也是最初级的舆情监测方式。由于受到每个人主观思想的限制,手工监测总会有观察盲区,总会有觉得不重要但事后被证明很严重的地方,且手工无法察觉到一些站点或者一些偏僻的网页内容发生改变;同时,人不是机器,长期反复监测容易导致疲劳,经常会使得该判断出来的舆情,一不留神就漏掉了。这些都会在实时性和准确性上存在很大波动。
其次是过度依赖搜索引擎。人们往往认为在网络舆情的大海里也只有搜索引擎才可能具备捞针的本领。但是,搜索引擎仍然具有不少局限性。除了搜索结果受关键词影响很大外,搜索引擎返回的结果往往来自不受任何访问限制的网站,而诸如论坛等需要登录的网站则完全被排除在外。但是网民发表意见最多的地方,恰恰是这些提供互动功能的网站。更进一步的,搜索引擎的网络爬虫具有一定的时延性,因此不能实时搜索到最新的网页更新。
因此,搜索引擎不能为我们提供问题的全貌,因为它只针对关键词而不针对问题,所以谈不上全面性;搜索引擎也不能在第一时间得到我们所想要的结果,因为不仅是它的内容更新不够快,而且它也不能提供针对时效性的服务,所以谈不上及时性;搜索引擎只能在海量网页中返回另一个海量的结果,而且是以杂乱无章的形式,对于我们关心什么,它一无所知,所以它给出的结果是所有人都关心的,而非我关心的,因此也谈不上准确性。
可见,我们不能完全依赖搜索引擎来监测网络舆情,需要提出全新的技术手段来获知网络舆情,并跟踪和分析舆情。
