剖析美军如何从社交媒体中提取情报
发布时间:2015-07-20

 

 
近些年来,Twitter、Facebook等社交媒体蓬勃发展,为我们了解民众的思想脉搏提供了重要的机遇,社交媒体还为防务、情报以及国土安全分析人员就潜在的危机提供了早期预警,但这其中包含的庞大数据量使人们难于处理和分析。从海量的数据噪音中提取出出有价值的情报是一项艰巨的任务,需要一种自动化的解决方案。美军与企业合作,在这方面取得了一定的进展。文章编译如下:

 

社交媒体为我们了解民众的思想脉搏提供了重要的机遇:人们对于事件的反应、对于重要问题的意见、政治情绪、呼吁举行抗议活动以及其他一些事情。社交媒体还为防务、情报以及国土安全分析人员就潜在的危机提供了早期预警,如下一次“阿拉伯之春”运动、军事冲突或自然灾害。

 

如果最近发生了一次事件,居住在特定区域的人们因此对美国部队心存不满,则他们的愤怒或不满情绪可能会随时间的推移激化或平复。了解这种情绪起落的变化会有助于部队提高自身的安全认识。

 

“我们当中的大多数人通过观看电视了解事件,可能认为情况还不至于那么糟糕,不过社交媒体可能会展现一些非常有影响力的个人的负面看法,他们会影响其他人的想法,”美国SAS公司联邦国家安全小组主任丽贝卡•加西亚说,“如果我们不了解这种思想活动的轨迹,就有可能危及美国人员的安全。”

 

但这其中包含的庞大数据量使人们难于处理和分析。“此外,数据中噪声的数量——手头上与问题无关的信息——可能是惊人的,”Aptima公司分析、建模与仿真分部副总监罗伯特•麦科马克博士说。

 

从海量的噪音中清理出有价值的重要模因(meme,在诸如语言、观念、信仰、行为方式等的传递过程中与基因在生物进化过程中所起的作用相类似的因素。译者注)是一项艰巨的任务。由用户生成的铺天盖地、可公开访问的内容,如源于Twitter、博客和许多在线交流的信息,需要一种自动化的解决方案。

 

引入先进的分析技术

 

这些技术会有助于人们从海量信息中找到重要主题和思想倾向,并且可以帮助一些人了解这些主题和倾向会对民众造成何种影响。

 

社交媒体数据分析的全球性应用有一些明显案例,如去年在埃及和利比亚发生的众所周知的事件,以及在日本和海地发生的自然灾害。全球第一条有关奥萨玛•本•拉登在巴基斯坦的住所被攻破的消息就是由其邻居通过微博公布的。社交媒体网络对计划周密的抗议、示威和行动提供了最早的现场报告。

 

“该技术有潜力利用互联网上公开提供的海量信息,使得它对于社交媒体应用特别有益,”诺思罗普•格鲁曼信息系统公司地理空间业务开发总监肖恩•莱乌评论道,“能够就某一特定主题提炼具体信息,而不必费力埋头于数PB(petabytes,1petabytes=1024TB,译者注)的数据,这显著节约了大量时间,使最终用户可以把他们的时间集中于具体的任务上,而不是集中于数据挖掘上。”

 

这样一种分析技术必须能够有效管理各种形式的社交媒体数据,无论是结构化的、非结构化的/半结构化的,包括视频和音频内容。

 

“它同样适用于军事和情报应用——以各种方式,从军队征兵工作人员开始,他们会找到有关征兵重要问题的公开数据;一直到前线士兵想要了解在特定城镇或地区,民众对于美军存在现在有什么样的情绪,”MicroTech公司总裁兼首席执行官托尼•希门尼斯说,“在实际应用之前,需要对社交媒体数据进行分析,这通常超出了个人甚至是一个团队的能力。”

 

解决这个问题需要筛选大量数据以得到可操作的信息。

 

除了用于作战的公开或外部交流的信息,内部行动也能从社交媒体分析中获益。皮尤研究中心开展的“互联网与美国人生活项目”目前显示:有65%的成年互联网用户正在使用社交网站。

 

“军事行动是一项非常庞大的活动,当然可以纳入社交媒体与军人保持接触并使之参与行动,现在这种现象已经变得非常普遍,”希门尼斯评论道,“以正确的心态分析军队人员的关切、倾向和问题,可能会产生更高的效率并使任务胜利完成。”

 

因此,社交媒体分析还为提高效率和支持作战提供了又一种机遇,可以从丰富的公开数据中发现信息。

 

搜索算法

 

目前有许多公司针对社交媒体提供了先进的分析技术。

 

例如,诺思鲁普•格鲁曼公司提供的一套工具利用算法通过对公开的信息进行搜索,把数据的范围缩小到预定的主题、类别和其他标准上。“然后对这些信息进行排序,为终端用户提供相关、有针对性可管理的数据,”莱乌说。

 

诺斯鲁普•格鲁曼公司的工具旨在提醒官员注意可能的危机、冲突和社会倾向。

 

Aptima公司正在研究一项技术,称为信息发展流行模型(EpidemiologicalModeling of the Evolution of Messages,E-MEME),它把自然语言处理(natural language processing,NLP)与流行建模核心概念结合在一起。

 

信息发展流行模型采用自然语言处理技术,筛选大量的互联网数据资源和文件,从博客、新闻站点和实时社交平台(如Twitter)中提取重要的认知和传播主题。这些技术用于描述并量化所讨论的主题,如“抗议”和“选举”等。

 

数学流行模型描绘了这些思想是如何在各个地区的民众中随时间的推移传播和蔓延的。“流行学为我们提供了理解这一问题的一个出发点,以及正规化分析数据丰富的模型与技巧,”麦科马克说。

 

麦科马克解释说,在一定层次上,信息发展流行模型的目的是根据现在社交媒体、博客和新闻上正在发生的事件,就有价值的当前形势,利用更好的信息提供情报分析。“例如,如果民众对于抗议这一话题感兴趣,信息发展流行模型将通过从几个维度仔细划分,提供媒体中有关这一主题的相关信息,如位置、团队或媒体类型,”他说。

 

此外,信息发展流行模型还将提供这一主题以往的发展趋势,例如,使分析人员能够清楚在特定的某个地点,人们谈论“抗议”这一话题的兴趣正在逐渐浓厚。“除此之外,基于模型的流行学还能使我们根据历史数据和其他因素评估不同人群对于各种认知的易感程度,”他说。

 

同时,情报分析人员还能开展“假设情况”分析,如评估一种认识传播的可能性,或特定地区的人群接受一种思想的可能性。

 

MicroTech公司提供解决方案以建立有效的社交媒体实践,该公司发现“假设情况分析”有助于以几种不同的规模和配置提供可扩展的社交媒体解决方案,使用不同的硬件/软件应用程序,解决政府机构广泛的需要与需求。

 

“Social Recon Mobile是MicroTech公司研发的一种解决方案,它提供了必要的社交媒体功能,把软件和硬件都包含在一种便携式设备内,易于迅速部署,并具备几乎是实时的社交媒体挖掘功能,”希门尼斯说。

 

Social Recon MicroPodd包括一套附加移动MicroPodd组件,能提供更大的存储容量和更多功能。这种选项为现存的基础设施提供了一种插件解决方案。

 

“分析人员可以从他们当前的位置和工作站很方便地监控并跟踪用户认为重要的事情,”他说。

 

Social Recon MicroCenter是一项永久解决方案,根据现地情况定制,具备额外的社交挖掘功能,可以对特定社交媒体的整个社区进行深入挖掘。

 

“随着数据中心不断虚拟化、一体化并更具效率,这种选择为那些利用自身设施创建社交媒体功能的人们提供了一种决定性的竞争优势,”希门尼斯说。

 

托管解决方案

 

最后,社交媒体服务(Social Media as a Service,SMaaS)提供了一种与MicroTech公司其他解决方案不同的托管解决方案。社交媒体服务可以根据机构和功能的需要量身定制,它针对所有特定的主题和关心的问题深入搜寻和探索,实施概念分析、目标分析和/或系统报警。

 

“如果你正朝着一种信息技术管理策略努力,希望得到最大程度的灵活性;或者不能在新设备上进行投资时,则它尤其适用,”希门尼斯说,“我们提供分析服务,目的是在每日、每周或每月报告的基础上,就你感兴趣的主题或问题提供一份详细的电子化描述。”

 

MicroTech公司Social Recon产品全部采用数字格式管理并解析数据。这包括不需要手工标记完成的主题和相关搜索,并能克服由于全球依存度日益提高带来的语义和语言问题。“例如,人们常常使用不同的词语(不同的语义和语法)表达相同的想法。”希门尼斯解释说。

 

在社交媒体环境,如Twitter中,这个问题变得尤为明显,Twitter中使用的语言更加口语化,充满了日常的表达、俚语和不同的情感意味,如讽刺、兴奋和失望,并且表达得非常简单,难以辨别说话的背景。在多语言国家,当在线数据采用几种语言时,这个问题可能会变得极具挑战性。

 

“我们的Social Recon分析工具提供的结果是可被理解和可操作的,”他补充道。

 

这些工具能够直接提供渠道,与鼓动或煽动民众的人员联系,还能通过其发表意见使用的社交媒体工具与他们接触,或者在社交网站上与他们就某一个主题展开讨论。

 

“同样,利用我们的Social Recon工具,也可以联络那些提出不正确或负面评论的人士,并且无论出现哪些话题,都可以展开对话,”希门尼斯说。

 

这套工具还可以确定哪些地方流行的观点不太正确或正在传播错误的信息。

 

SAS公司的社交媒体分析(Social MediaAnalytics,SMA)提供了很多途径,使人们可以察看特定感兴趣的话题,剔除不相关的信息,并且囊括个人和数以百万计的人员的情绪。这套工具可以从博客、Twitter、Facebook或其他有价值的公开的社交媒体网站上提取信息。它可以由分析人员设定,查询特定的主题或关键词,而且这套工具可以全天候工作。

 

“当分析人员开始工作时,他们会得到最新的信息,并且全天持续更新,”加西亚说。

 

由SAS公司提供的解决方案还允许多个个体在相似感兴趣的领域内交换数据。随着分析人员掌握接收到的信息是更贴近自身的需要,还是与他们所需要的信息有所偏离,他们可以在工具运行过程中进一步优化搜索方法,对接收到数据实施进一步的管理。

 

“这套工具还有能力确定信息源的位置,”加西亚补充说,“SAS公司正在与AGI公司一起,在确认社交媒体用户位置的基础上,为用户提供地理位置信息。这对于作战人员来说具有重要意义,可用于评估部队威胁,或营救陷于困境而无法利用传统沟通渠道的人员。”

 

SAS可以分析28种本土语言的感情色彩,第29种语言——波斯语目前正在进行验收测试。这些语言不会被翻译成英语,而是以它们的母语形式进行评估,以提供更准确的情绪评分。“这对于评估可能的威胁非常关键,因为情绪的变化可能是细微的,”加西亚解释说。

 

SAS正在与现有用户合作,为那些需要得知有细微变化发生的用户创建情绪状态。

 

“对于一次单一的事件,一个人很难从非常积极的情绪变得非常消极,”她评论道,“因此情绪状态可以针对一个主题,在一段时间内评估目标对象观点或情感的变化。这有助于别国人员更好地了解哪些行为或活动可以在本土民众中产生一种积极或消极反应。”

 

这样做的目的是使军队成员在更深入了解平民文化,或在更深入了解他们过去对于与军队互动反应的基础上,与他们开展积极互动。

 

开源陷阱

 

开源数据的首要优势在于它的刷新速度。新的信息不断涌现。同样的道理,海量的可用数据也是一项挑战。

 

“虽然正在研究使最终用户面对的数据‘瘦身’的技术,但每年的数据集成倍增长,所以,这些技术必须相应做出调整,以跟上数据量增长的速度,”莱乌说。

 

此外,鉴于用户在获取技术上存在不对等,相对于文字信息,社交媒体未必会提供大范围民众有代表性的图片。业界目前正在讨论的一些具体问题包括多国外语分析,以及特定类型社交媒体的独特特质。

 

关于外语分析,用于推导主题的统计技术的基本水平是独立于目标对象的语言。

 

“不过,在处理外语时肯定会有难题出现,”麦科马克说,“谷歌翻译和雅虎!宝贝鱼(Yahoo! BabelFish)之类的工具能够就讨论的问题为用户提供一些粗略的认知,但不能表达更多更地道的语言上的细微差别。”

 

在整个自然语言处理界,这是一个较为活跃的研究领域。

 

媒体中拼写的不同和词汇的不同形式也带来了巨大的挑战。尤其是在Twitter中,错误的拼写、缩略语和文体的拼写变化,所有这些都使得标准的规范化技术难于实施。在这种情况下,自动化的集群技术变得十分必要。

 

加西亚补充说这当中还存在其他问题,如个体如何在博客、Twitter或其他网站上创建新的身份。个人或团体可以在保密设置的基础上隐藏他们的身份和位置信息。

 

“任何人都可以就其他人讲述的事件或提出的主题发表自己的见解,但这些事件或见解未必都是准确或真实的,”她说,“如果发现这些评论甚至有部分失实,就需要对这些信息的来源进行查证并认真评估它可能造成的影响。”

 

在感知方面也存在挑战。许多个体可能会目击事件的发生,并且会基于他们的观察角度和个人偏见使得感知非常不同。

 

加西亚指出,由于社交媒体是一种论坛,对于偏见、观察角度或有意误导没有真正的过滤器,因此必须谨慎使用这样一种强有力的工具。分析人员必须在自身经验、理解力和所学知识的基础上做出有价值的判断。社交媒体只是一种数据源,它并不比其他单一的数据来源更为精确。由于个体提供消息的可靠性无法保证,它可能更不明确。

 

“由于提供信息的人可能是这个世界上的任何一员,评论的真实性也如同这个星球上个人的诚实度一样,存在很大的差异,因此仍要依赖于我们拥有正确解读消息的能力,”她说。

 

未来的发展方向

 

莱乌预测,在下一个5年,随着越来越多的用户使用社交媒体开发作为一种信息搜集与分析的可行手段,会有大量新的工具和方法出现,以便处理不断增长的数据集。

 

希门尼斯声称,移动和社交应用程序将继续增加,功能得到扩充的设备将继续普及。

 

“实用功能会得到增强,如地理知识的补充——例如,你可以拿着自己的手机查看在一个特定方向上有哪些商店、饭店和/或设施——已经出现,但是随着产业的发展与成熟,它们将变得更加准确与实用,”他说。

 

社交媒体也开始渗透到企业。各行机构正在对内并对外应用社交工具,以更好地了解并打破阻碍经济增长与效率提高的孤岛。经历了人口结构变化并转向年轻一代的机构已经接受了此类工具,将其作为一种参与途径和沟通方式,这些机构中的个体已经适应并理解了这种做法。

 

麦科马克主张,随着美国国防部和情报机构转向更多的开放资源分析,对于先进分析能力的需求将会增加,这些能力能够解答一些战略和战术问题。

 

“在技术方面,我们将开始看到使用分布式和云计算技术处理大量实时流数据逐渐增多,”麦科马克补充道,“从统计语言模型到动态趋势分析模型,如何顺应分析技术的发展,对于这些环境,可能会是一个活跃的研究领域。”

 

最后,由于新生分析技术出现,当前工作大多集中于对社交媒体事件的回顾性分析上(如“阿拉伯之春”)。

 

“未来5年这些工具将经历真正的考验,我们将看到在事件演变成昨天的新闻之前,它们能否有效预测社交媒体的走向,”他说。

 

来自: 软件定义世界(SDX

分类: 大数据应用 标签: