
说到爬虫技术,不是相关行业的人或许并不清楚,但是当前提到互联网大数据却是老弱妇孺也能叨叨两句。互联网大数据时代,数据信息爆炸式增长,我们的生活变得依赖互联网,我们活动的各种轨迹也同时是我们提供的各种数据,这些数据信息的收集整理分析可以为我们带来意想不到的惊人成效。
但是,互联网上数据信息着实是太过庞大了。我们获取数据,更需要对数据信息进行删选甄别,提取有效数据来改善产品与应用。而数据信息删选就需要对文本进行挖掘研究分析。比如说商业智能研究,舆情等领域。数据采集主要针对文本关键词提取、网络舆情分析、社会网络应用分析以及用户情感倾向分析。
一)文本关键词提取。
文章标题往往具有概况、总结的功能,新闻标题尤甚,需要新闻从业者或者读者看完全篇再归纳整理出来新闻摘要。那么在海量的文章中,在全面把握文章的中心思想的基础上,迅速(每小时至少处理50万篇文章)提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、精准排序。
二)舆情分析应用。
在大数据信息时代,海量的网络信息,人们面临的问题不是信息匮乏,而是信息过载和信息噪音,所以人们关注的重心已从搜索采集的信息序化变为分析为主的信息转化。
舆情信息获取的速度和质量依赖于舆情系统技术。网络舆情系统的主要功能有信息数据自动采集、文本自动聚类和自动分类、话题与跟踪。
目前舆情分析主要集中在信息采集、热点问题发现和热点评估等方面。信息采集主要用爬虫Python以及Heritrix从web、博客、邮件、微博等采集数据,存储在PostgreSQL数据库中,再进行主题提取等。热点问题发现技术主要使用文本聚类分析的办法发现网络舆情热点。
热点事件抽取方面主要是首先对微博数据进行预处理,去除数据中噪声信息;文本聚类有很多算法,相对传统的Single-pass和K-means规则简单比较易用。舆情处理本质上是中文聚类和分类处理,关键是主要用到分词系统,Python语言调入的jieba词包,再结合各个领域的词库可以实现。
三)社会网络分析。
挖掘意见领袖成为了解决社交网络中许多实际问题的关键点,社会治理当中的舆论引导,特别是传播学领域中的社会网络研究(如图1所示),特别是近年来的商业上比较热门的广告投放和微商开展。比如用户属性分类方法进行意见领袖挖掘,主要依据关注度、粉丝数、发帖数以及是否认证对用户重要性进行评分,以关系为处理单位的社会网络分析方法在意见领袖识别当中应用越来越多。网络分析有了非常多的理论成果和软件分析工具,方法有随机网络、规整网络、小世界理论等,Ucinet是主要处理数据的关联规律软件,结合网络的可视化技术,用Netdraw软件进行展现,这两款软件均可以人机互动,操作比较简单。
四)情感倾向性分析。
情感倾向性分析,主要是态度、评价等级的测量。
过程如下:抓取获得语料,其工具主要是Python网络爬虫,这是非常庞大的海量数据,将原始数据存储在PostgreSQL数据库中。
不过,原始数据中有很多无用信息、重复评论等这些都是属于无效信息,所以要进行语料预处理,将PostgreSQL数据库转换成文本格式(txt)格式文件,再用停用词表进行过滤垃圾。
预处理之后,开始进行分词处理,只有进行分词计算机才能找到关键词和特征词,分词技术和分词方法已经比较成熟,业界使用比较多的中文分词工具是ICTCLAS中文分词系统,分词工具常用的有jieba和Ansj。
首先是将海量的数据通过分词找到主题词,比如购物平台上的服装评论,其中有款式、质量、物流三个主题词,按照三个主题词使用Word2Vec进行词语聚类,把语义距离相近的词归为一类,比如在预处理后的可用语料库中把时尚、休闲等归为款式一类,把正品、不掉色等放在质量一类,把块、及时放在物流一类。之后分别进行HowNet情感词典构建和程度级别词典构建以及否定词典构建,再进行主题词分类,计算得出句子情感倾向,用户情感倾向,最后分别得出质量、内容、物流情感倾向(如图1所示)。
这里需要说明,四种文本挖掘可以交叉使用,比如舆情分析中评论的情感性分析,可以通过上述第四种操作实现。不管是哪种分析,都包含数据爬取、存储、分词。
