乐思网络新闻转载系统
乐思网络新闻转载系统是基于全球领先的采集技术而研发,可以每天辅助网编系统地批量地快速地发现有新闻价值的实时信息。
一、 系统概述
乐思网络新闻转载系统是针对的趋势,通过对大量目标网站(如新闻,论坛,博客,微博等)进行实时自动采集、汇总、识别其中的关键信息, 从而第一发现具有新闻价值的信息,并提供后续编辑审核功能的一套网编工作平台。
其系统架构如下图所示: 乐思 软件knowlesys.com
图1. 乐思网络新闻转载系统的系统架构
相比目前的人工新闻转载,其优势明显:
比较指标 |
采用乐思网络新闻转载系统 |
人工转载 |
目标网站 |
几百个到几千个几万个 |
几十个 |
人力成本 |
网络信息的获取工作完全由软件自动进行,少数网编人员只需在内网集中进行内容的浏览与分析 |
大量网编需分别登录各个网站,手工查阅,还要手工复制粘贴,疲于奔命 |
新闻线索识别 |
在自动判别的基础上再人工确认 |
需要逐条人工查看确认 |
信息保存 |
精确,全面,便于事后追踪 |
零碎,不可避免会出错 |
数据存储 |
统一存放在大型关系数据库中,集中管理 |
随时粘贴,很难管理 |
工作报告 |
基于自动化的统计分析, |
模糊,不清楚,没有数量统计: 乐思 软件 |
转载效果 |
系统、大量地转载合作媒体或网友曝料,网站流量与排名迅速提升 |
不系统,少量 |
二、 实施后的利益
1. 各大新闻网站,纸质媒体,论坛,博客,微博,视频网站中的最新信息都自动集中呈现
2. 系统快速地发现有价值信息,只需一点鼠标即可选择
3. 网编的更多时间可以放在深度编辑或原创上 乐思
4. 每日转载量呈几十倍几百倍提升,网站流量与排名迅速提升
三、 系统组成
乐思网络新闻转载系统由两个子系统组成:自动采集子系统与结果浏览子系统。其关系如下图所示:
图2. 系统组成
乐思网络新闻转载系统的网络拓扑结构如下图所示,依据需要也可以分开在隔离的外网与内网中实施。
图3. 网络拓扑结构
四、 自动采集子系统功能描述
自动采集子系统可以对任意目标网站进行自动采集。
例如:新华网、强国论坛、天涯社区、西祠社区、网易社区、新浪论坛、搜狐社区、凤凰网、百度贴吧、以及用户指定的其他动态网站。可以抽取所有新闻文章或主题帖或者最新主题帖内容,还可以抽取某个主题帖的所有回复帖或者最新回复帖的内容。即可指定某个目标网站进行监测,也可以不指定目标网站对于全球范围内网站进行监测,或者进行两者混合监测。既可以监测国内网站,也可以监测国外网站如BBC,CNN。
后端数据库支持任意的主流关系型数据库,如Oracle、IBM DB2、 MS SQL Server、 MySQL、 Sybase以及文件型数据库Access等。
乐 思 软 件
自动采集子系统的全方位监测功能如下图所示:
图4. 自动采集子系统全方位监测
自动采集子系统具有以下几个显著特点:
1. 全球领先的自动采集功能
乐思软件的网络信息采集技术全球领先,支持对任意网页内任意数据的精确采集。乐思软件每天都为国内外用户针对各种各样的网站提供采集服务,没有高效稳定的采集平台是无法做到的。
2. 支持各种监测对象
可以实时监测新闻,论坛,博客,公共聊天室,搜索引擎,留言板,应用程序,报刊网站电子版等。
3. 无需配置直接监测几千个新闻网站
系统内置对全球范围内网站的监测配置,只需输入关键词,自动采集出文章标题与正文。
4. 强大的多语言统一处理功能
可自动处理并保存中文,英文,法文,德文,日语,韩语等多国语言。 knowlesys.cn
5. 智能文章提取
对于文章类型网页,可以无需配置,直接自动提取文章正文与标题,以及作者发布日期等,自动去除广告,栏目,版权等无关的垃圾内容
6. 完美支持各种网页情况
支持当前流行的Web 2.0 AJAX动态网站
支持用户名与密码自动登录
支持表单查询新闻转载
支持下一页自动浏览功能
支持多页面文章内容自动抽取与合并 乐 思 软 件
可以自动下载正文内图片以及各类附件
可以选择保存原文快照以备查
支持多种互联网协议: HTTP、HTTPS、以及FTP
支持多种网络文件格式:HTML/XML/CSV/TEXT/RSS/ATOM
…
7. 自动去重功能
每次采集时,对于同一个URL,仅采集最新的没有采集过的文章内容或回复,对于已经采集过的内容,自动忽略。对于转载文章,可以选择自动去重。
8. 内置各种后期数据处理功能
数据从网页上获取后,可进一步精加工为各种更细粒度的字段数据或者合并整合,替换统计等. 例如关键词抽取,街道地址抽取,省市名称抽取,邮编抽取,电话号码抽取,传真号码抽取,电子邮件地址抽取,QQ/MSN/Skype抽取,URL抽取等。 乐-思-软-件
9. 可无人值守全天候自动采集
可定时运行,也可7×24小时运行,可设置采集时间间隔最短为1分钟。
10. 用户可以自行添加目标监测网站
利用系统提供的采集平台,用户可以很容易地对目标网站进行可视化分析,配置出采集任务文件,加入调度过程,从而可以任意修改,增加,移除监测目标。
五、 结果浏览子系统功能描述
结果浏览子系统让各个可能新闻来源网站的最新信息实时呈现在用户的桌面浏览器中,其功能架构如下。
图5. 结果浏览子系统功能架构
结果浏览子系统具有以下显著特点:
1. 多人协同工作
不同用户浏览不同内容,执行不同操作,完成不同职责
2. 文章要素显示
对于新闻文章与博客文章,可采集标题,正文,作者,发布时间,来源
对于关键词用高亮背景彩色显示 新闻转载
更可以仅显示标题列表便于快速浏览
3. 帖子要素显示
对于论坛帖子,可采集标题,正文,作者,发贴时间,查看次数,回复贴数, 发贴人IP
对于关键词用高亮背景彩色显示
更可以仅显示标题列表便于快速浏览
4. 分类与编辑
对于采集后的信息内容,可以进行过滤,分类,备注,与编辑,便于后期管理与分析
5. 强大的搜索功能
既可以精确搜索也可以模糊搜索,既可以按分类搜索,也可按来源搜索
6. 支持人工添加
可以人工添加文章 新闻监测论坛监测博客监测
7. 反网站限制功能
可采集被国内屏蔽的国外网站,可采集限制了来源IP与访问频率的网站,可自动获取代理IP,无需设置
六、 系统实施
本系统主要应用于各类门户网站运营商。
由于互联网的复杂性,乐思网络新闻转载系统实施起来需要与客户的交流与配合。
针对客户需求,我们提供如下系统实施服务:
编号 |
名称 |
内容 |
1 |
交钥匙工程 |
提供乐思网络新闻转载系统的整套软件与文档, |
2 |
培训 |
提供远程培训或上门培训服务 |
3 |
后续服务 |
定期提供目标网站更新后的配置参数文件 |
4 |
技术支持 |
通过电话、Email、QQ/MSN/Skype 回答用户的问题,进行技术支持 |