|
Web是一个巨大的资源宝库,目前页面数目已超过400亿,每小时还以惊人的速度增长,里面有你需要的大量有价值的信息,例如潜在客户的列表与联系信息,竞争产品的价格列表,实时金融新闻,供求信息,论文摘要等等。
可是由于关键信息都是以半结构化或自由文本形式存在于大量的HTML网页中,很难直接加以利用。 一、 主要功能乐思网络信息采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 如下图所示:
乐思信息采集系统主要用于:门户网站的新闻采集,行业资讯采集,竞争情报获取,数据库营销等领域。 二、 系统特点
本系统最大的特点是:采集方法的灵活性与采集数据的准确性 三、 运行环境
四、 行业应用乐思信息采集系统在各个注重外部信息获取的行业都有着广泛的应用:
门户网站
企业 可以做到: 政府机关与军队 可以做到:
广告与市场研究机构 利益:
可以做到:
五、 版本功能区别
|
功能 |
标准版 |
专业版 |
企业版 |
新闻文章抽取 |
|||
网络日志(Blog)抽取 |
|||
文本文件抽取 |
|||
RSS/XML抽取 |
|||
论坛抽取 |
|||
网页屏幕快照 |
|||
支持定时自动执行 |
|||
静态URL列表抽取 |
|||
动态URL列表抽取 |
|||
直接POST查询抽取 |
|||
模拟填写表单查询抽取 |
|||
单项目表个数最大值 |
10 |
10 |
无限 |
字段个数最大值 |
30 |
60 |
无限 |
数据变形脚本最大行数 |
100 |
200 |
无限 |
连续抽取最大记录数 |
100,000 |
500,000 |
无限 |
使用时间 |
无限 |
无限 |
无限 |
网站数 |
无限 |
无限 |
无限 |
免费解决方案个数 |
1 |
2 |
3 |
另外我们还针对仅需要单独应用的客户有针对性地推出了:
乐思新闻采集系统
乐思文本采集系统
乐思论坛采集系统
乐思RSS采集系统
乐思网络信息实时采集开发包
Think for our clients.
Work for our promises.
|